Hoe een PDF-bestand converteren naar bewerkbare tekst met behulp van de opdrachtregel onder Linux
Er zijn verschillende redenen waarom u een PDF-bestand naar bewerkbare tekst wilt converteren. Misschien moet u een oud document herzien en heeft u alleen de PDF-versie ervan. Het converteren van PDF-bestanden in Windows is eenvoudig, maar wat als u Linux gebruikt?
Maak je geen zorgen. We laten u zien hoe u PDF-bestanden gemakkelijk kunt omzetten in bewerkbare tekst met behulp van een opdrachtregelprogramma pdftotext, dat deel uitmaakt van het pakket "poppler-utils". Deze tool is mogelijk al geïnstalleerd. Om te controleren of pdftotext op uw systeem is geïnstalleerd, drukt u op "Ctrl + Alt + T" om een terminalvenster te openen. Typ de volgende opdracht bij de prompt en druk op "Enter".
dpkg -s poppler-utils
OPMERKING: wanneer we zeggen dat u iets in dit artikel typt en er zijn aanhalingstekens rond de tekst, typt u NIET de aanhalingstekens, tenzij anders aangegeven.
Als pdftotext niet is geïnstalleerd, typt u de volgende opdracht bij de prompt en drukt u op "Enter".
sudo apt-get install poppler-utils
Typ je wachtwoord als daarom wordt gevraagd en druk op "Enter".
Er zijn verschillende hulpmiddelen beschikbaar in het pakket met poppler-utils voor het converteren van PDF naar verschillende indelingen, het manipuleren van PDF-bestanden en het extraheren van informatie uit bestanden.
Het volgende is de basisopdracht voor het converteren van een PDF-bestand naar een bewerkbaar tekstbestand. Druk op "Ctrl + Alt + T" om een terminalvenster te openen, typ de opdracht bij de prompt en druk op "Enter".
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Wijzig het pad naar elk bestand om overeen te komen met de locatie en naam van uw originele PDF-bestand en waar u het resulterende tekstbestand wilt opslaan. Wijzig ook de bestandsnamen om overeen te komen met de namen van uw bestanden.
Het tekstbestand wordt gemaakt en kan worden geopend net zoals u elk ander tekstbestand in Linux zou openen.
De geconverteerde tekst kan regeleinden bevatten op plaatsen die u niet wilt. Regeleinden worden ingevoegd na elke regel tekst in het PDF-bestand.
U kunt de lay-out van uw document (kop- en voetteksten, paging, enz.) Behouden vanuit het originele PDF-bestand in het geconverteerde tekstbestand met de vlag "-layout".
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Als u alleen een bereik van pagina's in een PDF-bestand wilt converteren, gebruikt u de vlaggen "-f" en "-l" (kleine letters "L") om de eerste en laatste pagina's op te geven van het bereik dat u wilt converteren.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Om een PDF-bestand te converteren dat is beveiligd en gecodeerd met een eigenaarswachtwoord, gebruikt u de vlag "-opw" (het eerste teken in de vlag is een kleine letter "O", geen nul).
pdftotext -opw 'password' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Wijzig 'wachtwoord' in het wachtwoord dat wordt gebruikt om het oorspronkelijke PDF-bestand te beschermen dat wordt geconverteerd. Zorg ervoor dat er enkele aanhalingstekens zijn, niet dubbel, rond "wachtwoord".
Als het PDF-bestand is beveiligd en gecodeerd met een gebruikerswachtwoord, gebruikt u de vlag "-upw" in plaats van de vlag "-ww". De rest van het commando is hetzelfde.
U kunt ook het type einde van de lijnteken opgeven dat op de geconverteerde tekst wordt toegepast. Dit is vooral handig als u van plan bent om toegang te krijgen tot het bestand op een ander besturingssysteem zoals Windows of Mac. Gebruik hiervoor de vlag "-eol" (het middelste teken in de vlag is een kleine letter "O", geen nul) gevolgd door een spatie en het type van het einde van de regel dat u wilt gebruiken (" unix "," dos "of" mac ").
OPMERKING: als u geen bestandsnaam voor het tekstbestand opgeeft, gebruikt pdftotext automatisch de basis van de PDF-bestandsnaam en wordt de extensie ".txt" toegevoegd. "File.pdf" wordt bijvoorbeeld geconverteerd naar "file.txt". Als het tekstbestand is opgegeven als "-", wordt de geconverteerde tekst naar stdout verzonden, wat betekent dat de tekst in het terminalvenster wordt weergegeven en niet in een bestand wordt opgeslagen.
Klik op de knop "X" in de linkerbovenhoek om het Terminal-venster te sluiten.
Voor meer informatie over de opdracht pdftotext typt u "man page pdftotext" bij de prompt in een terminalvenster.