Afbeeldingen uit een PDF-bestand extraheren en opslaan in Linux
U kunt PDF-bestanden gemakkelijk converteren naar bewerkbare tekst in Linux met behulp van het opdrachtregelhulpprogramma "pdftotext". Als er echter afbeeldingen in het originele PDF-bestand staan, worden deze niet geëxtraheerd. Om afbeeldingen uit een PDF-bestand te extraheren, kunt u een ander opdrachtregelprogramma gebruiken met de naam "pdfimages".
OPMERKING: wanneer we zeggen dat u iets in dit artikel typt en er zijn aanhalingstekens rond de tekst, typt u NIET de aanhalingstekens, tenzij anders aangegeven.
De "pdfimages" -tool maakt deel uit van het pakket poppler-utils. U kunt controleren of het op uw systeem is geïnstalleerd en installeer het indien nodig met behulp van de stappen die in dit artikel worden beschreven.
Als u afbeeldingen uit een PDF-bestand wilt extraheren met pdfimages, drukt u op "Ctrl + Alt + T" om een terminalvenster te openen. Typ de volgende opdracht bij de prompt.
pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / afbeelding
OPMERKING: vervang voor alle opdrachten in dit artikel het eerste pad in de opdracht en de PDF-bestandsnaam naar het pad en de bestandsnaam voor uw originele PDF-bestand. Het tweede pad moet het pad naar de hoofdmap zijn waarin u de geëxtraheerde afbeeldingen wilt opslaan. Het woord "afbeelding" aan het einde van het tweede pad staat voor alles waarmee u uw bestandsnaam wilt invoeren. De bestandsnamen van de afbeeldingen zijn automatisch genummerd (000, 001, 002, 003, etc.). Als u tekst aan het begin van elke afbeelding wilt toevoegen, voert u die tekst aan het einde van het tweede pad in. In ons voorbeeld begint elke bestandsnaam van een afbeelding met "image", zoals image-001.ppm, image-002.ppm, enz. Een streepje wordt toegevoegd tussen de tekst die u opgeeft en het nummer.
Het standaardbeeldformaat is PPM (portable pixmap) voor niet-monochrome afbeeldingen of PBM (portable bitmap) voor monochrome afbeeldingen. Deze formaten zijn ontworpen om eenvoudig tussen platforms te worden uitgewisseld.
OPMERKING: mogelijk krijgt u twee afbeeldingsbestanden voor elke afbeelding in uw PDF-bestand. De tweede afbeelding voor elke afbeelding is leeg. U kunt dus zien welke afbeeldingen de afbeeldingen uit het bestand bevatten door de miniatuur op het bestand in Bestandsbeheer te klikken.
Als u .jpg-afbeeldingsbestanden wilt maken, voegt u de optie "-j" toe aan de opdracht, zoals hieronder wordt weergegeven.
pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / afbeelding
OPMERKING: U kunt de standaarduitvoer ook wijzigen in PNG met de optie "-ng" of TIFF met de optie "-tiff".
Het hoofdbeeldbestand voor elke afbeelding wordt opgeslagen als een .jpg-bestand. De tweede lege afbeelding is nog steeds een bestand van .ppm of .pbm.
Als u alleen afbeeldingen op en na een bepaalde pagina wilt converteren, gebruikt u de optie "-f" met een nummer om de eerste pagina aan te geven die moet worden geconverteerd, zoals weergegeven in de onderstaande voorbeeldopdracht.
pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
OPMERKING: We combineerden de "-j" -optie met de "-f" -optie, zodat we .jpg-afbeeldingen zouden krijgen en hetzelfde deden met de "-l" -optie die hieronder wordt vermeld.
Als u alle afbeeldingen vóór en op een bepaalde pagina wilt converteren, gebruikt u de optie "-l" (een kleine letter "L", niet het cijfer "1") met een cijfer om de laatste pagina aan te geven die moet worden geconverteerd, zoals hieronder wordt weergegeven.
pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
OPMERKING: u kunt de opties "-f" en "-l" samen gebruiken om afbeeldingen in een bepaald paginabereik in het midden van uw document te converteren.
Als het PDF-bestand een eigenaarswachtwoord bevat, gebruikt u de optie "-opw" en het wachtwoord tussen enkele aanhalingstekens, zoals hieronder wordt weergegeven. Als het wachtwoord van het PDF-bestand een gebruikerswachtwoord is, gebruik dan de "-upw" -optie met het wachtwoord.
OPMERKING: zorg ervoor dat er enkele aanhalingstekens rond uw wachtwoord staan in de opdracht.
pdfimages -opw 'password' -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
Voor meer informatie over het gebruik van de opdracht pdfimages typt u "pdfimages" bij de prompt in een terminalvenster en drukt u op "Enter". Het gebruik van de opdracht wordt weergegeven met een lijst met beschikbare opties voor gebruik in de opdracht.