Startpagina » hoe » Afbeeldingen uit een PDF-bestand extraheren en opslaan in Linux

    Afbeeldingen uit een PDF-bestand extraheren en opslaan in Linux

    U kunt PDF-bestanden gemakkelijk converteren naar bewerkbare tekst in Linux met behulp van het opdrachtregelhulpprogramma "pdftotext". Als er echter afbeeldingen in het originele PDF-bestand staan, worden deze niet geëxtraheerd. Om afbeeldingen uit een PDF-bestand te extraheren, kunt u een ander opdrachtregelprogramma gebruiken met de naam "pdfimages".

    OPMERKING: wanneer we zeggen dat u iets in dit artikel typt en er zijn aanhalingstekens rond de tekst, typt u NIET de aanhalingstekens, tenzij anders aangegeven.

    De "pdfimages" -tool maakt deel uit van het pakket poppler-utils. U kunt controleren of het op uw systeem is geïnstalleerd en installeer het indien nodig met behulp van de stappen die in dit artikel worden beschreven.

    Als u afbeeldingen uit een PDF-bestand wilt extraheren met pdfimages, drukt u op "Ctrl + Alt + T" om een ​​terminalvenster te openen. Typ de volgende opdracht bij de prompt.

    pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / afbeelding

    OPMERKING: vervang voor alle opdrachten in dit artikel het eerste pad in de opdracht en de PDF-bestandsnaam naar het pad en de bestandsnaam voor uw originele PDF-bestand. Het tweede pad moet het pad naar de hoofdmap zijn waarin u de geëxtraheerde afbeeldingen wilt opslaan. Het woord "afbeelding" aan het einde van het tweede pad staat voor alles waarmee u uw bestandsnaam wilt invoeren. De bestandsnamen van de afbeeldingen zijn automatisch genummerd (000, 001, 002, 003, etc.). Als u tekst aan het begin van elke afbeelding wilt toevoegen, voert u die tekst aan het einde van het tweede pad in. In ons voorbeeld begint elke bestandsnaam van een afbeelding met "image", zoals image-001.ppm, image-002.ppm, enz. Een streepje wordt toegevoegd tussen de tekst die u opgeeft en het nummer.

    Het standaardbeeldformaat is PPM (portable pixmap) voor niet-monochrome afbeeldingen of PBM (portable bitmap) voor monochrome afbeeldingen. Deze formaten zijn ontworpen om eenvoudig tussen platforms te worden uitgewisseld.

    OPMERKING: mogelijk krijgt u twee afbeeldingsbestanden voor elke afbeelding in uw PDF-bestand. De tweede afbeelding voor elke afbeelding is leeg. U kunt dus zien welke afbeeldingen de afbeeldingen uit het bestand bevatten door de miniatuur op het bestand in Bestandsbeheer te klikken.

    Als u .jpg-afbeeldingsbestanden wilt maken, voegt u de optie "-j" toe aan de opdracht, zoals hieronder wordt weergegeven.

    pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / afbeelding

    OPMERKING: U kunt de standaarduitvoer ook wijzigen in PNG met de optie "-ng" of TIFF met de optie "-tiff".

    Het hoofdbeeldbestand voor elke afbeelding wordt opgeslagen als een .jpg-bestand. De tweede lege afbeelding is nog steeds een bestand van .ppm of .pbm.

    Als u alleen afbeeldingen op en na een bepaalde pagina wilt converteren, gebruikt u de optie "-f" met een nummer om de eerste pagina aan te geven die moet worden geconverteerd, zoals weergegeven in de onderstaande voorbeeldopdracht.

    pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

    OPMERKING: We combineerden de "-j" -optie met de "-f" -optie, zodat we .jpg-afbeeldingen zouden krijgen en hetzelfde deden met de "-l" -optie die hieronder wordt vermeld.

    Als u alle afbeeldingen vóór en op een bepaalde pagina wilt converteren, gebruikt u de optie "-l" (een kleine letter "L", niet het cijfer "1") met een cijfer om de laatste pagina aan te geven die moet worden geconverteerd, zoals hieronder wordt weergegeven.

    pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

    OPMERKING: u kunt de opties "-f" en "-l" samen gebruiken om afbeeldingen in een bepaald paginabereik in het midden van uw document te converteren.

    Als het PDF-bestand een eigenaarswachtwoord bevat, gebruikt u de optie "-opw" en het wachtwoord tussen enkele aanhalingstekens, zoals hieronder wordt weergegeven. Als het wachtwoord van het PDF-bestand een gebruikerswachtwoord is, gebruik dan de "-upw" -optie met het wachtwoord.

    OPMERKING: zorg ervoor dat er enkele aanhalingstekens rond uw wachtwoord staan ​​in de opdracht.

    pdfimages -opw 'password' -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

    Voor meer informatie over het gebruik van de opdracht pdfimages typt u "pdfimages" bij de prompt in een terminalvenster en drukt u op "Enter". Het gebruik van de opdracht wordt weergegeven met een lijst met beschikbare opties voor gebruik in de opdracht.