Startpagina » Vrije Software Downloads » Tekst uit PDF- en afbeeldingsbestanden uitpakken

    Tekst uit PDF- en afbeeldingsbestanden uitpakken

    Heeft u een PDF-document waaruit u alle tekst wilt halen? Hoe zit het met de beeldbestanden van een gescand document dat u in bewerkbare tekst wilt converteren? Dit zijn enkele van de meest voorkomende problemen die ik op de werkplek heb gezien tijdens het werken met bestanden.

    In dit artikel zal ik het hebben over verschillende manieren waarop u kunt proberen tekst uit een PDF of een afbeelding te extraheren. Uw extractieresultaten zijn afhankelijk van het type en de kwaliteit van de tekst in de PDF of afbeelding. Uw resultaten zullen ook variëren afhankelijk van de tool die u gebruikt, dus u kunt het beste zoveel mogelijk onderstaande opties proberen om de beste resultaten te krijgen.

    Tekst uit afbeelding of pdf extraheren

    De eenvoudigste en snelste manier om te beginnen, is door een online PDF-tekstafzuigservice te proberen. Deze zijn normaal gesproken gratis en kunnen u precies geven waarnaar u op zoek bent zonder iets op uw computer te hoeven installeren. Hier zijn er twee die ik heb gebruikt met zeer goede tot uitstekende resultaten:

    ExtractPDF

    ExtractPDF is een gratis hulpmiddel om afbeeldingen, tekst en lettertypen uit een PDF-bestand te halen. De enige beperking is dat de maximale grootte voor het PDF-bestand 10 MB is. Dat is een beetje klein; dus probeer een van de andere methoden hieronder als u een groter bestand heeft. Kies uw bestand en klik vervolgens op Verstuur bestand knop. De resultaten zijn normaal gesproken erg snel en u zou een voorbeeld van de tekst moeten zien als u op het tabblad Tekst klikt.

    Het is ook een mooi bijkomend voordeel dat het afbeeldingen uit het PDF-bestand haalt, voor het geval u die nodig hebt! Over het algemeen werkt de online tool prima, maar ik heb een paar PDF-documenten tegengekomen die me een grappige uitvoer geven. De tekst wordt prima geëxtraheerd, maar om een ​​of andere reden heeft het een regelafbreking na elk woord! Geen enorm probleem voor een kort PDF-bestand, maar zeker een probleem voor bestanden met veel tekst. Als dat gebeurt, probeer dan de volgende tool.

    Online OCR

    Online OCR werkte meestal voor de documenten die niet goed met ExtractPDF konden worden geconverteerd, dus het is een goed idee om beide services te proberen om te zien welke voor een betere uitvoer zorgen. Online OCR heeft ook enkele leukere functies die handig kunnen zijn voor iedereen met een groot PDF-bestand dat slechts tekst op een paar pagina's hoeft te converteren in plaats van het hele document.

    Het eerste dat u wilt doen is doorgaan en een gratis account maken. Het is een beetje vervelend, maar als u niet het gratis account maakt, zal het uw PDF slechts gedeeltelijk converteren in plaats van het volledige document. In plaats van alleen een document van 5 MB te kunnen uploaden, kunt u ook maximaal 100 MB per bestand met een account uploaden.

    Kies eerst een taal en kies vervolgens het type uitvoerindelingen dat u zou willen gebruiken voor het geconverteerde bestand. Je hebt een aantal opties en je kunt er meer dan één kiezen als je wilt. Onder Document met meerdere pagina's, je kunt selecteren Paginanummers en kies vervolgens alleen de pagina's die u wilt converteren. Vervolgens selecteert u het bestand en klikt u op Converteren!

    Na de conversie wordt u naar het gedeelte Documenten gebracht (als u bent ingelogd), waar u kunt zien hoeveel vrije pagina's er nog beschikbaar zijn en koppelingen om uw geconverteerde bestanden te downloaden. Het lijkt erop dat je maar 25 pagina's gratis per dag hebt, dus als je meer dan dat nodig hebt, moet je een beetje wachten of meer pagina's kopen.

    Online OCR leverde uitstekend werk in het converteren van mijn PDF's omdat het de daadwerkelijke lay-out van de tekst kon behouden. In mijn test nam ik een Word-document dat kogels, verschillende lettergrootten, enzovoort gebruikte en dit naar een PDF converteerde. Daarna gebruikte ik Online OCR om het terug te zetten naar Word-formaat en het was ongeveer 95% hetzelfde als het origineel. Dat is behoorlijk indrukwekkend voor mij.

    En als u een afbeelding naar tekst wilt converteren, dan kan Online OCR dat net zo gemakkelijk doen als het extraheren van tekst uit PDF-bestanden.

    Gratis online OCR

    Omdat ik sprak over OCR-afbeelding naar tekst, wil ik nog een goede website vermelden die heel goed werkt op afbeeldingen. Gratis online OCR was zeer goed en zeer nauwkeurig bij het uitpakken van tekst uit mijn testafbeeldingen. Ik nam een ​​paar foto's van mijn iPhone met pagina's uit boeken, pamfletten, enz. En ik was verbaasd over hoe goed het in staat was om de tekst te converteren.

    Kies uw bestand en klik vervolgens op de knop Uploaden. Op het volgende scherm zijn er een aantal opties en een voorbeeld van de afbeelding. Je kunt het bijsnijden als je niet alles wilt OCR. Klik vervolgens op de OCR-knop en uw geconverteerde tekst verschijnt onder het afbeeldingsvoorbeeld. Het heeft ook geen enkele beperking, wat erg leuk is.

    Naast de online services zijn er twee freeware PDF-converters die ik wil vermelden voor het geval dat u software nodig hebt die lokaal op uw computer wordt uitgevoerd om de conversies uit te voeren. Bij online services hebt u altijd een internetverbinding nodig en dat is misschien niet voor iedereen mogelijk. Ik merkte echter dat de kwaliteit van de conversies van de freeware-programma's aanzienlijk slechter was dan die van de websites.

    A-PDF Text Extractor

    A-PDF Text Extractor is freeware dat redelijk goed werkt door het extraheren van tekst uit PDF-bestanden. Zodra u het hebt gedownload en geïnstalleerd, klikt u op de knop Openen om uw PDF-bestand te kiezen. Klik vervolgens op Tekst extraheren om het proces te starten.

    Het zal je een locatie vragen om het tekstuitvoerbestand op te slaan en dan zal het beginnen met extraheren. U kunt ook op de klikken Keuze knop, waarmee u alleen bepaalde pagina's kunt selecteren om te extraheren en het extractietype. De tweede optie is interessant omdat het de tekst in verschillende lay-outs extraheert en het de moeite waard is om alle drie te proberen om te zien welke het beste resultaat geven.

    PDF2Text Pilot

    PDF2Text Pilot doet er goed aan om tekst te extraheren. Het heeft geen opties; je voegt gewoon bestanden of mappen toe, converteert en hoopt op het beste. Het werkte goed op sommige PDF's, maar voor de meerderheid van hen waren er tal van problemen.

    Klik gewoon op Bestanden toevoegen en klik vervolgens op Converteren. Zodra de conversie is voltooid, klikt u op Bladeren om het bestand te openen. Uw kilometerstand zal variëren met dit programma, dus verwacht niet veel.

    Het is ook de moeite waard om te vermelden dat als u zich in een bedrijfsomgeving bevindt of een kopie van Adobe Acrobat van uw werk kunt krijgen, u echt veel betere resultaten kunt behalen. Acrobat is natuurlijk niet gratis, maar het heeft opties om PDF naar Word, Excel en HTML-indeling te converteren. Het doet ook de beste taak om de structuur van het originele document te behouden en gecompliceerde tekst te converteren.