Tekst en afbeeldingen gemakkelijk uit MS Office-bestanden extraheren
We kunnen tegenkomen de noodzaak om afbeeldingen of tekst uit een MS Word of MS PowerPoint-bestand te extraheren. Meestal kan dit handmatige kopiëren en plakken, één pagina per keer, en met megagrootte bestanden, dit gaat nogal wat tijd kosten.
Nou, we hebben een eenvoudige truc om je te helpen extraheer afbeeldingen en tekst uit bestanden van de nieuwe indeling dat wil zeggen DOCX, PPTX, XLSX terwijl met bestanden van het oudere formaat dat wil zeggen DOC, PPT, XLS, alles wat je nodig hebt is een gratis software om u te helpen snel en eenvoudig afbeeldingen te extraheren.
Notitie: Voor de demonstratie van dit bericht gebruiken we alleen een MS Word-bestand. Het proces is hetzelfde voor MS Powerpoint- en MS Excel-bestanden.
Dit is wat dit artikel behandelt:
- Hoe afbeeldingen en tekst uit DOCX-, PPTX-, XLXS-bestanden te extraheren
- Hoe afbeeldingen uit een enkel DOC-, PPT- of XLS-bestand te extraheren
- Hoe afbeeldingen uit meerdere DOC-, PPT- of XLS-bestanden te extraheren
- Hoe afbeeldingen uitpakken met “Opslaan als webpagina” methode
- Hoe u platte tekst kunt extraheren in plaats van XML
Afbeeldingen en tekst extraheren uit DOCX-, PPTX-, XLXS-bestanden
Open de map met uw bestanden voordat u de stappen volgt. Klik Organiseren> Map- en zoekopties> Bekijken en haal het vinkje weg Verberg extensies voor bekende bestandstypen. Nu kunt u de bestandsextensie bekijken met elke bestandsnaam.
-
Lokaliseren en selecteren het bestand waarvan je afbeeldingen en tekst wilt extraheren (let op: het is beter om een kopie van dat bestand te maken). In dit voorbeeld is ons doelbestand genoemd Voorbeeld File.docx.
-
druk op F2 om het bestand te hernoemen en de extensienaam te vervangen door .ritssluiting.
-
Er wordt een waarschuwing weergegeven om de wijziging van de bestandsextensie te bevestigen. Klik Ja.
-
Klik met de rechtermuisknop op het ZIP-bestand en klik op Bestanden uitpakken.
-
Zoek en open de map met de uitgepakte gegevens en open vervolgens de woord.
-
Hierin ziet u enkele mappen en XML-bestanden. In de media map vindt u de geëxtraheerde afbeeldingen. Voor de exracted text, open de document.xml bestand met Kladblok of XML Kladblok.
Dit is wat u zult vinden in de media map.
Hoe afbeeldingen uit een enkel DOC-, PPT- of XLS-bestand te extraheren
Als u afbeeldingen uit MS-kantoorbestanden wilt extraheren oudere formaten, de bovenstaande methode zal niet werken met de afbeeldingen. Hiervoor hebt u een gratis tool met de naam Office Image Extraction Wizard nodig. De tool werkt al in 2012 met MS Office-bestanden en het werkt met één of meerdere MS Office-bestanden in één keer.
-
Downloaden en installeren Office Image Extraction Wizard.
-
Kies het document waarvan u afbeeldingen wilt extraheren (voor dit voorbeeld doen we het aan een map die ik heb genoemd Ch1.doc) en selecteer de uitvoermap. U kunt ervoor kiezen om een map te laten maken voor al uw uitvoerafbeeldingen door de optie aan te vinken Maak hier een map. Als u klaar bent, klikt u op volgende.
-
Klik Begin om het proces te beginnen.
-
Als het afbeeldingsproces is voltooid, klikt u op Klik hier om de bestemmingsmap te openen en het opent de uitvoermap.
-
Zoals je hieronder kunt zien, heeft het programma een ch1 map.
-
In de map bevinden zich de uitgepakte afbeeldingen.
Afbeeldingen uit meerdere DOC-, PPT- of XLS-bestanden extraheren
-
Voor het extraheren van afbeeldingen uit meerdere bestanden van de DOC-, PPT- of XLS-formaten, vinkt u de Batch-modus optie linksonder gevonden.
-
Klik op Bestanden toevoegen en dan kiezen de bestanden waarvan u afbeeldingen wilt extraheren. Houd de Ctrl om meerdere bestanden in één keer te selecteren. Nadat u de bestanden hebt geselecteerd, klikt u op volgende.
-
Klik Begin.
-
Wanneer het proces is voltooid, zoekt en opent u de uitvoermap. Hier zul je zien twee mappen met de originele bestandsnamen. Open deze mappen om de uitgepakte afbeeldingen van hun originele MS Office-bestanden te bekijken.
Afbeeldingen uitpakken met de "Opslaan als webpagina" -methode
Er is een andere methode die met beide werkt nieuwere en ouder MS Office-bestanden.
-
Open het DOCX- of XLSX-bestand en klik op Bestand> Opslaan als> Computer> Browser en sla het bestand op als Webpagina.
-
bevind zich de map met de bestandsnaam waarin u de webpagina hebt opgeslagen. Hier ziet u alle afbeeldingen uit het bestand.
Hoe u platte tekst kunt uitpakken in plaats van XML
-
Open het DOCX-bestand en klik op Bestand> Opslaan als> Computer> Browser. Kies om het bestand op te slaan als Platte tekst (voor XLSX-bestanden, sla het op als Tekst (gescheiden door tabs)).
-
bevind zich en Open het tekstbestand met de naam die je hebt gebruikt om het op te slaan. Dit tekstbestand bevat alleen de tekst uit uw oorspronkelijke bestand zonder opmaak.
Als u een andere methode of hulpmiddel kent om afbeeldingen uit MS Office-bestanden te extraheren, vermeldt u dit in de opmerkingen sectie.