Tesseract.js Brengt OCR-vertaling naar browsers
OCR-vertaling is nog steeds niet perfect, maar het is de afgelopen jaren enorm verbeterd. Voorop loopt de Tesseract vertaalmachine momenteel open source C++.
Hoewel dit een ongelooflijke bibliotheek is, is deze echter beperkt tot software. Gelukkig heeft iemand een poort van Tesseract gemaakt in JavaScript, genaamd Tesseract.js. Het ondersteunt maximaal 60 talen en hoewel het zeker niet perfect is, doet het het werk goed.
Installatie en setup is een eitje waar je kunt richten op elk beeldelement op de pagina en voer de Tesseract.recognize () functie. Dit kan elk type afbeelding maken en dat gebeurt automatisch comprimeren en vertalen recht in de browser.
Je kunt veel gecompliceerder worden maar de schoonheid is hoe je OCR kunt uitvoeren met een enkele regel code.
Bekijk de landingspagina van Tesseract.js als je een live demo wilt zien. Dit werkt recht in de browser waar je kunt slepen en neerzetten van elke gescande afbeelding van tekst om een automatische OCR-vertaling te krijgen.
Je kunt dit voorbeeld ook lokaal downloaden via de GitHub-pagina of je kunt je eigen app bouwen door het Tesseract.js-script rechtstreeks van een CDN op te nemen.
Het eenvoudigste codevoorbeeld ziet er als volgt uit myImage is een directe verwijzing naar een HTML-afbeeldingselement:
Tesseract.recognize (myImage) .then (function (result) console.log (result));
Hoe dan ook, deze bibliotheek is zo handig om in beweging te komen met OCR op het web. Het is verre van perfect, maar het is ook het beste bron voor webontwikkelaars die dynamische in-page OCR-functionaliteit willen.
Ga voor meer informatie naar de pagina Tesseract.js GitHub waar u een live demo kunt bekijken en door de online documentatie kunt bladeren..