OCRopus
OCRopus è un software libero di riconoscimento ottico dei caratteri distribuito con la licenza Apache, versione 2.0 con un design modulare attraverso l'uso di plugin.
OCRopus software | |
---|---|
![]() | |
Genere | Riconoscimento ottico dei caratteri |
Sviluppatore | Thomas Breuel, DFKI |
Ultima versione | 1.3.3 (16 dicembre 2017) |
Sistema operativo | Linux macOS |
Linguaggio | C++ Python |
Licenza | Apache License v2.0 (licenza libera) |
Sito web | github.com/tmbdev/ocropy e github.com/ocropus/ocropy |
OCRopus è attualmente sviluppato sotto la guida di Thomas Breuel dal Centro di Ricerca Tedesco per l'Intelligenza Artificiale a Kaiserslautern, il suo sviluppo è sponsorizzato da Google.
OCRopus è sviluppato per Linux tuttavia degli utenti hanno riportato che è possibile utilizzarlo anche su macOS e un'applicazione chiamata TakOCR è stata sviluppata per installare OCRopus su macOS.
Funzionamento
modificaOCRopus è un sistema OCR che combina la document layout analysis, il riconoscimento ottico dei caratteri e la modellizzazione del linguaggio, funzionalità inseribili nel software attraverso dei plugin. Esso è rivolto principalmente alla conversione di grandi volumi di immagini, principalmente per Google Book Search, ma anche per l'ufficio domestico o in ufficio o per persone non vedenti o ipovedenti.
OCRP usava il software Tesseract come unico plugin di riconoscimento dei caratteri ma ha un proprio motore a partire dalla release 0.4[1]. OCRopus contiene anche del codice disabilitato un motore per il riconoscimento della scrittura (a mano).
Il plugin di analisi del layout di OCRopus preprocessi l'immagine e analizza il layout suddividendo il documento scannerizzato e passando le sezioni al plugin di riconoscimento dei caratteri per il riconoscimento (che può avvenire linea per linea o carattere per carattere).
All'ultima versione, OCRopus usa il codice di modellizzazione del linguaggio da un altro progetto sponsorizzato da Google OpenFST[2], tale funzionalità è opzionale nelle versioni precedenti la 0.4.
Uso
modificaAttualmente OCRopus può essere usato solo da riga di comando. una volta installato può essere invocato specificando le pagine di input e produce codice basato sull'HTML come output sullo standard output. Delle opzioni possono essere specificate per modificare il funzionamento del programma (come il riconoscimenti di linee singole).
Vedere anche
modificaNote
modificaAltri progetti
modifica- Wikimedia Commons contiene immagini o altri file su OCRopus
Collegamenti esterni
modifica- (EN) OCRopus (project page on Google Code)
- (EN) OCRopus Wiki, su sites.google.com. URL consultato il 3 maggio 2019 (archiviato dall'url originale il 14 novembre 2012).
- (EN) IUPR Publication Server Archiviato il 27 aprile 2009 in Internet Archive. (papers behind many of the algorithms used in OCRopus)
- (EN) OCRopus course Archiviato il 3 aprile 2010 in Internet Archive. (outline of OCRopus code and how to contribute)