Google rilascia il codice di Tesseract

Google rilascia il codice di TesseractCome sapete Google ha intenzione di poter rendere disponibile in rete anche l'informazione che oggi è "su carta", non fruibile da internet. Con Google Libri ha già reso consultabili numerosi libri scannerizzandone le pagine.

Ovviamente non è possibile ricercare all'interno di una pagina scannerizzata in quanto è un'immagine. Ci sono software, chiamati OCR (Optical Character Recognition) che provano a convertire l'immagine della pagina in testo digitale. Una pagina in testo digitale può essere indicizzata in un motore di ricerca ed individuata anche cercando nel testo che contiene.

Il sistema OCR su cui Google sta lavorando è Tesseract, sviluppato dalla HP negli anni che vanno dal 1985 al 1995. Nel 1995 era uno dei tre migliori software per il riconoscimento del testo ma non fu più sviluppato in quanto la HP decise di abbandonare il settore dell'OCR.

Google ha recuperato Tesseract e ha deciso di rendere pubblici i codici sorgenti del programma, sotto una licenza open source.

Allo stato attuale Tesseract è il più accurato tra gli OCR open source ma non tra gli OCR commerciali: permette il riconoscimento del solo testo in lingua inglese, non lavora bene sulle pagine a colori e non dispone ancora di un modulo che analizzi la struttura della pagina e la riproduca.

Un vero grazie a Google che ha riportato in auge un pezzo di storia dell'informatica. Inoltre un posto di lavoro disponibile a Mountain View in qualità di Optical Character Recognition Engineer, proprio per proseguire nello sviluppo di Tesseract.
Peccato non abbai i requisiti per partecipare al colloquio, è interessate come cosa :-P

  • shares
  • Mail
1 commenti Aggiorna
Ordina: