I computer non sanno leggere. Per quanto strano possa sembrare, vista la progressiva antropomorfizzazione che li contraddistingue, qualunque elaborate, non essendo dotato di coscienza, non è in grado di leggere.
Il principio su cui si basano software e programmi OCR è quello del riconoscimento formale.
In poche parole, le lettere non vengono viste come tali ma come “forme” astratte da riconoscere.
Il software OCR sta per Optical Character Recognition e si occupa proprio della parte di riconoscimento delle forme che poi verranno associate a caratteri veri e propri.
Il primo passo è quindi quello di distinguere le forme associabili a caratteri di stampa da altre presenti sulla pagina come disegni, o altre impurità o macchiette.
Una volta tolte queste possibilità i rimanenti caratteri vengono confrontati con uno speciale database, con un algoritmo che permette di verificare la somiglianza di una forma con quella di un carattere. Se l’algoritmo risolve la questione con una probabilità di corrispondenza superiore ad una percentuale prefissata (solitamente 95%) allora la lettera viene considerata corrispondente e posta nel risultato a stampa.
Quando invece l’algoritmo fornisce una probabilità di corrispondenza inferiore, viene fornito il risultato più probabile.
Alcuni software evoluti, una volta estrapolate tutte le lettere di una parola, se la percentuale globale di riconoscimento non supera un livello molto alto (98%), confrontano la parola stessa con un dizionario e provano a suggerire parole complete. Molto spesso in questo modo i risultati aumentano la precisione di riconoscimento in modo sorprendente.
Alla fine dell’operazione viene fornito un file, pronto per la correzione manuale da parte di un operatore umano.
I software OCR sono alla base di moltissime operazioni, spesso insospettabili, come ad esempio la lettura di testi da parte di voci sintetizzate in apparecchi come smartphone e programmi per disabili.
Gli stessi sono anche alla base di alcune applicazioni di aiuto alla gestione aziendale e di archiviazione documentale.
Per capirne meglio il fuzionamento e l’utilità clicca qui.