Definición de OCR
El OCR o Reconocimiento Óptico de Caracteres, traducido al castellano, es una tecnología que pretende emular al ojo humano, esta tecnología trata de conseguir que se reconozca pixel por pixel los caracteres y el tipo de fuente (tipo de letra) con que está hecho un documento. Estamos hablando de un escáner normal y corriente y un software bastante potente. Cuando nos referimos a software potente, queremos decir una gran y amplia base de datos para poder reconocer las distintas letras y sus correspondientes tipos.
Aparte del software es importante el escáner. Un esçáner muy sensible, leerá mejor los pixeles del documento ya que esta sensibilidad favorecerá que el software se equivoque menos. Es bastante difícil que el software no se equivoque. Se coloca un documento cualquiera en el escáner y este sale en formato Word o en el formato que el programa te deje elegir. Tras esto hay que corregir el documento. Una vez corregido ya lo podemos poner en pdf para compartir o para archivar.
Uno de los grandes usos que se le está dando al OCR es el escaneo de libros. Como por ejemplo, la colección de la biblioteca nacional. Así mismo los famosos e.book que se pueden leer por doquier en tabletas tipo ipad y android y en lectores de libro electrónico.
La tecnología de OCR tiene una limitación. No sirve para textos antiguos o que por algún motivo hayan sufrido deterioro físico. Este deterioro es muy normal cuando se trata de documentos históricos que pueden llegar a tener hasta mas de mil años. Este tipo de documentos, por los que los años han hecho mella, son bastante irreconocibles para la tecnología OCR en cuestión. Se suelen archivar este tipo de documentos con escaneos de alta resolución en formato fotografía para que el publico pueda admirar todos los detalles de un documento sin que este se deteriore.
La resolución en OCR nos indica cuanto detalle detecta el sistema en sí. Para textos claros y definidos lo normal es usar 300 ppp (puntos por pulgada). Esto se configura desde el escáner. Una pulgada equivale a 25,400 milímetros, por lo que 300 pixeles para un área tan pequeña es suficiente. En el caso de periódicos o similares. en donde la letra es pequeña y el papel esta siempre un poco maltrecho la resolución optima sería de 600 ppp. Si escaneamos a esta última resolución mas nos vale tener un escáner bueno ya que cuesta bastante que un escáner común complete la acción a esta resolución.
La evolución de OCR pasa por una mejora de este sistema. Mejora que ya está en marcha en un proyecto llamado IMPACT. Este proyecto pretende compartir información entre varias instituciones estatales y alguna empresa para desarrollar un software de OCR que cumpla todas las exigencias para la digitalización masiva.
Trabajo publicado en: May., 2014.
Escriba un comentario
Contribuya con su comentario para sumar valor, corregir o debatir el tema.Privacidad: a) sus datos no se compartirán con nadie; b) su email no será publicado; c) para evitar malos usos, todos los mensajes son moderados.