El Reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) se refiere al software que crea una versión digital de un documento impreso, mecanografiado o escrito a mano que las computadoras pueden leer sin la necesidad de escribir manualmente o ingresar el texto. OCR se usa generalmente en documentos escaneados en formato PDF, pero también puede crear una versión de texto legible por computadora dentro de un archivo de imagen.
¿Qué es OCR?
OCR, también conocido como reconocimiento de texto, es una tecnología de software que transforma caracteres como números, letras y signos de puntuación (también llamados glifos) de documentos impresos o escritos en un formato electrónico que las computadoras y otros programas de software reconocen más fácilmente. Algunos programas de OCR hacen esto cuando un documento se escanea o se fotografía con una cámara digital y otros pueden aplicar este proceso a documentos que previamente se escanearon o fotografiaron sin OCR. OCR permite a los usuarios buscar en documentos PDF, editar texto y volver a formatear documentos.
¿Para qué se utiliza OCR?
Para las necesidades de escaneo rápidas y diarias, es posible que OCR no sea un gran problema. Si realiza una gran cantidad de escaneo, la posibilidad de buscar en archivos PDF para encontrar el que necesita puede ahorrar un poco de tiempo y hace que la funcionalidad de OCR en su programa de escáner sea más importante. Aquí hay algunas otras cosas que OCR ayuda con:
- Procesamiento automático de datos y entrada de datos (Ejemplo: sistemas de seguimiento de solicitantes de empleo para currículos)
- Haciendo búsquedas en los libros escaneados
- Conversión de escaneos escritos a mano en texto legible por computadora
- Hacer que los documentos sean más utilizables por los programas de lectura que ayudan a los usuarios con discapacidades visuales
- Preservando documentos históricos y periódicos, al mismo tiempo que los hace buscables
- Extracción de datos y transferencia a programas contables (Ejemplo: Recibos y facturas)
- Indización de documentos para uso de los motores de búsqueda.
- Reconocimiento de matrículas de conductor por software de cámara de velocidad y cámara de luz roja
- Sintetizadores de voz para personas que no pueden hablar: el físico teórico Stephen Hawking es quizás el usuario más conocido de un programa de sintetizador de voz.
¿Por qué usar OCR?
¿Por qué no tomar una foto, verdad? Porque no podrías editar nada o buscar en el texto porque solo sería una imagen. Escanear el documento y ejecutar el software OCR puede convertir ese archivo en algo que puede editar y poder buscar.
Historia de la OCR
Si bien el primer uso del reconocimiento de texto se remonta a 1914, el desarrollo generalizado y el uso de tecnologías relacionadas con OCR comenzaron en serio en la década de 1950, específicamente con la creación de fuentes muy simplificadas que eran más fáciles de convertir a texto legible digitalmente. La primera de estas fuentes simplificadas fue creada por David Shepard y comúnmente conocida como OCR-7B. OCR-7B todavía se usa en la industria financiera para la fuente estándar utilizada en tarjetas de crédito y débito. En la década de 1960, los servicios postales en varios países comenzaron a utilizar la tecnología OCR para acelerar enormemente la clasificación de correo, incluidos los Estados Unidos, Gran Bretaña, Canadá y Alemania. OCR sigue siendo la tecnología central utilizada para clasificar el correo para servicios postales en todo el mundo. En el año 2000, el conocimiento clave de los límites y capacidades de la tecnología OCR se utilizó para desarrollar los programas CAPTCHA utilizados para detener bots y spammers.
A lo largo de las décadas, la OCR se ha vuelto más precisa y sofisticada debido a los avances en áreas relacionadas con la tecnología, como la inteligencia artificial, el aprendizaje automático y la visión por computadora. Hoy en día, el software OCR utiliza el reconocimiento de patrones, la detección de características y la minería de textos para transformar documentos de manera más rápida y precisa que nunca.