Guide to Optical Character Recognition

nov. 18, 2020

Puede que no esté al corriente, pero ha desempeñado un papel fundamental para ayudar a los expertos a descifrar textos antiguos e incluso históricos. Cada vez que rellena un captcha en un sitio para demostrar que no es un robot, contribuye a este valioso proyecto. Es más, participa en una moderna tecnología de conversión de texto denominada «reconocimiento óptico de caracteres» (OCR). Pero ¿qué es el OCR? ¿Qué otras funciones ocultas desempeña en su vida? En esta guía, descubrirá todo lo que necesita saber sobre esta importante tecnología de vanguardia.

El reconocimiento óptico de caracteres es una innovadora tecnología que sustenta decenas de herramientas que utiliza a diario. Explicado de manera sencilla, se trata de un tipo de software que «traduce» documentos digitalizados a un formato legible por PC.

Sin el OCR, el PC interpretaría cada documento digitalizado como una sola imagen, del mismo modo que vemos las fotografías o las obras de arte. En ese formato, el PC no es capaz de reconocer las letras, palabras o frases individuales, lo que limita las maneras en que el PC y, en última instancia, usted y otros usuarios, pueden interaccionar con el documento.

El software de digitalización OCR permite que el PC «vea» un documento digitalizado del mismo modo que ve los documentos de texto creados en Word, Excel u otros programas similares. De este modo, su PC y, como resultado, usted, pueden interaccionar con los documentos digitalizados de igual modo que con los documentos digitales originales. Esto incluye:

  • Usar las funciones de búsqueda
  • Editar
  • Usar herramientas de análisis y comparación
  • Procesar, almacenar, recuperar y compartir información

El reconocimiento óptico de caracteres se puede utilizar para traducir texto impreso e incluye dos procesos relacionados diseñados para capturar datos manuscritos y marcados por humanos:

  • Reconocimiento inteligente de caracteres (ICR): es el proceso de capturar y traducir caracteres escritos y estampados a mano, como los que aparecen en formularios estructurados.
  • Reconocimiento óptico de marcas (OMR): es el proceso de capturar datos marcados por humanos como líneas o áreas sombreadas en formularios, como encuestas, cuestionarios y exámenes con preguntas de opción múltiple.

Cuando se combinan, estas soluciones de software de reconocimiento resultan útiles en una amplia gama de aplicaciones y situaciones.

¿Cómo funciona el OCR?

1. Mejora
Para ayudar al software de OCR a traducir correctamente un documento, el software de mejora de imagen, como la tecnología Perfect Page de Kodak Alaris líder en la industria, «limpiará» primero el documento digitalizado para reducir el ruido innecesario y amplificar los datos. Cuanto más limpia sea la imagen, mejor y más precisa será la traducción, por lo que Perfect Page busca y corrige automáticamente errores comunes tanto de digitalización como del documento, tales como:

  • Ajuste de documentos digitalizados sesgados o torcidos
  • Eliminación de puntos, líneas y otras imperfecciones de impresión de la «vista» del PC
  • Compensación de manchas y otras imperfecciones que no son de impresión presentes en la página
  • Análisis de la disposición de columnas, imágenes, tablas y otras características

La tecnología Perfect Page está integrada en la oferta de escáneres de Kodak Alaris para optimizar la nitidez de los datos y maximizar la precisión de OCR, al tiempo que se crean archivos del menor tamaño posible. Como resultado, los escáneres de Kodak Alaris ofrecen una tasa de lectura de OCR entre un 20 y un 70 % superior* a la de los competidores y generan archivos de casi la mitad del tamaño que el de los dispositivos de la competencia.

2. Clasificación
Una vez que los datos se han convertido y mejorado, el siguiente paso en el proceso de OCR consiste en comprender qué tipo de documento se ha introducido en el sistema y determinar cuál es el próximo paso para ese tipo de documento.

Gracias al OCR, ICR y OMR, el software de captura como Kodak Capture Pro y Kodak Info Input Solution puede determinar qué tipo de documento se ha introducido. A continuación, el software puede trabajar con las imágenes y aplicar reglas de clasificación según el contenido o el diseño del documento, los códigos de barras o los datos de índice.

La clasificación determinará si un documento es una factura, un historial médico, una solicitud de préstamo o un expediente fiscal, por ejemplo. Además, Info Input Solution puede ejecutar una captura avanzada de documentos con tan solo una o dos muestras para «aprender» a clasificar los documentos.

Kodak Alaris consigue estos resultados mediante algoritmos de aprendizaje automático patentados. El sistema emplea una variedad de técnicas para clasificar los datos: búsqueda de contenido, imágenes, códigos de barras y una combinación de documentos. Si el nivel de confianza es bajo a la hora de clasificar algún documento, el proceso puede solicitar la intervención de un operador humano para que lo confirme, de igual modo que a través de captchas se nos solicita que verifiquemos textos antiguos que los sistemas informáticos no pueden descifrar.

3. Extracción de datos
El último paso en el proceso de OCR es la extracción de datos.

Extraer la información más crucial de un documento para utilizarla como metadatos o datos de índice es fundamental para el proceso de recuperación. La clasificación automatizada basada en reglas informa al sistema sobre la información clave que debería presentar un documento y, a menudo, dónde se encuentra dicha información.

Las soluciones de software de Kodak Alaris pueden identificar el texto en un documento mediante el uso del reconocimiento de patrones y características. Identifican el idioma del documento digitalizado y clasifican el texto en letras, palabras, frases y párrafos individuales.

A continuación, el software extrae y crea una copia de esa información para utilizarla como metadatos en la siguiente fase del proceso. En el caso de los documentos, los metadatos se pueden utilizar para organizar, encontrar o enviar documentos a otros tipos de sistemas empresariales.

Con estas soluciones, puede extraer datos según las reglas empresariales y la información que la empresa necesita mediante búsquedas en una base de datos. Los usuarios pueden configurar el proceso de indexación para extraer automáticamente la información clave contenida en los documentos (mediante el uso de códigos de barras, OCR, ICR u OMR), lo que reduce el tiempo de procesamiento.

¿Por qué el OCR es tan importante?

La tecnología de OCR ofrece numerosos beneficios tanto en el ámbito personal como en el profesional. El software de reconocimiento óptico de caracteres permite traducir texto impreso en prácticamente cualquier material, así como:

    Buscar documentos, incluyendo copias digitalizadas de libros descatalogados y otros textos.
  • Analizar, editar y comparar documentos digitalizados de manera rápida y precisa.
  • Compartir información que de otro modo no se podría compartir.
  • Aplicar software de conversión de texto a voz a los documentos digitalizados, de modo que estén disponibles para un público que de otro modo no podría leerlos.
  • Almacenar documentos de manera más compacta y mantener copias de seguridad digitales y económicas de los documentos importantes.
  • Procesar documentos digitalmente en tiempo real para fines de seguridad y autenticación.
  • Reducir la necesidad de introducir datos manualmente en el lugar de trabajo, una tarea lenta y propensa a errores.
  • Cargar documentos históricos a bases de datos de genealogía en línea con capacidad de búsqueda.

Independientemente de si percata de ello o no, cada día utiliza muchas de estas funciones. Además, también obtiene ventajas derivadas de su aplicación por parte de otras personas u organizaciones. Por ejemplo, la policía emplea la tecnología OCR para identificar los números de matrícula, lo que les ayuda a mantener la seguridad de los ciudadanos, mientras que los bancos utilizan el reconocimiento de firma digital (un tipo de OCR) para evitar que los posibles ladrones de identidad accedan a su dinero y lo gasten.

Los proveedores de servicios que operan en diversas industrias pueden ofrecerle un precio más competitivo y un servicio más rápido porque utilizan el OCR para digitalizar, cargar, comparar y editar contratos, en lugar de pagar a personas individuales para que realicen cada uno de esos pasos. Cada vez que utiliza una aplicación como el Traductor de Google para traducir una señal o una etiqueta cuando viaja, está aprovechando las ventajas del OCR.

El OCR en el lugar de trabajo

El OCR puede resultar especialmente útil en el lugar de trabajo. Por ejemplo, las empresas pueden digitalizar los documentos existentes a través de software de OCR y convertirlos de inmediato en formatos compatibles con programas de conversión de texto a voz.

De este modo, las empresas pueden cumplir con las normas de cumplimiento de la Ley para Estadounidenses con Discapacidades sin tener que dedicar años e ingentes sumas de dinero y horas de trabajo a conseguirlo. Asimismo, el uso de esta tecnología permite a las empresas satisfacer las necesidades de los clientes con discapacidad visual en tiempo real.

En otras industrias, como la atención sanitaria, la tecnología OCR puede salvar vidas, literalmente. El software de digitalización para OCR permite que la enorme cantidad de información contenida en el historial de los pacientes se pueda guardar, buscar y verificar de formas que mejoran la accesibilidad y evitan errores peligrosos.

Kodak Alaris y el OCR

En Kodak Alaris, comprendemos el papel fundamental del OCR a la hora de digitalizar documentos, ya sean de carácter personal o profesional. Por este motivo, ofrecemos software de OCR gratuito y avanzado con cada escáner.

Nuestros escáneres están diseñados para integrarse a la perfección con el resto de sus herramientas digitales: desde dispositivos inteligentes y aplicaciones hasta recursos más antiguos como el correo electrónico, nuestros programas funcionan con todas sus infraestructuras digitales. Facilitamos el movimiento, el almacenamiento y el intercambio de información independientemente de cómo o dónde se introduzca en su sistema.

El software de digitalización OCR de Kodak Alaris ha ayudado a nuestros clientes a:

  • Expandir su negocio.
  • Innovar.
  • Ahorrar dinero.
  • Aumentar la eficiencia.
  • Mejorar el servicio y los índices de satisfacción del cliente.
  • Minimizar el impacto medioambiental.

 

Nuestra tecnología cuenta con el respaldo de un programa de asistencia técnica de primera categoría, lo que garantiza que pueda aprovechar su compra al máximo en todo momento. Ya sea que esté interesado en Kodak Alaris para aplicaciones personales o profesionales, disponemos del hardware, el software y las soluciones de asistencia idóneas para usted.

Relacionado: Cómo Alaris innova con tecnología de digitalización

Más información

El software de reconocimiento óptico de caracteres de Kodak Alaris transforma la digitalización básica en excelente. Visite a un socio distribuidor local para obtener más información sobre lo que el software y los escáneres de Kodak Alaris pueden ofrecerle.

* Basado en pruebas externas realizadas por BLI bajo encargo de Kodak Alaris. Kodak Alaris diseñó la prueba y todos los dispositivos se probaron en situaciones operativas y con métodos operativos similares.

Soluciones relacionadas

Alaris Capture Pro

Software Capture Pro

  • Ideal para aplicaciones empresariales en las que se usa gran cantidad de papel
  • Amplia integración con sistemas ECM
  • Módulos de importación y redes disponibles
smart touch

Tecnología Smart Touch

  • Elimine la complejidad de los procesos de digitalización de varios pasos con la sencillez de un solo toque
  • Configure hasta veinte funciones diferentes que se adapten a sus necesidades específicas de digitalización
  • Digitalice fácilmente un documento y envíelo a una ubicación de archivo o a servicios comunes en la nube

¡Contáctenos!

Para contactarnos, complete nuestro formulario de solicitud de información a continuación y nos comunicaremos con usted pronto.

Ver la política de privacidad de Kodak Alaris