光学字符辨识指南

了解 OCR 的定义、工作原理,以及为什么对个人和职业生活如此重要。

您可能不知道,您在帮助专家破译古老甚至远古的历史文献方面发挥了重大作用。每当您在网站上填写验证码证明自己是人类时,便会对这个重要项目作出贡献。此外,您还参与了称为光学字符识别 (OCR) 的现代文本转换技术。 什么是 OCR?它在您的生活中还扮演着哪些神秘的角色?对于这项重要的尖端技术,您还需要知道以下信息。

OCR 光学字符识别是先进的技术,为您每天使用的数十种工具奠定了基础。简单来说,它是一种软件,可以将扫描的文档“转化”成计算机可以读取的格式。

如果没有 OCR,计算机就会将扫描的每一份文件视为一张影像,就像我们看到照片或图形一样。计算机无法识别如此格式下的单个字母、单词或短语。这限制了计算机以及您和其他用户与文档进行交互的方式。

计算机可通过 OCR 扫描软件“看到”扫描的文档,就像它看到您可能在 Word、Excel 等程序中创建的基于文本的文档一样。这样,计算机和您就可以像处理原始数字文档一样处理扫描的文档了。这包括:

  • 使用搜索功能
  • 编辑
  • 使用比较和分析工具
  • 处理、存储、检索和共享信息

OCR 光学字符识别可用于转换打印的文本,并包括两个采集笔迹和人工标记数据的相关流程:

  • 智能字符识别 (ICR):采集和转换手工打印和书写字符(如结构化表格上)的过程
  • 光学标记识别 (OMR):以线条或阴影区的形式从文件表格(如多项选择调查、问卷和测试)中采集人工标记数据的过程

总之,这些识别软件解决方案在各种应用和情况下都很有用。

OCR 的工作原理

1. 增强
为了帮助 OCR 软件成功转换文档,Kodak Alaris 业界领先的 Perfect Page 完美页面技术等影像增强软件将首先“清理”扫描,从而减少文档上不必要的干扰并放大数据。影像越清晰,转换越准确,效果越好,因此 Perfect Page 完美页面技术会自动查找并纠正常见的扫描和文档错误或问题,例如:

  • 调整倾斜或歪斜的扫描
  • 从计算机的“视图”中去除斑点、线条和其他打印缺陷
  • 补偿页面上的污渍和其他未打印的瑕疵
  • 分析列、影像、表格和其他功能的布局

Perfect Page 完美页面技术内置于 Kodak Alaris 扫描仪产品组合中,旨在优化数据清晰度并最大程度地提高 OCR 精确度,同时创建尽可能小的文件。因此,Kodak Alaris 扫描仪的 OCR 读取率* 比竞争对手高 20-70%,并且创建的文件大小几乎是竞争对手设备的一半。

2. 分类
转换和增强数据后,OCR 过程的下一步就是了解进入系统的文档类型,并确定需要针对文档类型采取的下一步处理。

OCR、ICR 和 OMR 使采集软件(如 Kodak Capture ProKodak Info Input Solution 等)能够确定已转换的文档类型。然后,软件可以根据文档内容、文档布局、条形码或索引数据采集影像并强制执行分类规则。

举例而言,分类可以确定文档属于发票、病历、贷款文件还是税收记录。而且,我们的 Info Input 解决方案可以执行高级文档采集,仅使用一两个样本即可“学会”进行文档分类。

Kodak Alaris 通过获得专利的机器学习算法来实现这一目标。该系统使用各种技术对数据进行分类:搜索内容、影像、条形码和文档合并。如果系统对其尝试分类的任何文档的置信度较低,该流程可以要求人类操作员进行确认——就像我们被要求验证计算机无法用验证码破译的古文献一样。

3. 数据提取
OCR 流程的最后一步是数据提取。

从文档中提取最关键的信息以用作元数据或索引数据,这对于检索和处理至关重要。基于规则的自动分类可以告知系统一个文档中应存在哪些关键信息,以及该信息通常应位于何处。

Kodak Alaris 的软件解决方案可以使用模式和功能识别文档中的文本。它们识别待扫描文档的语言,并将文本分类为单个字母、单词、句子和段落。

接下来,软件提取和创建该信息的副本,以用作下一流程阶段的元数据。对于文档,可以使用元数据进行组织、查找和/或将文档输入到其他类型的业务系统中。

通过这些解决方案,您可以根据业务规则和公司进行数据库查找所需的信息提取数据。用户可以设置索引流程,用于自动从文档中提取关键数据(通过条形码、OCR、ICR 或 OMR),从而缩短处理时间。

为什么 OCR 很重要

OCR 技术在个人和职业领域具有显著优势。OCR 光学字符识别软件可以转换几乎所有资料上的打印文本,并且可以:

    搜索文档,包括绝版书和其他文本的扫描副本
  • 快速和准确地分析、编辑和比较扫描的文档
  • 共享您原本无法共享的信息
  • 文字转语音软件应用于扫描的文档,使原本不能阅读文档的听众能够聆听到文档内容
  • 以更紧凑的格式存储文档,并为重要文档保存价格实惠的数字备份
  • 出于安全和身份验证的目的,实时以数字方式处理文档
  • 减少工作场所中耗时且容易出错的数据输入需求
  • 上传历史文档至可搜索的在线家谱数据库

不管您是否意识到,您每天都需要使用其中的许多功能。其他人和组织应用它也会让您从中受益。 例如,警方使用 OCR 技术识别车牌有助于保护公众的安全。银行使用数字签名识别技术(OCR 的一种形式)可防止潜在的身份盗用和盗取您的资金。

各种行业的服务提供商可为您提供价格更优惠和更快的服务,因为他们能够使用 OCR 扫描、上传、比较和编辑合同,而不是付钱给个人来完成这些步骤。当您在旅行中使用 Google Translate 这样的应用程序翻译标志或标签时,您将从 OCR 中获益。

工作场所中的 OCR

OCR 在工作场所中可能特别有益。例如,公司可以通过 OCR 软件扫描现有文档,并立即将其转换为与文本转语音程序兼容的格式。

这可以帮助企业满足 ADA 合规性标准,而无需花费大量时间和金钱和员工时间即可达成目标。它还能帮助公司实时满足视障客户的需求。

医疗等其他行业,OCR 技术确实可以挽救生命。用于 OCR 的扫描软件可以使患者病史中的大量信息可保存、可搜索和可验证,从而改善可访问性并防止发生危险错误。

Kodak Alaris 和 OCR

Kodak Alaris 了解 OCR 在扫描文档(无论是个人文档还是专业文档)过程中所发挥的关键作用。这就是为什么我们为每台扫描仪都提供免费的先进 OCR 软件的原因。

我们的扫描仪专为与其他数字工具无缝集成而设计。从智能设备到应用程序,再到电子邮件等旧的备用程序,我们的程序可以与您的所有数字基础设施协同工作。无论信息输入系统的方式和地点如何,您都可以轻松移动、存储和共享信息。

Kodak Alaris 的 OCR 扫描软件为客户提供了如下帮助:

  • 发展业务
  • 创新
  • 节省资金
  • 提升效率
  • 提高服务和客户满意度
  • 最大程度减少环境足迹

我们的技术有我们一流的技术支持计划保驾护航,确保您每次都能从投资中获得丰厚收益。无论您对 Kodak Alaris 的个人还是专业应用程序感兴趣,我们都有满足您需求的合适硬件软件支持解决方案

相关资料Alaris 如何创新扫描技术

了解更多

Kodak Alaris 的 OCR 光学字符识别软件将扫描化普通为卓越。请访问当地经销商合作伙伴,了解 Kodak Alaris 目前可为您提供哪些软件和扫描仪。

*基于 Kodak Alaris 委托 BLI 进行的第三方测试。测试由 Kodak Alaris 设计,所有设备均在相似的操作条件下使用相似的操作方法进行测试。

相关解决方案

Alaris Capture Pro

Capture Pro Software

  • 最适合大量使用纸张的业务应用
  • 广泛集成 ECM 系统
  • 可提供网络和导入模块
smart touch

Smart Touch 技术

  • 利用一键式简易操作,消除复杂的多步扫描过程
  • 配置最多 20 项不同的功能,以满足您的特定扫描需求
  • 将文档轻松扫描至文件位置或通用云服务

信息请求表

要与我们联系,请填写下面的信息请求表,我们会尽快与您联系。

查看 Kodak Alaris 的隐私政策