abbyychina官方网站 > OCR&PDF知识库 > 来自ABBYY开发人员对FineReader的解读

来自ABBYY开发人员对FineReader的解读

发布时间:2015-09-22 16: 17: 43

作为ABBYY OCR产品识别技术的开发人员,笔者将以ABBYY最有名的识别技术软件FineReader为例来解读现代OCR技术的专业用途。

笔者认为的“技术”是什么意思呢?——有时候,所有的技术模块(软件可见的终端用户的部分)都包含在“识别引擎”这个定义之中,这并不完全正确:这些模块不仅识别字符,还有其他的功能,我将在后文中加以介绍。

FineReader软件有哪些功能?

目前任何电脑端FineReader版本都可以自动完成所有步骤:从使用扫描仪或相机拍摄图像开始,或从图像文件开始,到将处理结果导出为某种 文件格式或导出到指定软件之中,都不需要用户在屏幕上进行操作。该程序自身能够“识别”(笔者沿用了这种说法,因为FineReader会定义文本段落和 图片的位置,对图像中的图像文字部分进行OCR处理,生成一个文件,并将该文件保存为用户指定的文件格式)出用户的全部需求。

界面截图

运行界面

那么,用户需要做什么呢?

事实上,用户通常什么都不用做:他(她)只需要给软件下达指令,然后就可以得到结果了。有时用户不满意自动处理的结果,但用户通常会这样想:“真倒霉…算了。”

不幸的是,他们有些人并不知道,除了运行程序时显示的“快速任务”窗口,还可以通过若干其他方法来管理软件的性能。这些方法借助人类智慧,能够克服该程序在人工智能方面的缺陷和不足(有时候是根本性的缺陷)。

如何才能学会这些方法呢?下面几种途径都是可行的,必要时可以结合使用多种途径:

· 阅读简短的《用户手册》、《用户手册》全本和在线帮助——它们无疑都很长,但它们相当有用。

· 通读这篇文章。它简短得多,而且作者保证会消除用户对该软件的恐惧,唤醒他们的兴趣,让他们去体验这款软件。

试用该程序(您无法绕过这个阶段)——即便是通过免费试用版,您也可以体验下述实际应用所需的每项功能。

如何开始?

首先,您应该养成习惯,将文档不仅保存为最终需要的格式,还要保存为FineReader文档格式。这样,在处理大型文档时,您不必一步到位, 而是可以分步进行,等方便的时候再回头处理已经识别和核对过的文件,进行自定义导出设置等操作。所有FineReader文档操作都整合在“文件”菜单 中。

打开文件

没有什么比一个好的理论更实用了,或者说“识别”包含哪些流程

看着那些简短的快捷任务名,如“扫描到PDF”,您很难想象,“扫描”和“PDF”之间涉及多少流程(也就是“到”的含义)。让我们来细探究竟。“将光栅图像转换为可编辑文本”(不只是“识别”)任务包含着以下几个主要步骤:

1. 获取单页或多页图像(从扫描仪、相机或文件获得),将其转换成特殊的内部格式,以简化和加速后续操作)。总之,此时程序使用了图像处理子系统,这个系统可以识别、读取和编辑众多的外部格式。

2. 准备图像(失真校正,将双页图像分割成单页,这些都可在“选项”菜单中定制),这也是由图像处理子系统完成的。

3. 分割或页面布局分析。当确定要识别哪些内容以后,分析子系统会进行分割或页面布局分析。

4. 识别(终于到这一步了!)。由识别子系统(真是个巨大的惊喜,不是吗?)完成。它会生成由若干片段(未来的单词)组成的文本字符串,片段中包含若干无格式 符号(甚至没有分段,只有文本字符串)。如果您对技术细节非常感兴趣,那么可以告诉您,除了所有其他组件,识别子系统还采用了词法子系统和可训练识别机 制,它可以识别FineReader不认识(有时会出现这种情况)的装饰字体和符号。

5. 文件合成(它包括两个阶段:对于页面来说,在识别完单页以后开始;对于文件来说,它是在识别完所有页面之后开始)。正是在这个阶段,定义了文字(除了符号代码)布局和整体结构,生成了整个文件 。这是由合成子系统完成的。

6. 预览和编辑页面图像、区域结构、和识别结果,由Program Cover(程序封面)和编辑子系统完成(可执行文件FineReader.exe就是这个cover)。您可以查看和编辑处理过程中产生的大量信息(从 块结构开始)。当然,用户并不能编辑各个子系统生成的所有信息。最主要的原因是,要显示出自动过程中找到的所有信息,以及它们的功能和关系,用户接口会变 得非常复杂,使用起来很不方便。

将生成的文档转换成各种外部格式,是由导出子系统(这正是我的专长所在)来完成的。在导出之前,子系统并不知道处理结果要导出为哪种格式,或采 用哪种导出方案。因此,文件合成时会同时生成各种导出格式/变体可能需要的若干方式,而Cover会将它们显示出来,就像结果在合适软件中显示的那样。这 会给开发过程带来很大的麻烦:由于相关子系统之间联系紧密,当某个漏洞或功能处于两个子系统的边界之时,职责划分会变得复杂。但我们可以处理这种情况。

为什么有这么多的模块(子系统)?

我们首先要强调的是,笔者在这里只列出了重要的模块,还有一些模块没有列出。例如,扫描子系统的开发过程不是一两天的事情,而是积年累月的过程。不过我们还是说回正题。

首先,10多年来,大批人员开发了“识别技术”项目,并在此基础上开发了众多复杂产品:他们的工作需要进行结构和技术区分,使各自的开发具有或多或少的独立性,同时又能详细地描述各个过程以及其衔接规则,以便它们能够在逻辑上交互配合。

其次,有些产品并没有采用所有的处理阶段(以及实现它们的子系统),只是采用了其中部分阶段。例如,识别子系统具有其自身的印刷和手写文字识别 子模块,每个子模块又有下属子模块,如处理复杂语言的下属子模块。这种情况与条形码识别模块以及几种图像格式编解码器类似 :有些产品完全不需要它们。

用户

结果是什么?为什么用户需要它?

如果您不留心这个问题,即便完全正确的OCR结果也可能会让您不满意:此时所有的字符都被找到并正确识别出来,但总体来说,结果并非您所期望的那样。下面我来列出运用FineReader及其功能的常见情况。

将映像文件档案转换成数字格式,在一定程度地保留布局的同时,更轻松地搜索和引用文字片段

在这种情况下,通常将经过处理的文档转换成PDF文件,既保留可见的页面图像(可能并非原始状态,但尽量接近原始状态),同时增加隐藏的识别文 字层,您可以在各种PDF查看器中搜索、突显、摘引和复制文字。这种存储文件称为“双层PDF”,它是流行的格式,但此外还有其他三种格式。我将在以后 的文章中介绍所有其他格式。熟悉DjVu格式的用户也可以使用类似的存储模式。

“图像遮盖文本”模式的主要优点是,它不需要太多有关被保存文本的结构信息,因为它只是使用原始图像上的坐标信息,将符号和页面的确切位置联系 起来。因此,如果表格没有被准确地自动检测出来(即将它们分成多个毫无关联的文本字符串),或者文本形成不合逻辑的段落,这都无关紧要:反正您能够找到全 部或绝大多数所需信息;重要的是,字符被正确识别出来了,构成了正确的单词。

利用任何一种常用的文字编辑器,创建类似于原件的格式文件(Microsoft Word、Open Office、LibreOffice Writer等), 以便对新文件中的大段文字进行后续编辑和重复使用。

保存为RTF、DOCX(针对MS Word)和ODT(针对Writer)格式时支持四种配置,它们彼此各不相同,或侧重于“精确保留原始布局”,或侧重于“易于编辑和修订内容”。日后我 将详细介绍它们之间的差异,但要得到理想的处理结果,关键在于,FineReader要正确地解读文档的布局,理解各个区块及其特性。

扫描纸质书籍来制作电子书

这非常类似于前一种方案,但由于电子书格式文件通常要简单得多,其编辑方法更有限,经过FineReader处理之后查看更为复杂,有时需要更多地关注某些功能。

这些知识有什么用?

您可能已经知道了,理解所有这些合乎逻辑但逻辑不那么明显的细节,用户就能更轻松地获得(从用户的角度来讲)的FineReader处理结果。

更多关于ABBYY FineReader的相关信息,可点击进入ABBYY中文服务中心,查看您需要的信息。

 

展开阅读全文

标签:ABBYY FineReader 12OCR文字识别文件扫描识别软件

读者也访问过这里:
ABBYY FineReader
一款功能强大的OCR和PDF软件
立即购买
联系客服:
400-8765-888
kefu@makeding.com
热门文章
ABBYY FineReader 12激活教程
安装完 ABBYY FineReader 12 之后,需要激活程序才能在完整模式下运行。在受限模式下,将根据您的版本和所在地区禁用一些功能。
2023-03-23
ABBYY FineReader 12注册码-激活码-序列号地址
ABBYY FineReader 12 OCR图文识别软件自2014年4月发布以来,屡获殊荣,是图像和文件识别以及办公的好帮手,那么对于这样一款用途广泛的软件来说,如何获取注册码、激活码或序列号想必是大家最关心的问题。
2023-03-23
ABBYY PDF Transformer+注册码-激活码-序列号地址
提到PDF,相信很多人都会很自然地想到ABBYY PDF Transformer+,它是一个新的,全面巧妙地解决PDF文档的工具,可以编辑PDF文档,在PDF文档中添加评论,添加密码保护,实现简单环保地阅读PDF文档,能够便捷地处理任何类型的PDF文件,非常有效地提高日常工作效率。
2023-03-23
几款常用的OCR文字识别软件
图片文字提取软件是什么呢?随着大家的办公需求的加大,现在已经有很多的办公软件出现了,那么,图片文字提取软件便是其中的一种,因为现在制作图片的要求也比较高,所以,在图片上加入文字也是很正常的事情,那么,怎么样才能够直接将图片中的文字提取出来呢?
2023-06-07
使用序列号激活ABBYY FineReader 14
安装完 ABBYY FineReader 14 之后,很多小伙伴会有这样的疑问,安装完成后不知道如何激活软件,找不到输入序列号的入口,本文对这一问题进行讲解。
2020-04-07
破解版的OCR文字识别软件,带来了太多安全问题
很多小伙伴在下载OCR文字识别软件时,会习惯性去找破解版的软件。那么到底什么是破解版的软件呢?
2021-09-08
最新文章
JPG转PDF后提示文件损坏 JPG转PDF后如何保存
如果需要将JPG图像与其他文档或文件一起保存或共享,将其转换为PDF格式可以更方便地进行管理和传输。PDF格式可以更好地保护图像的质量和完整性,避免在传输或打印过程中出现失真或变形。在abbyy软件中将JPG文件转换为PDF格式后,提示文件损坏是为什么呢?下面一起来了解JPG转PDF后提示文件损坏,JPG转PDF后如何保存的相关内容。
2024-11-03
OCR识别应用有哪些 OCR识别对象的文件类型
OCR(光学字符识别)是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。那OCR识别的应用有哪些呢?下面一起来了解ocr识别应用有哪些,ocr识别对象的文件类型的相关内容。
2024-11-03
pdf格式如何转换成word文档格式 pdf格式转换word格式图片不清楚
将PDF格式文件转化成Word文档格式文件有助于对文档内容进行修改和编辑。那怎么将PDF格式转换成Word文档格式呢?下面一起来了解pdf格式如何转换成word文档格式,pdf格式转换word格式图片不清楚的相关内容。
2024-06-27
pdf编辑器怎么删除页码 pdf编辑器怎么删除部分内容
PDF编辑器是一种用于编辑PDF文档的软件工具,用户可以在其中对PDF文档进行各种操作,比如修改、添加、删除文本和图像,以及调整页面布局、插入注释和标记等。页码是文档页面的编号,通常显示在每页的底部或顶部。
2024-06-03
图片文字怎么转换成pdf文档 图片转成的pdf如何转可编辑文字
将图片文字转换成PDF文档可以提供更好的文档保存、共享、编辑和安全控制等功能,方便在不同场景下使用和处理文档。将PDF文档转可编辑文字可以提供更大的灵活性和便利性,使你能够更轻松地处理和利用PDF中的文本内容。
2024-05-07
pdf变成jpg格式的软件有哪些 pdf变成jpg格式图片怎么弄
PDF是一种常见的文档格式,JPG是一种常见的图片格式。PDF文件转换成JPG格式可以帮助你更方便地处理和使用PDF文件中的图片内容。那有什么软件可以将PDF文件转换成JPG格式呢?下面一起来了解pdf变成jpg格式的软件有哪些,pdf变成jpg格式图片怎么弄的相关内容。
2024-05-07

微信公众号

欢迎加入ABBYY产品的大家庭,立即扫码关注,获取更多办公软件动态和资源福利。