发布时间:2015-11-26 09: 28: 15
作为挪威(DIS-Norge)系谱学会的一部分,DIS-Hordaland专为世界各地的系谱学者提 供数据库,主要关注生活在霍达兰的居民,目的不仅是为专家和私人系谱学者提供有效的数据库,还要提高挪威人的宗谱意识。为创建卑尔根市1934年选举以来,年龄至少有21岁的,包含姓名、地址和符合条件的所有公民出生日期的人员数据库,DIS-Norge志愿者决定使用文本识别(光学字符识别)软件ABBYY FineReader,将文档转换为可编辑的文本,为志愿人员节省宝贵的时间和资源。
挑战
免费访问包含个人信息的数据库在挪威有着悠久的传统,为了填充这些数据库,DIS-Norge志愿者已经手动抄了很多年教区记录、人口普查和其他公共材料,DIS-Hordaland最近被任命创建卑尔根市1934年当地选举以来,年龄至少有21岁的人员数据库,该数据库需包含以下信息:姓名、地址和符合条件的所有公民的出生日期。
由于大部分文档中的数据是打字机打出来或者打印出来的,DIS-Hordaland决定使用文本识别(光学字符识别)软件,将文档转换为可编辑的文本将会为志愿人员节省宝贵的时间和资源,DIS-Hordaland执行经理Tore J. Mehl解释道,“如果这些文档可以通过现代工具,比如OCR程序转录,将会怎么样呢?比起手动操作,我们可以付出更少的努力,在更短的时间里出版多套打印的原文档。”
该组织有一些要求:首先,软件需能成功数字化复杂的布局,比如以A4格式彩色扫描的带有不同字体类型的打字机页面。其次,程序能够识别表格也很重要,因为这是大部分信息在原文档中出现的形式。最后,任何软件都必须能够生成可编辑的电子表格,可以导出为CSV文件,并且能够直接导入到数据库。
解决方案
DIS-Hordaland调查并测试了一些OCR程序,经过深思熟虑并看到其上榜很多排名很好的OCR软件之后,Tore J. Mehl购买了一套ABBYY FineReader,以便测试其功能。进一步调查软件的性能之后,DIS-Hordaland将ABBYY FineReader选为满足他们需求的合适解决方案。
“说服我们确信ABBYY FineReader是正确产品的最终原因是其转换表格的可靠性,这对我们来说很关键,因为表格式信息经常出现在我们的原始文档中,其他工具都没有ABBYY这样的表格处理功能,”Tore J. Mehl肯定道,“另一个好处是软件的易用性,我们需要一款工具,只需简单地培训员工,便能让他们顺利上手。”
项目中涉及的志愿者参与了简短的介绍课程,学习如何使用 ABBYY FineReader,理解项目的其他重要方面,他们对结果非常满意:ABBYY FineReader的高级识别功能实现了全面访问锁定在纸质文档和图像上的信息,几乎消除了耗时的重新输入和重新格式化工作,志愿者的处理工作非常简单:扫描纸质文档并输入到ABBYY FineReader,将图像转换为DIS-Hordaland选择的Microsoft Excel格式文本,然后将电子表格导出到数据库,呈现在网站上,公开给全世界的研究者与爱好者。
结果
在ABBYY FineReader的帮助下,DIS-Hordaland节省了大量时间和资源,这对该组织特别有价值,因为效力于所有项目是志愿者在他们的‘正常’工作之外执行的工作。使用ABBYY FineReader转换10个页面,包括OCR处理打字文本,额外的校对工作和Excel中的后期处理花费1小时20分钟,正常情况下,类似的易出错的手动重打过程要花费多达4小时,DIS-Hordaland估算他们在整个项目中节省了约400小时的手动工作时间。
“在ABBYY FineReader的帮助下,数据库才能如此快速有效地创建,我们仅在3个月内便完成了项目,取代了9-12个月的手动工作,”Tore J. Mehl声称道,“数据库发布很成功,网站上线前两个月,数据库搜索量超过44000次,平均每天约370次,用户对数据库的兴趣还在不断增长。”
更多关于ABBYY FineReader的案例,请参考ABBYY中文服务案例中心。
展开阅读全文
︾
读者也喜欢这些内容:
几款常用的OCR文字识别软件
图片文字提取软件是什么呢?随着大家的办公需求的加大,现在已经有很多的办公软件出现了,那么,图片文字提取软件便是其中的一种,因为现在制作图片的要求也比较高,所以,在图片上加入文字也是很正常的事情,那么,怎么样才能够直接将图片中的文字提取出来呢?...
阅读全文 >
PDF不能编辑文字是什么原因 PDF不能编辑怎么办
在我们提交报告或者传输文档时,经常会把文档转换为PDF形式,但如果想要编辑PDF文件会比较麻烦,很多人发现转为PDF后不能编辑文字,因此十分困扰,今天就为大家解答PDF不能编辑文字是什么原因,PDF不能编辑怎么办。...
阅读全文 >
PDF转换为什么乱码 PDF转换后是乱码怎么办
很多时候,我们将PDF转换后,发现文档中竟出现了大量乱码,使得原本简单的工作变得复杂。那么PDF转换为什么乱码,PDF转换后是乱码怎么办?今天小编就给大家介绍一下如何处理这些问题。...
阅读全文 >
PDF文档转换成Word文档后如何编辑 PDF文档转换成Word文档后怎么清除回车号
PDF与Word都是办公上常见的文档,但有些小伙伴将PDF转换为Word后,发现编辑不了,这究竟是什么原因导致的呢,解决思路又是如何,看完下面的内容你就知道答案了。接下来咱们一起学习一下pdf文档转换成word文档后如何编辑,PDF文档转换成Word文档后怎么清除回车号,希望大家喜欢。...
阅读全文 >