发布时间:2016-04-08 09: 15: 12
今天给大家分享一篇微博名为‘译言牵金’的用户使用ABBYY FineReader 12解决拷贝PDF内容后出现硬回车问题的心得,希望能帮助大家更多地了解这款产品。
我在一家投行研究部做笔译,工作中最常见的源语言文档类型是PDF。大家都知道,PDF的好处是小巧、方便发送和下载,另外,一般情况下无法再编辑。
恰恰是上述第二个特点给我们的翻译工作带来很大困难。在我的推动下,整个团队都用计算机辅助翻译软件Trados07版进行翻译,用过Trados的同行都知道:07版只能打开可编辑的文档,例如MS-Word的doc文档等。因此解决方案只有一个:把PDF转为可编辑文档。
知易行难。从2011年到最近,我们用过n种第三方软件来进行格式转换,效果都差强人意。包括solid converter、pdf editor以及Adobe自带的转换工具。在Trados推出11版Studio后,也试用过其中的PDF转换功能。但这些软件有一个共通的问题:转换成Word 后,许多文字段后会有不必要的硬回车(如下图)。
这些硬回车看似无伤大雅,但由于我们用Trados07版的tageditor 翻译Word文档(注:我们使用的是Win7系统,附带的Word 2007版对内嵌式Trados的兼容性较差),在Tageditor 界面中,这些硬回车非但难看,而且破坏阅读理解和翻译完整性(参见下图),图中的就是Word中的硬回车。对于比较熟悉Trados的人来说,这些(具体形状参见本段末尾)也无法通过设置断句规则来跳过。
无奈之下,只能“土法炼钢”:让团队成员手工拷贝PDF里的文字到Word,再编写简单的宏以比较快的速度消除硬回车。这个法子原始落后,而且费时,但却是仅有的有效的手段。其他基于软件的转换文档方法虽然快,但之后因为无法消除每行后多余硬回车,导致返工的时间常大大超过先前节省的时间,得不偿失。
虽然经过一段时间的“折磨”,大家已然习惯手动拷贝模式,但我始终认为:在工作量日渐增多而人员又未增加的情况下,人力做重复拷贝及删除硬回车的工作实乃莫大浪费。在苦思对策之际,在微博上看到ABBYY FineReader 12试用活动。头脑灯泡一亮:这也许是出路!
素闻ABBYY FineReader OCR识别领域的翘楚,这次请ABBYY FineReader来解决拷贝后硬回车问题虽有杀鸡用牛刀之嫌,但根据我的实际经验,一篇上百页的图文PDF(投行长报告的常态)人工拷贝也需要几个小时,“(实习)生可忍熟(练工)不可忍”!
经过漫长的下载和审批流程后,我的电脑上终于安装了ABBYY FineReader 12简体中文试用版。我迫不及待地打开后,赶紧拽过一篇PDF就扫描起来,结果如下:
不难发现:原先的每行后多余硬回车大多数消失无踪。再拿Trados的Tageditor打开看看:
在段落中讨厌累赘的符号一个也没有,看起来赏心悦目,心旷神怡!
总结:ABBYY FineReader 12能有效消除PDF转Word后的多余行后硬回车,显著提高文档编译效率。比坊间其他收费/免费软件的效果都要好。至于ABBYY FineReader 12其他逆天功能,网友之述备矣。总之,说ABBYY FineReader 12是搞定PDF的“神兵利器”,良有以也!
原文地址: http://weibo.com/p/1001603708331540753887。
更多关于ABBYY OCR技术的信息,可点击进入ABBYY中文合作伙伴网站 www.abbyychina.com 进行了解。
展开阅读全文
︾
读者也喜欢这些内容:
几款常用的OCR文字识别软件
图片文字提取软件是什么呢?随着大家的办公需求的加大,现在已经有很多的办公软件出现了,那么,图片文字提取软件便是其中的一种,因为现在制作图片的要求也比较高,所以,在图片上加入文字也是很正常的事情,那么,怎么样才能够直接将图片中的文字提取出来呢?...
阅读全文 >
OCR图片文字识别是什么意思 OCR图片文字识别软件排行榜
随着科技的发展,OCR图片文字识别被广泛运用于办公中,但也有一些小伙伴对OCR图片识别不了解。今天小编就为大家介绍一下OCR图片文字识别是什么意思,OCR图片文字识别软件排行榜,感兴趣的话请继续看下去吧。...
阅读全文 >
PDF转换为什么乱码 PDF转换后是乱码怎么办
很多时候,我们将PDF转换后,发现文档中竟出现了大量乱码,使得原本简单的工作变得复杂。那么PDF转换为什么乱码,PDF转换后是乱码怎么办?今天小编就给大家介绍一下如何处理这些问题。...
阅读全文 >
ABBYY FineReader 12激活教程
安装完 ABBYY FineReader 12 之后,需要激活程序才能在完整模式下运行。在受限模式下,将根据您的版本和所在地区禁用一些功能。...
阅读全文 >