发布时间:2015-10-13 13: 48: 52
ABBYY FineReader是一款OCR图文识别软件,在识别文本时,可通过创建自定义语言(相关文章请参考ABBYY FineReader如何创建用户语言),识别包含很多非常用元素(如代码编号)的文本字符,本文为大家列出了用于创建自定义语言词典的正则表达式,方便大家了解和学习ABBYY FineReader。
注:
1、要将正则表达式符号作为正常字符使用,请在符号前添加反斜线。例如,[t-v]x+ 代表tx、txx、txx 等和ux、uxx等,而\[t-v\]x+则代表[t-v]x、[t-v]xx、[t-v]xxx等。
2、要分组正则表达式元素,请使用括号。例如,(a|b)+|c代表c或任何类似abbbaaabbb、ababab的组合(任何长度非零、其中可能有按任意顺序排列的任意个数的a和b的单词),而a|b+|c则代表a、c和b、bb、bbb等。
示例:
假设识别包含三列的表格:出生日期、姓名、电子邮件地址,在这种情况下,可以创建两种新语言、数据和地址,并为它们指定以下正则表达式:
日期的正则表达式:
表示日的数字可由一位数字(1、2 等)或两位数字(02、12)组成,但不能为零(00 或 0),日的正则表达式应显示为:((|0)[1-9])|([1|2][0-9])|(30)|(31);
月的正则表达式应显示为:((|0)[1-9])|(10)|(11)|(12);
年的正则表达式应显示为:([19][0-9][0-9]|([0-9][0-9])|([20][0-9][0-9]|([0-9][0-9])。
接下来,需要将所有这些组合起来并用句点隔开数字(如 1.03.1999),句点也是正则表达式符号,所以必须在前面添加反斜线 (\),因此,完整日期的正则表达式应显示为: ((|0)[1-9])|([1|2][0-9])|(30)|(31)\.((|0)[1-9])|(10)|(11)|(12)\.((19)[0-9][0-9])|([0-9][0-9])|([20][0-9][0-9]|([0-9][0-9])
电子邮件地址的正则表达式:
[a-zA-Z0-9_\-\.]+\@[a-z0-9\.\-]+
更多关于ABBYY FineReader的内容, 请点击进入ABBYY中文服务中心,查看您需要的信息。
展开阅读全文
︾
读者也喜欢这些内容:
几款常用的OCR文字识别软件
图片文字提取软件是什么呢?随着大家的办公需求的加大,现在已经有很多的办公软件出现了,那么,图片文字提取软件便是其中的一种,因为现在制作图片的要求也比较高,所以,在图片上加入文字也是很正常的事情,那么,怎么样才能够直接将图片中的文字提取出来呢?...
阅读全文 >
OCR图片文字识别是什么意思 OCR图片文字识别软件排行榜
随着科技的发展,OCR图片文字识别被广泛运用于办公中,但也有一些小伙伴对OCR图片识别不了解。今天小编就为大家介绍一下OCR图片文字识别是什么意思,OCR图片文字识别软件排行榜,感兴趣的话请继续看下去吧。...
阅读全文 >
Word图片转文字在哪 Word图片转文字怎么转换
有时候我们需要把图片中的文字提取出来进行编辑,所以需要将图片转为Word文字,那么如何将图片转文字呢?下面就为大家讲解一下Word图片转文字在哪,Word图片转文字怎么转换。...
阅读全文 >
PDF转换为什么乱码 PDF转换后是乱码怎么办
很多时候,我们将PDF转换后,发现文档中竟出现了大量乱码,使得原本简单的工作变得复杂。那么PDF转换为什么乱码,PDF转换后是乱码怎么办?今天小编就给大家介绍一下如何处理这些问题。...
阅读全文 >