[发明专利]基于语义分析的EXCEL文档中身份信息的识别方法无效
申请号: | 201310751514.6 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103744830A | 公开(公告)日: | 2014-04-23 |
发明(设计)人: | 李核 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余功勋 |
地址: | 100044 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分析 excel 文档 身份 信息 识别 方法 | ||
技术领域
本发明属于信息技术领域,涉及一种基于语义分析的EXCEL文档中身份信息数据的识别方法,可以识别和抽取EXCEL文档中的姓名、地址等身份信息。
背景技术
在企业管理软件或是相关管理软件中,都会涉及到要将EXCEL身份信息数据文件导入到数据库中,而需要导入大量EXCEL身份信息数据文件时,单靠人工一个个点击导入按钮,十分影响工作效率,同时还有可能影响软件其他数据处理的相关性能。
语义自动分析技术可以通过相关规则分析出姓名、性别、身份证号码、电话等个人信息数据。采用语义自动分析技术进行数据文件的批量导入,可以避免从前台界面导入,可以通过后台程序入库,减少WEB的HTTP请求。
虽然当前有很多种批量导入或者分析入库的相关技术,但是能通过语义自动分析识别身份信息并抽取出来的技术比较少,或者相关技术不能完全通过语义分析来完成。
发明内容
本发明的目的就是提供一种基于语义分析的EXCEL文档中姓名、地址等身份信息的识别方法,能够节省人工分析特定信息成本,并能减少人工分析的误差,提高身份信息数据的识别和抽取的准确率。
为实现上述目的,本发明采用的技术方案如下:
一种基于语义分析的EXCEL文档中身份信息的识别方法,其步骤包括:
1)构造最大熵模型,采用特征函数表示该最大熵模型的约束条件,并通过在训练集上进行学习得到特征函数的权值;
2)创建处理的类对象,将需要处理的Excel文件名传递到类对象中;
3)应用所述最大熵模型对需要处理的Excel文件进行信息抽取,将获得的具体内容在类对象中缓存,进而从类对象中输出识别结果。
进一步地,步骤2)将需要处理的Excel文件名传递到所述类对象中以后,测试该Excel文件是否正常,如果正常则进行后续处理,如果异常则跳出分析,清理缓冲信息后退出程序。
进一步地,所述最大熵模型使用的训练方式为IIS(Improved Iterative Scaling)方法。
进一步地,在识别姓名信息时,将姓名本身的信息和上下文中的信息转化为特征,以获得特征函数;对于姓氏用字作为非姓名出现的情况,采用类似二元语法的方式表达特征,以获得特征函数。所述姓名本身的信息是指姓氏用字、名用字和姓名内部成词信息,所述姓名上下文信息是指姓名前后的邻接词(字)。
进一步地,建立名人词典以提高姓名识别的准确率。
进一步地,在识别地址信息时,分别从如下方面选取特征:地址尾字、地址用字及其各字间关联性、地址前词、地址后词、地址前词与地址首字的关联性、地址后词与地址尾字的关联性。
进一步地,选取地址识别的特征时,如果一个地址前词频繁地与正确地址同时出现(类比于TF高),同时,它又在全文中出现的次数较少,即不在正确地址之前而在普通词之前出现的次数较少(类比于IDF低),则选取这个词为特征。
进一步地,在选取地址尾字和地址用字及其各字间前后关联性这两类与篇章上下文无关的特征的时候,不仅应用真实语料作为训练集,同时还使用中国地址词库的地址同时作为训练集。
进一步地,在对地址做识别时,选择地址尾字驱动找到潜在地址。
与现有的相关技术相比,本发明提出的技术方案中建立了智能语义分析信息,能通过相关规则严格分析出姓名、地址等相关信息数据,并能有效的减少误差,提高数据可靠性和价值。
附图说明
图1是实施例中EXCEL文档身份信息数据并结构化的处理流程图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步说明。
Excel表中的身份信息,包括姓名、性别、年龄、身份证号码、电话等。对于Excel表中关键信息的抽取,本实施例重点说明对于中文姓名以及地址信息的识别和处理,这里采用计算模型和规则结合的方式进行处理。下面具体说明:
1、计算模型——最大熵模型
计算模型的原则是:建模时尽量拟合已知的部分,而对于未知的部分使模型的熵最大。熵是用来描述随机变量不确定性的物理量,熵越大,说明随机变量的不确定性越大。因此在对未知事件建立模型时,应使模型的熵最大。而实际问题中,往往会提供大量的已知的约束条件,对于这些约束条件要尽量地拟合。
通常用特征函数来表示约束条件,特征函数一般情况下是一个二值函数f(a,b)→{0,1},b是某一个对象,a是对象所属的类别。对于特征函数,它相对于经验概率分布的期望为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310751514.6/2.html,转载请声明来源钻瓜专利网。