[发明专利]基于语义分析的EXCEL文档中身份信息的识别方法无效
申请号: | 201310751514.6 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103744830A | 公开(公告)日: | 2014-04-23 |
发明(设计)人: | 李核 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余功勋 |
地址: | 100044 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分析 excel 文档 身份 信息 识别 方法 | ||
1.一种基于语义分析的EXCEL文档中身份信息的识别方法,其步骤包括:
1)构造最大熵模型,采用特征函数表示该最大熵模型的约束条件,并通过在训练集上进行学习得到特征函数的权值;
2)创建处理的类对象,将需要处理的Excel文件名传递到类对象中;
3)应用所述最大熵模型对需要处理的Excel文件进行信息抽取,将获得的具体内容在类对象中缓存,进而从类对象中输出识别结果。
2.如权利要求1所述的方法,其特征在于:步骤2)将需要处理的Excel文件名传递到所述类对象中以后,测试该Excel文件是否正常,如果正常则进行后续处理,如果异常则跳出分析,清理缓冲信息后退出程序。
3.如权利要求1所述的方法,其特征在于:所述最大熵模型使用的训练方式为IIS方法。
4.如权利要求1所述的方法,其特征在于:在识别姓名信息时,将姓名本身的信息和上下文中的信息转化为特征,以获得特征函数;对于姓氏用字作为非姓名出现的情况,采用类似二元语法的方式表达特征,以获得特征函数。
5.如权利要求4所述的方法,其特征在于:所述姓名本身的信息是指姓氏用字、名用字和姓名内部成词信息,所述姓名上下文信息是指姓名前后的邻接词或邻接字。
6.如权利要求4所述的方法,其特征在于:建立名人词典以提高姓名识别的准确率。
7.如权利要求1所述的方法,其特征在于:在识别地址信息时,分别从如下方面选取特征:地址尾字、地址用字及其各字间关联性、地址前词、地址后词、地址前词与地址首字的关联性、地址后词与地址尾字的关联性。
8.如权利要求7所述的方法,其特征在于:选取地址识别的特征时,如果一个地址前词频繁地与正确地址同时出现,同时它又在全文中出现的次数较少,即不在正确地址之前而在普通词之前出现的次数较少,则选取这个词为特征。
9.如权利要求7所述的方法,其特征在于:在选取地址尾字和地址用字及其各字间前后关联性这两类与篇章上下文无关的特征的时候,不仅应用真实语料作为训练集,同时还使用中国地址词库的地址同时作为训练集。
10.如权利要求7所述的方法,其特征在于:在对地址做识别时,选择地址尾字驱动找到潜在地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310751514.6/1.html,转载请声明来源钻瓜专利网。