[发明专利]一种采用上下文特征匹配的中文机构名简称识别系统无效
申请号: | 201410261878.0 | 申请日: | 2014-06-12 |
公开(公告)号: | CN104035918A | 公开(公告)日: | 2014-09-10 |
发明(设计)人: | 杨静;郝娟;潘云;裴逸钧;杜泽宇 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海蓝迪专利事务所 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 上下文 特征 匹配 中文 机构 简称 识别 系统 | ||
1.一种采用上下文特征匹配的中文机构名简称识别系统,其特征在于该系统包括训练模块及识别模块,其中:
所述训练模块:以某一新闻语料作为训练集,从训练集训练得到机构名的上下文特征即相交特征集与机构名独有特征集以及干扰词表;
所述识别模块:以与训练集不同的新闻语料作为测试集,在测试集中采用机构名上下文特征匹配算法对机构名简称识别;首先,在错误率 的取值范围下,使用相交特征集与机构名独有特征集中的特征与句子进行匹配,识别候选机构名简称;然后,使用final-words去除掉候选机构名简称中的干扰词,得到较准确的机构名简称;最后,利用扩展操作,召回文中部分未被识别出的简称。
2.根据权利要求1所述的识别系统,其特征在于所述训练模块中训练得到机构名的上下文特征,具体包括:
1)训练得到机构名的三种上下文特征:前特征、后特征、弱可信特征对,机构名的上下文特征由词语以及词性组成;以某一新闻语料库词性标注为准则认定标记为名词n、名语素Ng、成语i词性的词语具有实际含义,被定义为强特征,标记为助词u、介词p词性的词语不具备实际的含义,被定义为弱特征;把出现在机构名上文的强特征定义为前特征,出现在机构名下文的强特征定义为后特征;把上下文都是弱特征的词语当作一个特征,定义为弱特征对;机构名上下文特征是由前特征、后特征和弱特征对3类特征构成;只选择紧跟在机构名前后的一个词语作为上下文特征;
2)将成语、动名词词语作为干扰词,以所述1)同样形式获得干扰词的3类上下文特征;
3)将机构名的3类上下文特征分别与干扰词的3类上下文特征相交,相交的部分为相交特征集,在机构名的特征集中除去相交部分就是机构名独有特征集;每一个相交特征的错误率根据公式(1)得出,每一个机构名独有特征的错误率为0;
1, 2, 3, …… (1)
其中,是指出现在特征之间的词语为干扰词的总次数,是指出现在特征之间的词语为机构名的总次数。
3.根据权利要求1所述的识别系统,其特征在于所述训练模块中训练得到干扰词表,具体包括:
从某一新闻训练语料中把长度在3-6个字的干扰词全部找到,当作候选干扰词;并对候选干扰词进行如下扩展:
1)通过加入中国的姓氏补充名词干扰词;
2)通过加入一些地名的尾字补充名词干扰词;
再对候选干扰词进行过滤处理:
1)对于中国姓氏:与某一新闻训练语料中的每个简称的首字进行一一比对,如果中国姓氏与所有简称的首字都不匹配,把其加入到干扰词表中;
2)对于地名尾字:与训练语料中的每个简称的最后一个尾字进行一一比对,如果地名尾字与所有简称的尾字都不匹配,把其加入到干扰词表中;
得到了干扰词表final-words。
4.根据权利要求1所述的识别系统,其特征在于所述识别模块中采用机构名上下文特征匹配算法对机构名简称识别,具体包括:
1)识别候选机构名简称
对于与弱特征对相符的句子,采用自右向左的方式进行匹配;先在句子中找到下文特征所在的位置,然后从此位置向左寻找是否存在上文特征,若存在,并且下文特征与上文特征之间的语法片段长度在3-6个字之间,那么就把此语法片段当作候选机构名简称;对于与前特征相符的句子,在语句中找到前特征的位置,紧跟在前特征之后且长度在3-6个字之间的语法片段也当作候选机构名简称;对于与后特征相符的句子,只要在语句中找到后特征的位置,出现在后特征之前且长度在3-6个字之间的语法片段也当作候选机构名简称;
2)final-words去除干扰词
对于识别出的候选机构名简称,与final-words中的干扰词一一匹配,若匹配成功,将该简称删除,若都不匹配,保留机构名简称;
3)扩展操作
为了召回未被识别的简称,将上文识别的机构名简称与测试文本中的词语一一匹配,通过获得匹配成功的词语,对机构名简称进行扩展,提高机构名简称的召回率;即识别出最终机构名简称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410261878.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在网站内容管理系统中定位网页的方法及装置
- 下一篇:多功能计算器