[发明专利]中文人名自动识别方法无效
申请号: | 201010233653.6 | 申请日: | 2010-07-22 |
公开(公告)号: | CN102339286A | 公开(公告)日: | 2012-02-01 |
发明(设计)人: | 陈运文;马飞涛;宋海涛 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 丁纪铁 |
地址: | 201203 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种中文人名自动识别方法,首先对已标注中文人名的文字材料进行统计训练,根据汉字出现的位置划分为二阶模型和三阶模型,计算每类模型下的四种分布的概率,并通过贝叶斯概率统计的方法获得中文人名的统计规律;然后将待识别的中文文本材料巧妙地利用双字和单字的组合策略进行概率计算并对比各种组合的概率值来判断是否为中文姓名,该方法可对2~4个字的中文人名进行稳定识别,并具有很好的歧义切分效果。 | ||
搜索关键词: | 中文 人名 自动识别 方法 | ||
【主权项】:
1.一种中文人名自动识别方法,其特征是,包括如下步骤:第1步,对已注明中文人名的文字材料进行统计;第2步,对待识别中文人名的文字材料进行中文人名的识别;所述方法第1步具体包括如下步骤:第1.1步,在已注明中文人名的文字材料中,将单字划分为以下四种类型,所述单字为单个汉字;——H1类型,出现在中文人名第一个字的位置;——M1类型,出现在中文人名中间位置;——T1类型,出现在中文人名最后一个字的位置;——N1类型,出现在除中文人名以外的位置;将双字划分为以下四种类型,所述双字为连续的两个汉字;——H2类型,出现在中文人名前两个字的位置且为复姓;——HM2类型,出现在中文人名前两个字的位置且不为复姓;——MT2类型,出现在三字非复姓人名或四字复姓人名后两个字的位置;——N2类型,出现在除中文人名以外的位置;第1.2步,在已注明中文人名的文字材料中:统计H1、M1、T1、N1四种类型的不重复的单字数量,分别记为nh1、nm1、nt1、nn1;统计H2、HM2、MT2、N2四种类型的不重复的双字数量,分别记为nh2、nhm2、nmt2、nn2;统计每个单字出现的总次数记为z1;统计每个单字出现在H1、M1、T1、N1四种类型的次数,分别记为h1、m1、t1、n1;统计每个双字出现的总次数记为z2;统计每个双字属于H2、HM2、MT2、N2四种类型的次数,分别记为h2、hm2、mt2、n2;第1.3步,在已注明中文人名的文字材料中:计算每个单字Si出现的概率
计算每个双字Di出现的概率
计算每个单字Si属于H1类型的概率
计算每个单字Si属于M1类型的概率
计算每个单字Si属于T1类型的概率
计算每个单字Si属于N1类型的概率
计算每个双字Di属于H2类型的概率
计算每个双字Di属于HM2类型的概率
计算每个双字Di属于MT2类型的概率
计算每个双字Di属于N2类型的概率
第1.4步,在已注明中文人名的文字材料中:计算H1类型中每个单字Si的出现概率
计算M1类型中每个单字Si的出现概率
计算T1类型中每个单字Si的出现概率
计算N1类型中每个单字Si的出现概率
计算H2类型中每个双字Di的出现概率
计算HM2类型中每个双字Di的出现概率P ( D i | HM 2 ) = P ( HM 2 | D i ) × P ( D i ) Σ i = 1 nhm 2 P ( HM 2 | D i ) × P ( D i ) ; ]]> 计算MT2类型中每个双字Di的出现概率P ( D i | MT 2 ) = P ( MT 2 | D i ) × P ( D i ) Σ i = 1 nmt 2 P ( MT 2 | D i ) × P ( D i ) ; ]]> 计算N2类型中每个双字Di的出现概率
所述方法第2步具体包括如下步骤:第2.1步,在待识别中文人名的文字材料中,按先后顺序依次判断每个双字是否属于H2类型或HM2类型;P(H2|Di)>0表示该双字Di属于H2类型,否则表示该双字Di不属于H2类型;P(HM2|Di)>第一阈值表示该双字Di属于HM2类型,否则表示该双字不属于HM2类型;第一阈值的取值范围是0.13~0.22;如果该双字属于H2类型或HM2类型,则将该双字设为d1,进入第2.4步;如果该双字既不属于H2类型也不属于HM2类型,则将该双字拆分为两个单字,进入第2.2步;第2.2步,判断其中第一个单字是否属于H1类型;P(H1|Si)>0则表示该单字Si属于H1类型;如果该第一个单字属于H1类型,则将该第一个单字设为d1,进入第2.4步;如果该第一个单字不属于H1类型,则进入第2.3步;第2.3步,判断其中第二个单字是否属于H1类型;P(H1|Si)>0则表示该单字Si属于H1类型;如果该第二个单字属于H1类型,则将该第二个单字设为d1,进入第2.4步;如果该第二个单字不属于H1类型,则该双字及其拆分的两个单字都不是人名或人名的一部分,进入第2.1步并取该双字之后的下一个双字进行判断;第2.4步,判断d1之后的双字是否属于MT2类型;P(MT2|Di)>第二阈值则表示该双字Di属于MT2类型;第二阈值的取值范围是0.13~0.22;如果d1之后的双字属于MT2类型,则将该双字设为d2,并进入第2.6步;如果d1之后的双字不属于MT2类型,则将该双字拆分为两个单字,分别设为d2、d3,并进入第2.5步;第2.5步,判断d1、d2与d3的组合是否为中文人名;同时满足如下5个公式则表示d1、d2与d3的组合为中文人名:P(d1|H)×P(d2|M)×P(d3|T)>P(d1|N)×P(d2|N)×P(d3|N)P(d1|H)×P(d2|M)×P(d3|T)>P(d1|N)×P(d2|N)×P(d3|H)P(d1|H)×P(d2|M)×P(d3|T)>P(d1|N)×P(d2|H)×P(d3|T)P(d1|H)×P(d2|M)×P(d3|T)>P(d1|H)×P(d2|T)×P(d3|N)P(d1|H)×P(d2|M)×P(d3|T)>P(d1|H)×P(d2|T)×P(d3|H)当d1为单字Si时,P(d1|H)为P(Si|H1),P(d1|N)为P(Si|N1);当d1为双字Di时,P(d1|H)为P(Di|H2),P(d1|N)为P(Di|N2);当d2为单字Si时,P(d2|H)为P(Si|H1),P(d2|M)为P(Si|M1),P(d2|T)为P(Si|T1),P(d2|N)为P(Si|N1);当d2为双字Di时,P(d2|H)为P(Di|H2),P(d2|M)为P(Di|HM2),P(d2|T)为P(Di|MT2),P(d2|N)为P(Di|N2);当d3为单字Si时,P(d3|H)为P(Si|H1),P(d3|T)为P(Si|T1),P(d3|N)为P(Si|N1);当d3为双字Di时,P(d3|H)为P(Di|H2),P(d3|T)为P(Di|MT2),P(d3|N)为P(Di|N2);当判断d1、d2与d3的组合为中文人名,则记录该中文人名,进入第2.1步并取d3之后的下一个双字进行判断;当判断d1、d2与d3的组合不是中文人名,则进入第2.6步;第2.6步,判断d1与d2的组合是否为中文人名;同时满足如下2个公式则表示d1与d2的组合为中文人名:P(d1|H)×P(d2|T)>P(d1|N)×P(d2|N)P(d1|H)×P(d2|T)>P(d1|N)×P(d2|H)当d1为单字Si时,P(d1|H)为P(Si|H1),P(d1|N)为P(Si|N1);当d1为双字Di时,P(d1|H)为P(Di|H2),P(d1|N)为P(Di|N2);当d2为单字Si时,P(d2|H)为P(Si|H1),P(d2|T)为P(Si|T1),P(d2|N)为P(Si|N1);当d2为双字Di时,P(d2|H)为P(Di|H2),P(d2|T)为P(Di|MT2),P(d2|N)为P(Di|N2);当判断d1与d2的组合为中文人名,则记录该中文人名,进入第2.1步并取d2之后的下一个双字进行判断;当判断d1与d2的组合不是中文人名,则进入第2.1步并取d2之后的下一个双字进行判断。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010233653.6/,转载请声明来源钻瓜专利网。
- 上一篇:从斑蝥中提取斑蝥素的方法
- 下一篇:一种塑胶管件焊接机