[发明专利]无歧义日本人名列表构建方法、人名识别方法及装置在审
| 申请号: | 201310412289.3 | 申请日: | 2013-09-11 |
| 公开(公告)号: | CN104424332A | 公开(公告)日: | 2015-03-18 |
| 发明(设计)人: | 宋双永;孟遥;郑仲光;于浩 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;李春晖 |
| 地址: | 日本神*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 歧义 日本 人名 列表 构建 方法 识别 装置 | ||
技术领域
本发明涉及文本识别领域,尤其涉及一种日本人名的识别方法及装置。
背景技术
随着通讯技术的发展,各国交流变得日益广泛、信息传播也变得越来越方便迅速。因此,在中文文本中会包含大量的外国机构名、人名和地名等命名实体。然而,这些命名实体本身并不一定存在于传统的词典之中,属于未登录词(即Out Of Vocabulary,简称OOV),这就给很多以中文分词为基础的自然语言处理相关应用带来了困难。对这些命名实体进行有效识别,能够有效提高网络文本分类、实体关联网络构建以及话题检测与跟踪等应用效果的提高。
在识别该类命名实体的过程中,日本人名的识别难度较大,这是由于日本人名中包含的姓氏很多,并且其长度、用字等方面都没有很严格的限定。目前相关的研究主要分为两类:一类是基于中文分词结果,对词语进行类似“日本人名首字”、“日本人名中间部分”和“日本人名首字与上文成词”等等一系列标注,进而发现日本人名。例如“日本记者川口信一郎报道”一句中,根据分词结果“日本/记者/川/口信/一/郎/报道”,其中的“川”应该被标注为日本人名首字,“口信”和“一”都应该被标注为日本人名中间部分,而“郎”则应该被标记为日本人名尾字。但是由于“川”在除日本人名以外的中文文本中出现的概率也非常的大,因此在这里未能按照上述的正确标注结果对该句进行标注。可见,这是由于分词过程中未能够将“川口”正确识别为日本姓氏导致的,因为虽然“川”在中文文本中出现的概率非常大,但是“川口”则一般只出现在日本人名之中。
另一类日本人名识别方法则是通过发现可能出现的日本姓氏,以及日本人名后缀,并通过相应的概率计算来发现日本人名。例如“小渊惠三首相”中,小渊是日本姓氏,首相是人名后缀,如果计算得到“小渊”、“惠”、“三”组成日本人名的概率大于某阈值,“小渊惠三”就能够被识别为日本人名。但是该方法的局限性很多,首先,日本姓氏的发现对于“林”、“尹”这种中国和日本都存在的姓氏,或者“树下”、“大同”这种在中文文本中有非常大歧义的日本姓氏,都会产生错误的识别结果;其次,人名的后缀很多时候在日本人名之后并未出现,因此该人名后边界识别方式的覆盖范围也不是很高;另外,因为某些字在日本名字中出现的概率很小,也会导致日本人名的漏识别,例如,如果整个训练集中的日本人名都未出现“苇”,那么“大久保苇歌”就会因为“苇”的计算概率为0而无法被识别,然而,“大久保”一般只作为日本姓氏在中文文本中出现,所以即使通过训练数据集计算得到“苇”作为日本人名用字的概率为0,此处也应该被识别为日本人名。
发明内容
本发明针对日本人名的识别难点,设计了一种无歧义日本人名相关词语列表构建方法,并根据该方法得到的无歧义日本人名相关词语列表进行中文分词以及中文文本中的日本人名识别,能够改进上述日本人名识别方法中所存在的问题。
根据本发明的一方面,提供了一种构建无歧义日本人名相关词语列表的方法,所述方法包括:利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表;将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合;将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合;针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。
根据本发明的另一方面,在针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表的步骤中,在日本人名相关词语在训练语料中只作为日本人名相关词语出现,而不作为其他角色出现的情况下,判断该词语为无歧义日本人名相关词语,从而将该词语归并到相应的无歧义日本人名相关词语列表中。
根据本发明的另一方面,提供了一种利用无歧义日本人名相关词语列表的日本人名识别方法,所述日本人名识别方法包括:基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列;对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注;以及利用人名识别模型对所述待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注。
根据本发明的另一方面,所述日本人名识别方法还包括:对待标注序列中的词语进行角色标注之后所获得的标注结果执行包括日本人名识别结果检查和日本人名识别结果扩散的后处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310412289.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于时间的相片分类方法及其系统
- 下一篇:一种数据处理方法及电子设备





