[发明专利]一种基于跨语言资源的柬语命名实体识别的方法有效
申请号: | 201711084450.3 | 申请日: | 2017-11-07 |
公开(公告)号: | CN107861947B | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 严馨;谢俊;郭剑毅;余正涛;线岩团 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语言 资源 命名 实体 识别 方法 | ||
本发明涉及一种基于跨语言资源的柬语命名实体识别的方法,属于自然语言处理技术的领域。本发明首先获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。
技术领域
本发明涉及一种基于跨语言资源的柬语命名实体识别的方法,属于自然语言处理技术的领域。
背景技术
命名实体识别的主要任务是识别出文本中的人名、地名、机构组织名等专有名称。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。柬埔寨语命名实体构造特点与汉语有类似的地方,除了极少量缩略词外,其余命名实体的外形与其他单词无区别,但仍存在一些线索暗示命名实体的存在,如人名地名指示词、人名或地名的指示KCC等,词性也暗示了命名实体的存在,在汉语等语言的命名实体识别中,这些特征取得了不错的效果,我们仍然沿用有效的特征。
同时和其他亚洲语言一样,柬埔寨语缺乏对命名实体识别非常有效的大写特征;对于大多数自然语言处理任务,英文具有较多的训练数据、更好的知识资源及区分度较强的特征,英文命名实体识别技术较为成熟,获得不错的效果,而在全球一体化的背景下,我们可以从纸质文本、网页及维基百科获得较多的英语与其他语言的双语平行文本,从而利用跨语言信息获得更具优势的特征来促进柬埔寨语命名实体的识别正确率。
发明内容
本发明提供了一种基于跨语言资源的柬语命名实体识别的方法,用于解决柬埔寨语命名实体的识别正确率低的问题。
本发明的技术方案是:一种基于跨语言资源的柬语命名实体识别的方法,获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。
所述方法的具体步骤如下:
Step1、获取英柬双语平行文本语料及柬语单语文本语料;
Step2、使用Word2vec工具对所获得的柬语单语文本语料进行处理,得到该文本
中的每个柬语单词所对应的词向量文本;
Step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现;设柬语文档中任意两个单词的向量表示为wi和wj,其中wi=(wi1,wi2...win),wj=(wj1,wj2...wjn),则其两词之间的相似度表示为:
Step4、实现柬语单词与英语单词的词对齐:使用标准的词对齐技术IBM模型对柬语单词和英语单词进行词对齐;
Step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711084450.3/2.html,转载请声明来源钻瓜专利网。