[发明专利]一种面向跨语言知识图谱的汉泰实体对齐方法在审
申请号: | 202010578711.2 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111723587A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 黄永忠;吴辉文;庄浩宇;徐鑫宇;张晨昊 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/295;G06F16/33;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 语言 知识 图谱 实体 对齐 方法 | ||
本发明公开了一种面向跨语言知识图谱的汉泰实体对齐方法,其特征在于,包括如下步骤:1)双语数据集获取;2)机器翻译模型构建与训练;3)实体抽取;4)实体翻译与匹配。这种方法可以更加有效,更精确的实现双语实体对齐,解决目前跨语言知识图谱构建实体对齐程度较低的问题。
技术领域
本发明涉及人工智能领域,属于跨语言知识图谱技术,具体是一种面向跨语言知识图谱的汉泰实体对齐方法。
背景技术
随着人工智能的不断发展,知识在人工智能的各个领域都显现得尤为重要。近年来,跨语言知识图谱的构建成为了当下研究的热点领域。虽然目前网上关于双语对齐的句子越来越丰富,但受限于这些实体对齐的程度较低,多语言实体对齐的准确性往往不够令人满意,跨语言知识图谱的构建也因此受到了限制。
实体主要是包括人名、地名、组织机构名等,一般而言,现阶段比较常用的实体对齐方法是先进行实体识别,然后再通过相应的技术,找出这一实体在不同语言中相同或相近的实体,进而实现多个语种的实体对齐。在对齐的双语句子中,句子中的实体,在对齐句子中都有与其相对应的实体,如果直接使用目前现有的翻译软件,如谷歌翻译、有道翻译或百度翻译等,对于小部分著名的人名、地名等实体,常用的翻译软件翻译精确度较高,但对于大部分非著名的人名、地名、组织机构名等实体,常用的翻译软件难以的对其进行精确的翻译,容易出现误译,导致对齐的效果不佳。
为了提高双语句子中实体对齐的准确性,面对非著名的人名、地名、组织机构名等实体,一种可行的方法就是将现有的双语句子通过机器翻译的方法进行训练,得到相应的机器翻译模型,再通过相应的实体抽取方法,抽取出其中一种语言句子中的实体,最后利用训练好的翻译模型对抽取出的实体进行翻译,从而匹配出对齐句子中另一种语言的实体,达到双语实体对齐。由于训练的翻译模型中包含了双语句子中需要对齐的各个实体词,因此,对于非著名的各类实体,翻译的准确度也会更加精确,提高实体对齐效果。
发明内容
本发明的目的旨在跨语言知识图谱构建过程中,针对现有技术在双语句子中非著名实体对齐精确度不高所面临的问题,而提供一种面向跨语言知识图谱的汉泰实体对齐方法。这种方法可以更加有效,更精确的实现双语实体对齐,解决目前跨语言知识图谱构建实体对齐程度较低的问题。
实现本发明目的的技术方案是:
一种面向跨语言知识图谱的汉泰实体对齐方法,包括如下步骤:
1)双语数据集获取:从Wikidata、YAGO多语言知识库或各大汉泰双语网站中,获取汉泰双语对齐数据,数据集中都为对齐的汉泰双语句子,且汉语句子中存在的实体可在泰语句子中找到其相对齐的实体;
2)机器翻译模型构建与训练:所谓机器翻译(machine translation,简称MT)就是利用计算机将一种自然语言即源语言转换为另一种自然语言即目标语言的过程,输入为源语言句子,输出为相应的目标语言的句子,将步骤1)中获取的双语数据集,通过构建好的机器翻译模型进行训练,得到训练好的汉泰翻译模型,再在步骤4)通过步骤3)对抽取的实体进行翻译,过程为:
1-2)数据预处理:将步骤1)获取的汉泰双语数据集进行预处理,转换成机器翻译模型训练的标准数据格式,先把双语数据集分为汉语句子文件Ch.txt,泰语句子文件Th.txt,Ch.txt中的每一个句子都对应于Th.txt中的每一个句子;
2-2)分词:汉语数据集采用jieba分词工具进行分词,泰语数据集采用cutkum工具进行分词,词与词之间以一个空格进行分隔;
3-2)构建Transformer翻译模型:Transformer模型采用Seq2Seq模型中典型的编码器-解码器即Encoder-Decoder的框架结构,但与Seq2Seq模型不同的是,Transformer的编码器和解码器中并没有使用循环神经网络的结构,其编码器和解码器的主要结构如下所述:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010578711.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防水卷料生产设备
- 下一篇:一种用于化工生产酯类有机物的分离收集装置