[发明专利]一种面向跨语言知识图谱的汉泰实体对齐方法在审
申请号: | 202010578711.2 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111723587A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 黄永忠;吴辉文;庄浩宇;徐鑫宇;张晨昊 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/295;G06F16/33;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 语言 知识 图谱 实体 对齐 方法 | ||
1.一种面向跨语言知识图谱的汉泰实体对齐方法,其特征在于,包括如下步骤:
1)双语数据集获取:从Wikidata、YAGO多语言知识库或各大汉泰双语网站中,获取汉泰双语对齐数据集,数据集中都为对齐的汉泰双语句子,且汉语句子中存在的实体可在泰语句子中找到其相对齐的实体;
2)机器翻译模型构建与训练:构建Transformer 翻译模型并将步骤1)中获取的双语数据集,通过构建好的Transformer 翻译模型进行训练,得到训练好的汉泰翻译模型,过程为:
1-2)数据预处理:将步骤1)获取的汉泰双语数据集进行预处理,转换成机器翻译模型训练的标准数据格式,先把双语数据集分为汉语句子文件Ch.txt,泰语句子文件Th.txt,Ch.txt中的每一个句子都对应于Th.txt中的每一个句子;
2-2)分词:汉语数据集采用jieba分词工具进行分词,泰语数据集采用cutkum工具进行分词,词与词之间以一个空格进行分隔;
3-2)构建Transformer 翻译模型:Transformer模型采用Seq2Seq 模型中典型的编码器-解码器即Encoder-Decoder的框架结构,但与Seq2Seq模型不同的是,Transformer的编码器和解码器中没有使用循环神经网络的结构,其编码器和解码器的主要结构如下所述:
1-3-2)编码器:Transformer模型中的编码层由一组相同的层堆叠组成,每个层由多头注意力即Multi-Head Attention和全连接的前馈即Feed-Forward网络这两个子层构成,所述多头注意力在模型中用于实现Self-Attention, Multi-Head Attention机制将输入进行多路线性变换,然后分别计算Attention的结果,并将所有的结果进行拼接,再一次进行线性变换并输出,其中Attention使用的是点积即Dot-Product,在点积后进行了scale的处理,所述全连接的前馈网络会对序列中的每个位置进行相同的计算即Position-wise,全连接的前馈网络采用了两次线性变换中间加以ReLU激活的结构;
2-3-2)解码器:解码器和编码器的结构相类似,只是解码器的层比编码器的层再增加了一个多头注意力的子层,用以实现对编码器输出的Attention;
3-3-2)Transformer翻译模型构建:采用百度的PaddlePaddle、Pytorch或TensorFlow框架进行构建;
4-3-2)模型构建完成后,将步骤2-2)中分词后的数据加载到上述Transformer翻译模型中进行训练,得到训练好的翻译模型即汉泰翻译模型;
3)实体抽取:选取目前开源的汉语实体抽取工具或采用常用的汉语命名实体识别模型抽取出汉语句子中的实体;
4)实体翻译与匹配:实体翻译采用目前常用的翻译软件与Transformer 翻译模型结合使用,具体过程如下:
1-4)首先采用目前常用的翻译软件将步骤3)中抽取的汉语实体NER-A进行翻译,得到翻译后的实体NER1-A,然后和相应的泰语句子进行匹配,若匹配成功,则进行下一个实体对齐,若匹配失败,则转入步骤2-4);
2-4)将步骤1-4)匹配失败的实体NER-A利用步骤4-3-2)中训练好的汉泰翻译模型进行翻译,得到翻译后的实体NER2-A,再与对应的泰语句子进行匹配,匹配成功,则得到汉语句子中的实体NER-A与泰语句子中相对应的实体NER-B;
3-4)最后,实现对齐的“NER-A:NER-B”,即完成汉泰双语句子中的实体对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010578711.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防水卷料生产设备
- 下一篇:一种用于化工生产酯类有机物的分离收集装置