[发明专利]小语种词嵌入模型的生成方法、系统及问答方法和系统在审
申请号: | 201710571207.8 | 申请日: | 2017-07-13 |
公开(公告)号: | CN107562774A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 杨恺;陈梦竹;赵生捷 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N5/02 |
代理公司: | 上海科盛知识产权代理有限公司31225 | 代理人: | 赵志远 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语种 嵌入 模型 生成 方法 系统 问答 | ||
1.一种小语种词嵌入模型的生成方法,其特征在于,包括:
载入英语词嵌入模型;
基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型。
2.一种基于权利要求1所述小语种词嵌入模型的问答方法,其特征在于,包括:
步骤S1:对输入的问句处理得到多个关键词,
步骤S2:根据各关键词在知识库中搜索得到多个候选答案;
步骤S3:根据各关键词和候选答案之间的相似度,从搜索得到的候选答案中选择做一个作为选中的答案。
3.根据权利要求2所述的问答方法,其特征在于,所述知识库为分类知识库,在步骤S1中,对输入的问句预处理得到多个关键词的同时,生成问句的主题词,并在步骤S2中,在知识库与所述主题词对应分类中搜索得到多个候选答案。
4.根据权利要求2所述的问答方法,其特征在于,所述知识库的创建具体包括:
步骤S21:获取文档;
步骤S22:对文档执行指代消解;
步骤S23:对文档进行分句;
步骤S24:对分句进行短文本分类。
5.根据权利要求2所述的问答方法,其特征在于,所述步骤S3具体包括:
步骤S31:根据各关键词与各候选答案的之间的相似度计算各候选答案的相似度:
其中:simj为第j个候选答案的相似度,ωi为各关键词的权重系数,simij为第i个关键词与第j个候选答案之间的相似度,n为关键词的总个数;
S32:根据各各候选答案的相似度,从搜索得到的候选答案中选择做一个作为选中的答案。
6.一种小语种词嵌入模型的生成设备,其特征在于,包括:
用于载入英语词嵌入模型的装置;
用于基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型的装置,与用于载入英语词嵌入模型的装置连接。
7.一种基于权利要求6所述小语种词嵌入模型的问答系统,其特征在于,包括:
用于对输入的问句处理得到多个关键词的装置;
用于根据各关键词在知识库中搜索得到多个候选答案的装置,与所述用于对输入的问句处理得到多个关键词的装置连接;
用于根据各关键词和候选答案之间的相似度,从搜索得到的候选答案中选择做一个作为选中的答案的装置,与所述用于根据各关键词在知识库中搜索得到多个候选答案的装置连接。
8.根据权利要求7所述的问答系统,其特征在于,所述知识库为分类知识库,所述用于对输入的问句处理得到多个关键词的装置包括用于生成问句主题词的模块,所述用于根据各关键词在知识库中搜索得到多个候选答案的装置在知识库与所述主题词对应分类中搜索得到多个候选答案。
9.根据权利要求7所述的问答系统,其特征在于,知识库创建装置具体包括:
用于获取文档的模块;
用于对文档执行指代消解的模块,与所述用于获取文档的模块连接;
用于对文档进行分句的模块,与用于对文档执行指代消解的模块连接;
用于对分句进行短文本分类的模块,与所述用于对文档进行分句的模块连接。
10.根据权利要求7所述的问答系统,其特征在于,所述用于根据各关键词和候选答案之间的相似度,从搜索得到的候选答案中选择做一个作为选中的答案的装置具体包括:
用于根据各关键词与各候选答案的之间的相似度计算各候选答案的相似度的模块,相似度具体为:
其中:simj为第j个候选答案的相似度,ωi为各关键词的权重系数,simij为第i个关键词与第j个候选答案之间的相似度,n为关键词的总个数;
用于根据各各候选答案的相似度,从搜索得到的候选答案中选择做一个作为选中的答案的模块,与所述用于根据各关键词与各候选答案的之间的相似度计算各候选答案的相似度的模块连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710571207.8/1.html,转载请声明来源钻瓜专利网。