[发明专利]小语种词嵌入模型的生成方法、系统及问答方法和系统在审
申请号: | 201710571207.8 | 申请日: | 2017-07-13 |
公开(公告)号: | CN107562774A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 杨恺;陈梦竹;赵生捷 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N5/02 |
代理公司: | 上海科盛知识产权代理有限公司31225 | 代理人: | 赵志远 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语种 嵌入 模型 生成 方法 系统 问答 | ||
技术领域
本发明涉及一种智能问答系统,尤其是涉及一种小语种词嵌入模型的生成方法、系统及问答方法和系统。
背景技术
问答系统(Question Answering System,QA),又称人机对话系统(Human-Machine Conversation,HMC),它是信息检索领域的一种高级形式。对于用户以自然语言形式提出的问题,问答系统能给出简洁、准确的答案,这种答案一般是一小段文本,甚至短语、词汇。问答系统涉及多学科的知识,包含信息技术、人工智能、自然语言处理、知识与数据管理和认知科学。
设计问答系统主要是为了回答“WHO did WHAT to WHOM,WHERE,WHEN,HOW and WHY?”。值得注意的是,这些WH问题却是有难有易,大体可以分成两大类:有些WH问题对应的是实体专名,比如WHO/WHEN/WHERE,回答这些问题相对容易,技术也相对成熟。另一类问题则明显难度高了许多,比如WHAT/HOW/WHY,这一类的问题才是研究问答系统面临的挑战。WHAT类型的问题可以被称为定义问题。这一类问题的特点是问题短小,而任何人或物都处于与外界的多重关系之中。因此解决这一类问题需要用到深度信息抽取的技术,把散落在文档中的关键信息整合起来。HOW类型的问题搜索的是问题的解决方案,而对于同一问题,往往有多种解决方式,因此这一类问题被公认为问答界的难点之一。WHY类型的问题搜索的是一个现象或事物发生的原因。有些原因在文档中是显性表达的,而有些是隐性的,而且几乎所有的原因都不是简单的词汇能够表达清楚的,因此找到这些原因,以合适的方式返回给用户,也是一个很大的难题。
问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。智能问答系统的准确性、稳定性、鲁棒性以及时间效率等性能决定着这种系统能否广泛地应用于人类生活的各个领域。其中问句的真实意图分析、问句与答案之间的匹配关系判别仍然是制约着自动问答系统性能的两个关键。
同时,现有的大量有关问答系统的技术,数据,资料,特别是词嵌入模型数据是针对英文的。其它语言的嵌入模型比较稀少,特别是小语言种类,例如藏语,高加索语、格鲁吉亚语等多语言。这些小语言种类的语言资料相对缺乏,很多情况下无法收集到训练词嵌入模型所需要的大量数据。另外,理解并能使用小语种语言的人员相当稀少,因此提供有效标注的成本会相当高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种小语种词嵌入模型的生成方法、系统及问答方法和系统。
本发明的目的可以通过以下技术方案来实现:
一种小语种词嵌入模型的生成方法,包括:
载入英语词嵌入模型;
基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型。
一种问答方法,包括:
步骤S1:对输入的问句处理得到多个关键词,
步骤S2:根据各关键词在知识库中搜索得到多个候选答案;
步骤S3:根据各关键词和候选答案之间的相似度,从搜索得到的候选答案中选择做一个作为选中的答案。
所述知识库为分类知识库,在步骤S1中,对输入的问句预处理得到多个关键词的同时,生成问句的主题词,并在步骤S2中,在知识库与所述主题词对应分类中搜索得到多个候选答案。
所述知识库的创建具体包括:
步骤S21:获取文档;
步骤S22:对文档执行指代消解;
步骤S23:对文档进行分句;
步骤S24:对分句进行短文本分类。
步骤S31:根据各关键词与各候选答案的之间的相似度计算各候选答案的相似度:
其中:simj为第j个候选答案的相似度,ωi为各关键词的权重系数,simij为第i个关键词与第j个候选答案之间的相似度,n为关键词的总个数;
S32:根据各各候选答案的相似度,从搜索得到的候选答案中选择做一个作为选中的答案。
一种小语种词嵌入模型的生成设备,包括:
用于载入英语词嵌入模型的装置;
用于基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型的装置,与用于载入英语词嵌入模型的装置连接。
一种问答系统,包括:
用于对输入的问句处理得到多个关键词的装置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710571207.8/2.html,转载请声明来源钻瓜专利网。