[发明专利]基于多语义的集外词处理方法、智能问答方法及装置在审

申请号：	201810556386.2	申请日：	2018-06-01
公开（公告）号：	CN108763217A	公开（公告）日：	2018-11-06
发明（设计）人：	杨凯程;李健铨;蒋宏飞	申请（专利权）人：	北京玄一科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	北京弘权知识产权代理事务所(普通合伙) 11363	代理人：	逯长明;许伟群
地址：	100012 北京市朝阳区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语义词向量智能问答系统语义向量权重应答句子方案生成语义环境关联度好感度求和准确率句义加权申请匹配对话表现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多语义的集外词处理方法，其特征在于，包括：

根据集外词在句子中的上下词，获取集外词的每个语义的权重；所述上下词包括集外词在句子中的至少一个前序分词和至少一个后序分词；

根据每个语义中义原的词向量，生成每个语义的语义向量；

根据每个语义的权重，对每个语义的语义向量加权求和，生成仿真词向量。

2.根据权利要求1所述的方法，其特征在于，所述根据集外词在句子中的上下词，获取集外词的每个语义的权重的步骤，包括：

获取集外词在句子中的上下词；

获取所述上下词与每个语义的第一类距离；

根据所述第一类距离，计算每个语义的权重。

3.根据权利要求2所述的方法，其特征在于，所述获取上下词与每个语义的第一类距离的步骤，包括：

获取所述上下词的每个分词与每个语义中每个义原的余弦距离；

根据所述余弦距离，获取所述上下词的每个分词与每个语义中所有义原的平均距离；

根据所述平均距离，获取所述上下词与每个语义的第一类距离。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一类距离，计算每个语义的权重的步骤，使用以下公式：

其中，n为集外词语义的数量，Wm为集外词第m个语义的权重，Dm为所述上下词与集外词第m个语义的第一类距离，为集外词所有语义的第一类距离的和。

5.根据权利要求1所述的方法，其特征在于，所述根据每个语义中义原的词向量，生成每个语义的语义向量的步骤，包括：

获取集外词的每个语义中每个义原的义原词向量；

根据每个语义中义原的数量，对每个语义中的每个义原设置义原权重；

根据所述义原权重，对每个语义中义原的词向量进行加权求和，生成每个语义的语义向量。

6.根据权利要求2所述的方法，其特征在于，所述获取集外词在句子中的上下词的步骤，包括：

设置用于约束所述上下词数量的取词窗口值C，C为整数且大于或等于1；

根据所述取词窗口值C，从包含所述集外词的句子的分词中获取所述上下词；

其中，所述上下词包括句子中位于所述集外词前序的C个分词和后序的C个分词。

7.根据权利要求5所述的方法，其特征在于，

所述根据每个语义中义原的数量，对每个语义中的每个义原设置义原权重，使用以下公式：

Wp＝1/x

其中，Wp为义原权重，x为语义中义原的数量。

8.一种智能问答方法，其特征在于，应用于权利要求1-7任一所述的方法，包括：

从未知问题的分词结果中获取集外词；

基于所述集外词的多语义，生成所述集外词的仿真词向量；

根据所述仿真词向量和所述问题中其余分词的词向量，从已训练的问答模型中匹配问题答案。

9.一种基于多语义的集外词处理装置，其特征在于，包括：

语义权重获取单元，用于根据集外词在句子中的上下词，获取集外词的每个语义的权重；所述上下词包括集外词在句子中的至少一个前序分词和至少一个后序分词；

语义向量生成单元，用于根据每个语义中义原的词向量，生成每个语义的语义向量；

仿真词向量生成单元，用于根据每个语义的权重，对每个语义的语义向量加权求和，生成仿真词向量。

10.一种智能问答装置，其特征在于，应用于权利要求1-7任一所述的方法，包括：

集外词获取单元，用于从未知问题的分词结果中获取集外词；

集外词处理单元，用于基于所述集外词的多语义，生成所述集外词的仿真词向量；

作答单元，用于根据所述仿真词向量和所述问题中其余分词的词向量，从已训练的问答模型中匹配问题答案。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京玄一科技有限公司，未经北京玄一科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810556386.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于中文数据集的文本情感分析方法
下一篇：一种基于CRF的影视检索实体识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多语义的集外词处理方法、智能问答方法及装置在审

专利文献下载