[发明专利]样本确定方法及装置在审
申请号: | 201710986853.0 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107918640A | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | 毛德峰;胡翔;王雅芳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京众达德权知识产权代理有限公司11570 | 代理人: | 刘杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 确定 方法 装置 | ||
1.一种样本确定方法,用于确定句意相似度识别中的训练样本,其特征在于,包括:
获取多条原始问句;
对所述原始问句进行句法分析,得到主谓宾三元组;
根据所述主谓宾三元组对原始问句进行聚类,得到至少一个问句簇;
基于所述问句簇对应的标准问句,对所述问句簇中的各个原始问句进行标注,得到正样本和负样本。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始问句进行句法分析,得到主谓宾三元组,包括:
基于预先根据深度学习注意力模型训练的句法分析模型,解析出原始问句的主谓宾部分,构成所述主谓宾三元组。
3.根据权利要求1所述的方法,其特征在于,所述根据所述主谓宾三元组对原始问句进行聚类,得到至少一个问句簇,包括:
利用距离计算函数,根据每两个原始问句的主谓宾三元组,计算所述两个原始问句之间的距离;
将各原始问句之间距离小于距离阈值的所有原始问句确定为具有相似意图的原始问句,由具有相似意图的原始问句构成所述问句簇。
4.根据权利要求1所述的方法,其特征在于,所述基于所述问句簇对应的标准问句,对所述问句簇中的各个原始问句进行标注,得到正样本和负样本,包括:
通过标注的方式,将所述问句簇中与标准问句具有相同意思的原始问句标注为正样本,将所述问句簇中与标准问句具有不同意思的原始问句标注为负样本。
5.一种句意相似度识别方法,其特征在于,包括:
获取用户输入的待识别问句;
将所述待识别问句输入各个标准问句对应的句意相似度识别模型,得到所述待识别问句与各标准问句的相似度;
其中,所述句意相似度识别模型是利用至少一个问句簇中标注的正样本和负样本作为训练数据训练得到,所述问句簇是根据原始问句的主谓宾三元组对多条原始问句进行聚类得到的。
6.根据权利要求5所述的方法,其特征在于,所述原始问句的主谓宾三元组通过以下方式得到:
基于预先根据深度学习注意力模型训练的句法分析模型,解析出原始问句的主谓宾部分,构成所述主谓宾三元组。
7.根据权利要求6所述的方法,其特征在于,所述根据原始问句的主谓宾三元组对多条原始问句进行聚类得到问句簇的方式为:
利用距离计算函数,根据每两个原始问句的主谓宾三元组,计算所述两个原始问句之间的距离;
将各原始问句之间距离小于距离阈值的所有原始问句确定为具有相似意图的原始问句,由具有相似意图的原始问句构成所述问句簇。
8.根据权利要求5所述的方法,其特征在于,通过以下方式标注问句簇中的正样本和负样本:
通过标注的方式,将所述问句簇中与标准问句具有相同意思的原始问句标注为正样本,将所述问句簇中与标准问句具有不同意思的原始问句标注为负样本。
9.根据权利要求5-8任一项所述的方法,其特征在于,所述句意相似度识别模型的训练方式为:
基于深度学习注意力模型作为所述句意相似度识别模型,利用所述正样本和负样本作为训练数据对所述句意相似度识别模型进行训练。
10.一种样本确定装置,用于确定句意相似度识别中的训练样本,其特征在于,包括:
问句获取单元,用于获取多条原始问句;
句法分析单元,用于对所述原始问句进行句法分析,得到主谓宾三元组;
聚类单元,用于根据所述主谓宾三元组对原始问句进行聚类,得到至少一个问句簇;
标注单元,用于基于所述问句簇对应的标准问句,对所述问句簇中的各个原始问句进行标注,得到正样本和负样本。
11.根据权利要求10所述的装置,其特征在于,所述句法分析单元具体用于:基于预先根据深度学习注意力模型训练的句法分析模型,解析出原始问句的主谓宾部分,构成所述主谓宾三元组。
12.根据权利要求10所述的装置,其特征在于,所述聚类单元具体用于:利用距离计算函数,根据每两个原始问句的主谓宾三元组,计算所述两个原始问句之间的距离;将各原始问句之间距离小于距离阈值的所有原始问句确定为具有相似意图的原始问句,由具有相似意图的原始问句构成所述问句簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710986853.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:微流体装置及其用途与使用方法
- 下一篇:将物质递送至无核细胞