[发明专利]样本确定方法及装置在审
申请号: | 201710986853.0 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107918640A | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | 毛德峰;胡翔;王雅芳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京众达德权知识产权代理有限公司11570 | 代理人: | 刘杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 确定 方法 装置 | ||
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种样本确定方法及装置。
背景技术
在各类应用程序(Application,APP)或网站使用过程中,用户往往因为各类原因进行操作方式或业务方面的询问。例如,用户在使用一款金融类APP时,可能会提出“如何查看额度”等类似问题,APP或网站需要对用户输入的各类问题进行句意识别,才能给出对应的答案。
发明内容
本说明书实施例提供及一种样本确定方法及装置,用于确定句意相似度识别中的训练样本。
第一方面,本说明书实施例提供一种样本确定方法,用于确定句意相似度识别中的训练样本,包括:获取多条原始问句;对所述原始问句进行句法分析,得到主谓宾三元组;根据所述主谓宾三元组对原始问句进行聚类,得到至少一个问句簇;基于所述问句簇对应的标准问句,对所述问句簇中的各个原始问句进行标注,得到正样本和负样本。
第二方面,本说明书实施例提供一种句意相似度识别方法,包括:获取用户输入的待识别问句;将所述待识别问句与各个标准问句输入到句意相似度识别模型,得到所述待识别问句与各标准问句的相似度;其中,所述句意相似度识别模型是利用至少一个问句簇中标注的正样本和负样本作为训练数据训练得到,所述问句簇是根据原始问句的主谓宾三元组对多条原始问句进行聚类得到的。
第三方面,本说明书实施例提供一种样本确定装置,用于确定句意相似度识别中的训练样本,包括:问句获取单元,用于获取多条原始问句;句法分析单元,用于对所述原始问句进行句法分析,得到主谓宾三元组;聚类单元,用于根据所述主谓宾三元组对原始问句进行聚类,得到至少一个问句簇;标注单元,用于基于所述问句簇对应的标准问句,对所述问句簇中的各个原始问句进行标注,得到正样本和负样本。
第四方面,本说明书实施例提供一种句意相似度识别设备,包括:模型训练装置:用于利用上述任一项样本确定装置确定的正样本和负样本作为训练数据,训练得到句意相似度识别模型;相似度识别装置,用于将获取的待识别问句输入各个标准问句对应的句意相似度识别模型,得到所述待识别问句与各标准问句的相似度。
本说明书实施例有益效果如下:
可见,本说明书实施例基于业务问答领域,虽然用户问句描述方式多样,但问句中核心主要信息相对固定,因此提出一种通过主谓宾(SVO)三元组方式刻画并理解用户意图方式,通过对问句中SVO进行抽取识别后进行聚类,由每个问句簇进行标注,可提升对标准问句及长尾问题的覆盖,同时提升识别准确率,提升问答系统对用户问题的识别能力。
附图说明
图1为本说明书实施例句意识别应用场景示意图;
图2本说明书实施例第一方面提供的样本确定方法流程图;
图3本说明书实施例第一方面提供的样本确定方法示意图;
图4本说明书实施例第一方面提供的样本确定方法中主谓宾三元组示意图;
图5本说明书实施例第一方面提供的样本确定方法中问句簇示意图;
图6本说明书实施例提供的句意相似度识别模型训练的方法流程图;
图7本说明书实施例第二方面提供的句意相似度识别方法流程图;
图8本说明书实施例第三方面提供的样本确定装置结构示意图;
图9本说明书实施例第四方面提供的句意相似度识别装置结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
本说明书实施例可应用在各类网站或APP中对用户问句进行解答的场景下。为了准确的为用户提供问句答案,需要对用户问句进行句意识别。参见图1,为句意识别场景示意图。客户端10是指用户终端,例如包括个人电脑、pad、手机等;服务器20是指网站或APP的网络侧服务器。客户端10向服务器20发起问句;服务器20向客户端10返回问句答案。其中,服务器20中设置用于实现句意识别的句意相似度识别模型,该句意相似度识别模型对问句进行识别,从而可对应确定该问句对应的答案。
为了实现准确的句意识别,如何高效、准确的训练句意相似度识别模型是一个需要考虑的问题。这其中,确定训练样本是准确进行模型训练的前提。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710986853.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:微流体装置及其用途与使用方法
- 下一篇:将物质递送至无核细胞