[发明专利]关联问题聚合模型的生成、问答式聚合方法、装置及设备有效
申请号: | 201810694922.5 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108846126B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 王硕寰;孙宇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联 问题 聚合 模型 生成 问答式 方法 装置 设备 | ||
本发明公开了一种关联问题聚合模型的生成、问答式聚合方法、装置及设备。其中,该方法包括:根据至少两个用户的网络行为数据,获取第一数量的基础训练样本,并使用基础训练样本对第一机器学习模型进行训练,得到基础语义匹配模型;将基础语义匹配模型中的语义表示层中迁移至第二机器学习模型中,并根据预先标注的第二数量的关联问题对,对第二机器学习模型进行训练,得到关联问题聚合模型。本发明实施例可以得到将意思一致的问题的答案聚合在一起的关联问题聚合模型,利用用户的网络行为数据训练得到的基础语义匹配模型,作迁移学习生成关联问题聚合模型,可以大大减少人工标注样本以及人工标注成本,可以优化问答社区内问题的答案满足率。
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种关联问题聚合模型的生成、问答式聚合方法、装置及设备。
背景技术
目前百度知道、知乎等问答社区存在大量相同的问题。部分问题没有答案或者质量很低。当用户搜索这些问题时,无法找到满足其需求的答案。但是网站存在有其他意思一致但表述不同的问题。(例如“苹果手机如何强制关机?”和“IPhone有办法强行关掉吗?”为一对意思一致但表述不同的问题)这些意思一致的问题可能存在满足用户需求的答案。
现有技术中,部分问答社区在用户提问时,会检查用户提问的问题是否已存在库中。如果问题已存在库中,会提示用户先查看已有问题,再提问。检查用户提问的问题是否已存在库中的手段一般是通过规则直接将问题与库中的问题进行匹配,或者去除问题中的停用词后,将问题与库中的问题进行匹配。
发明人在实现本发明的过程中,发现现有技术仅可以检查到问题表述一致,或者只有个别停用词不同的问题,语义泛化性很差;并且对已经存在库中的问题,不会检查是否有相同的问题,存在库中的问题中的部分问题答案质量不高,或者没有答案,影响问答社区整体的答案满足率。
发明内容
本发明实施例提供一种关联问题聚合模型的生成方法、问答式聚合方法、装置、设备及介质,以实现优化答案满足率,提高用户体验。
第一方面,本发明实施例提供了一种关联问题聚合模型的生成方法,包括:
根据至少两个用户的网络行为数据,获取第一数量的基础训练样本,并使用基础训练样本对第一机器学习模型进行训练,得到基础语义匹配模型;
将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中,并根据预先标注的第二数量的关联问题对,对第二机器学习模型进行训练,得到关联问题聚合模型;
其中,第一数量大于第二数量。
第二方面,本发明实施例还提供了一种问答式聚合方法,包括:
获取问答式数据库,问答式数据库中包括问答式结构数据,问答式结构数据包括:问题,与问题对应的回答项,回答项中包括零个或者至少一个答案内容;
根据预先训练的关联问题聚合模型,在问答式数据库包括的各个问题中,确定出至少一个关联问题集,关联问题集中包括至少两个关联问题;关联问题集合模型的输入为问题对,输出为问题对是否关联的结果;
将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并,得到与各关联问题集对应的组合问答式数据;
如果用户的问题搜索请求命中关联问题集中的一个关联问题,则获取与命中的关联问题集对应的组合问答式数据提供给用户。
第三方面,本发明实施例还提供了一种关联问题聚合模型的生成装置,包括:
第一模型训练模块,用于根据至少两个用户的网络行为数据,获取第一数量的基础训练样本,并使用基础训练样本对第一机器学习模型进行训练,得到基础语义匹配模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810694922.5/2.html,转载请声明来源钻瓜专利网。