[发明专利]一种自动生成开放式问题答案的方法有效
申请号: | 201710205299.8 | 申请日: | 2017-03-31 |
公开(公告)号: | CN106991161B | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 曹欢欢;罗立新 | 申请(专利权)人: | 北京字节跳动科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 北京金言诚信知识产权代理有限公司 11229 | 代理人: | 余先同 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 生成 开放式 问题 答案 方法 | ||
本发明提供了一种自动生成开放式问题答案的方法,包括:获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性;建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。本发明能够针对网络应用中的开放式问题提供网络的自主回复。
技术领域
本发明涉及计算机应用技术领域,特别涉及一种自动生成开放式问题答案的方法。
背景技术
随着互联网的发展,问答社区逐渐成为深受网民欢迎的一种互联网产品,如国内的“知乎”、“头条问答”,美国的Quora,用户可以在社区中提出各种问题,其它用户看到自己熟悉领域的问题就可以发布自己的答案。这些答案会被所有浏览该问题的用户看到,点赞或点踩,受欢迎的答案会被系统排到靠前的位置。这类社区的一个挑战是,随着用户量的增长,越来越多的问题很少被其它用户关注到,导致无人回答,提问者的积极性大受打击。有些社区提供了答主自动邀请的功能,会根据用户的回答历史为问题自动邀请合适的用户来回答。可是这样会导致活跃的答主收到过多的邀请,没有办法在保证回答质量的情况下及时回答问题。因此,目前这个问题尚没有有效的解决方案。
在自动回答方面,现有的技术主要聚焦在解决封闭性问题的回答生成上,比如“奥巴马是美国第几届总统?”。现有的一些系统一般会把利用NLP技术把问题转化为一个结构化的查询语言并通过查询预先构建的知识图谱返回答案。但是现有的自动回答生成技术无法解决开放式问题的回答自动生成问题,比如:“你对乐视的生态化反战略怎么看?”这类问题的提问者需要的不是知识性的答案,而是对问题的分析和观点的阐述,从而达到思想的交流。目前的网络问答社区无法对上述具有开放式特定的网络问题进行自动答复,也没有实现网络问题的自动生成答案的功能。上述功能的欠缺导致网络资源的大量浪费,无法整合网络资源,也不能实现网络自适应地处理问答机制,使得大量用户问题无法得到及时反馈与解决。
发明内容
本发明技术方案所解决的技术问题为:如何针对网络应用中的开放式问题提供网络的自主回复。
为了解决上述技术问题,本发明技术方案提供了一种自动生成开放式问题答案的方法,包括:
获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性;
建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;
对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;
计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。
可选的,所述获取内容库包括:根据内部提供或外部抓取的文档或视频建立内容库中的项目。
可选的,所述建立答案规则包括:
从内容库中筛选符合如下条件中的至少一项的项目:
所述项目来源的权威度合法;
所述项目内容的时效合法;
所述项目标题中包含实体词语;
所述项目标题是疑问句。
可选的,所述建立答案规则包括:
从所述内容库中人工筛选所述符合所述答案规则的项目及不符合所述答案规则的项目以分别作为第一正样本及第一负样本;
将所述项目的属性、第一正样本及第一负样本输入答案规则建立模型、训练所述答案规则建立模型以建立所述答案规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动科技有限公司,未经北京字节跳动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710205299.8/2.html,转载请声明来源钻瓜专利网。