[发明专利]一种自动问答方法及装置有效
申请号: | 201210128360.0 | 申请日: | 2012-04-27 |
公开(公告)号: | CN103377245B | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 路彦雄;贺翔;焦峰 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 问答 方法 装置 | ||
本发明实施例公开了一种自动问答方法,该方法包括:根据用户终端输入的问题串获取相关的现有用户问答数据;统计所述现有用户问答数据的摘要部分的中心词的词频;根据所述各个中心词的词频和预先统计出的所述各个中心词的逆文档频率,计算所述各个中心词的词权重,将词权重最大的中心词确定为答案词;根据所述答案词确定所述问题串对应的自动问答的答案。本发明还公开了一种自动问答装置,该方法和装置不需要建立知识库,也不需要限制知识领域,只需根据现有问答社区的用户问答数据,即可实现自动问答。
技术领域
本发明涉及网络搜索技术领域,特别涉及一种自动问答方法及装置。
背景技术
在当前的网络搜索中,问答社区逐渐发展起来,问答社区即用户参与提问和回答,并按照这种问答关系将用户和数据组织起来,可供用户搜索的互联网产品。而问答社区中,完全由用户来回答问题是无法满足用户提问需求的,因此目前大多数问答社区还提供自动问答功能,即由后台服务器自动对用户的问题给出答案。
自动问答目前主要有两种实现方法:
1)在特定知识领域内,根据设定的分析方法,自动分析用户问题并从现有回答中抽取答案。
2)在大量的预定义的知识库中匹配答案。
对于第一种在特定知识领域内分析问题并抽取答案,这种方法由于限定在特定的知识领域,所以具有一定的局限性。
而对于第二种在大量的预定义的知识库中匹配答案,这种方法解决问题的能力取决于预先存储的知识库数据量的大小,超出知识库范围的问题无法实现自动问答。
总之,现有技术中,自动问答必须依托特定知识领域或知识库;只要是超出知识领域或知识库的问题,都无法实现自动问答。
发明内容
有鉴于此,本发明提供了一种自动问答方法及装置,可以根据现有问答社区的用户问答数据,实现自动问答。为达上述目的,本发明的技术方案具体是这样实现的:
一种自动问答方法,该方法包括:
根据用户终端输入的问题串获取相关的现有用户问答数据;
统计所述现有用户问答数据的摘要部分的中心词的词频;
根据所述各个中心词的词频和预先统计出的所述各个中心词的逆文档频率,计算所述各个中心词的词权重,将词权重最大的中心词确定为答案词;
根据所述答案词确定所述问题串对应的自动问答的答案。
较佳地,所述根据用户终端输入的问题串获取相关的现有用户问答数据,包括:
将所述问题串作为检索串,输入到问答社区的搜索引擎,获得与所述检索串对应的查询结果,每条查询结果包括标题部分和带有区别标识的摘要部分。
较佳地,统计所述现有用户问答数据的摘要部分的中心词的词频,包括:
逐条统计每一条查询结果的摘要部分的中心词词频,直至所有查询结果都统计完成;
其中,针对每一条查询结果,将其摘要部分以句号切分为句子,针对每个句子统计其中各中心词的词频,将所有句子中的中心词的词频进行累加,得到摘要中所有中心词的词频。
较佳地,所述将所有句子中的中心词的词频进行累加,得到摘要中所有中心词的词频,包括:
如果句子中有带有区别标识的词,则该句子中各个中心词的词频按3倍标准权重累加;如果该句子前或后相邻的句子中有带有区别标识的词,则该句子中各个中心词的词频按2倍标准权重累加;否则,该句子中各个中心词的词频按标准权重累加,从而得到该句子中所有中心词的加权词频。
较佳地,所述逐条统计每一条查询结果的摘要部分的中心词词频,直至所有查询结果都统计完成,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210128360.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:割草机用旋转切割器
- 下一篇:一种便捷式钢筋定位装置