[发明专利]一种问答数据处理方法、装置、设备和计算机可读介质有效
申请号: | 201711214658.2 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107895037B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 杨仁凯;吴家林;余淼;郑杰鹏;王志华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/31;G06F16/36 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 张臻贤;武晨燕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 问答 数据处理 方法 装置 设备 计算机 可读 介质 | ||
本发明提出一种问答数据处理方法,包括:获得输入的提问语句,并对提问语句进行问题解析,获得对应的实体信息和问题信息;根据获得的实体信息和问题信息,查询通用问题索引数据库,获得与实体信息和问题信息相匹配的目标信息;将目标信息作为对应提问语句的答案输出;其中,通用问题索引数据库基于SPO的数据结构组建,S为用于存储实体信息的索引字段,P为用于存储问题信息的索引字段,O为用于存储目标信息的内容字段,SPO的数据结构反映了字段S到P和O的映射关系。本发还提出一种问答数据处理装置、设备和计算机可读介质。通过实施本发明,能够有效的支持多领域、多问答类型的问答需求,减少了垂类产品的构建、维护工作,大大减少了人力成本。
技术领域
本发明涉及基于互联网的知识问答技术领域,尤其涉及一种问答数据处理方法、装置、设备和计算机可读介质。
背景技术
问答知识图谱技术是支持问答产品的数据组织、索引技术,在实际的问答场景下存在以下两类问题:
一、用户的问答类型不仅包含SPO问答,还包括复杂的不能以S实体为基本粒度进行数据构建的问答query,如“xx电视剧里扮演白胡子老人的是谁”、“PEK是哪个机场的三字代码”等;其中,SPO中的S表示实体/主语(Subject)、P表示谓语(Predicate)、O表示客体/宾语(Object);
二、问答数据属于多个领域的或者来源是多样性的。
针对以上问题,现有技术的解决方案主要包括:垂类知识图谱构建,分领域、分问答类型构建多个垂类问答产品,每个知识图谱事先设计好固定的架构(schema)来构建索引。现有的解决方案主要存在以下问题:
a)设计好的schema中直接将问题建立在实体S层上,不易扩展,灵活性较差;
b)产品级别的产品会出现“一刀切”主需求问题,即这类问题要不A产品全部解决,要不B产品全部解决,没有底层数据的综合特征,无法做精细化的分类(rank);
c)多个问答产品各自具有一套问题(query)解析系统,造成冗余;
d)人力维护成本大。
因此,亟待提出一种至少能解决或改善上述部分问题的针对问答数据的问答知识图谱构建以及问答数据查询的解决方案。
发明内容
本发明实施例提供一种问答数据处理方法、装置、设备和计算机可读介质,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种问答数据处理方法,包括:
获得输入的提问语句,并对提问语句进行问题解析,获得对应的实体信息和问题信息;
根据获得的所述实体信息和问题信息,查询通用问题索引数据库,获得与所述实体信息和问题信息相匹配的目标信息;
将所述目标信息作为对应所述提问语句的答案输出;
其中,所述通用问题索引数据库基于SPO的数据结构组建,S为用于存储实体信息的索引字段,P为用于存储问题信息的索引字段,O为用于存储目标信息的内容字段,SPO的数据结构反映了字段S到P和O的映射关系。
结合第一方面,本发明在第一方面的第一种实施方式中,所述通用问题索引数据库通过以下方式构建:
获得问答样本数据库;
对所述问答样本数据库中的问答样本按SPO的数据结构进行问题解析,获得对应的实体信息、问题信息和目标信息;
根据获得的实体信息、问题信息和目标信息,以所述SPO的数据结构组建通用知识图谱,所述通用知识图谱构成所述通用问题索引数据库的内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711214658.2/2.html,转载请声明来源钻瓜专利网。