[发明专利]机器阅读理解方法、装置、计算机设备和存储介质在审
申请号: | 201811036255.8 | 申请日: | 2018-09-06 |
公开(公告)号: | CN109344234A | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 陈温淋;黄华伦;刘建 | 申请(专利权)人: | 和美(深圳)信息技术股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518051 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 核心语句 分词 段落集合 文档 计算机设备 存储介质 目标答案 答案位置 非结构化 文本分词 答案 阅读 预设 数据库 概率 | ||
本发明涉及一种机器阅读理解方法、装置、计算机设备和存储介质。该方法包括:根据核心语句和预设的文档定位方法,从数据库中获取核心语句对应的文档段落集合;对核心语句和文档段落集合进行文本分词处理,得到分词后的核心语句和分词后的文档段落集合;根据核心语句与答案位置之间的对应关系,从分词后的文档段落集合中确定分词后的核心语句对应的各答案段落;根据各答案段落的概率值确定分词后的核心语句对应的目标答案段落。该方法不仅可以对非结构化的数据进行处理,还可以提高目标答案段落的准确性。
技术领域
本发明涉及人工智能领域,特别是涉及一种机器阅读理解方法、装置、计算机设备和存储介质。
背景技术
近年来,机器阅读成为人工智能领域一个热门的研究主题。机器阅读能够让计算机帮助用户在大量文本中找到所需的信息,从而减轻人们对信息获取的成本,而文档抽取在这方面发挥着重要作用。
目前,机器阅读是基于人工构造的比较简单的结构化或半结构化数据集,采用机器学习、数据挖掘、知识发现等自动化知识提取方法来获取用户所需的信息。
然而,对于部分非结构化的数据集,使用上述方法很难获得用户所需的信息,无法满足用户需求。
发明内容
基于此,有必要针对现有技术中无法满足用户需求的问题,提供一种能够满足用户需求的机器阅读理解方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提供一种机器阅读理解方法,所述方法包括:
根据核心语句和预设的文档定位方法,从数据库中获取所述核心语句对应的文档段落集合;所述数据库包括对非结构化数据进行格式化处理之后的数据,所述文档段落集合包括所述核心语句所在的文档段落;
对所述核心语句和所述文档段落集合进行文本分词处理,得到分词后的核心语句和分词后的文档段落集合;
根据核心语句与答案位置之间的对应关系,从所述分词后的文档段落集合中确定所述分词后的核心语句对应的各答案段落;
根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。
本实施例提供的机器阅读理解方法,计算机设备根据核心语句和预设的文档定位方法,从数据库中获取核心语句对应的文档段落集合;并对核心语句和文档段落集合进行文本分词处理,得到分词后的核心语句和分词后的文档段落集合;进而根据核心语句与答案位置之间的对应关系,从分词后的文档段落集合中确定分词后的核心语句对应的各答案段落;根据各答案段落的概率值确定分词后的核心语句对应的目标答案段落。该方法根据预设的文档定位方法,从数据库中获取核心语句对应的文档段落集合,从而确定用户问题的核心语句对应的目标答案段落,提高了确定的目标答案段落的准确性,对于非结构化的数据集,用户使用该方法也能获得所需的信息,从而提高了用户的使用需求。
在其中一个实施例中,所述方法还包括:
根据预设的问题模板,获取所述核心语句与答案位置之间的对应关系;所述问题模板用于确定核心语句的答案在所述文档段落集合中的位置。
在其中一个实施例中,所述方法还包括:
根据业务词典,从用户问题中提取所述核心语句;所述业务词典为通过机器学习得到的名词库。
在其中一个实施例中,所述根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落之前,所述方法还包括:
获取所述分词后的核心语句在各所述答案段落中出现的次数;
根据各所述答案段落对应的次数和所述分词后的文档段落集合中的文档段落总数目确定所述概率值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于和美(深圳)信息技术股份有限公司,未经和美(深圳)信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811036255.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中文人名识别方法
- 下一篇:一种基于并存率与关联规则的心理行为分析方法