[发明专利]机器阅读理解方法、装置、计算机设备和存储介质在审
申请号: | 201811036255.8 | 申请日: | 2018-09-06 |
公开(公告)号: | CN109344234A | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 陈温淋;黄华伦;刘建 | 申请(专利权)人: | 和美(深圳)信息技术股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518051 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 核心语句 分词 段落集合 文档 计算机设备 存储介质 目标答案 答案位置 非结构化 文本分词 答案 阅读 预设 数据库 概率 | ||
1.一种机器阅读理解方法,其特征在于,所述方法包括:
根据核心语句和预设的文档定位方法,从数据库中获取所述核心语句对应的文档段落集合;所述数据库包括对非结构化数据进行格式化处理之后的数据,所述文档段落集合包括所述核心语句所在的文档段落;
对所述核心语句和所述文档段落集合进行文本分词处理,得到分词后的核心语句和分词后的文档段落集合;
根据核心语句与答案位置之间的对应关系,从所述分词后的文档段落集合中确定所述分词后的核心语句对应的各答案段落;
根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设的问题模板,获取所述核心语句与答案位置之间的对应关系;所述问题模板用于确定核心语句的答案在所述分词后的文档段落集合中的位置。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据业务词典,从用户问题中提取所述核心语句;所述业务词典为通过机器学习得到的名词库。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落之前,所述方法还包括:
获取所述分词后的核心语句在各所述答案段落中出现的次数;
根据各所述答案段落对应的次数和所述分词后的文档段落集合中的文档段落总数目确定所述概率值。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述答案段落对应的次数和所述分词后的文档段落集合中的文档段落总数目确定所述概率值,包括:
获取各所述答案段落对应的次数与所述分词后的文档段落集合中的文档段落总数目之间的比值;
根据各所述答案段落对应的比值,确定各所述答案段落的概率值。
6.根据权利要求5所述的方法,其特征在于,所述根据各所述答案段落对应的比值,确定各所述答案段落的概率值之后,所述方法还包括:
将相邻两个所述答案段落对应的比值进行比较,确定候选答案段落;所述候选答案段落为所述相邻两个所述答案段落中比值最大的答案段落;
所述根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落,包括:
根据各所述候选答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。
7.根据权利要求6所述的方法,其特征在于,所述根据各所述候选答案段落的概率值确定所述分词后的核心语句对应的目标答案段落,包括:
根据各所述候选答案段落的概率值,获取各所述答案段落的权重;
根据所述分词后的核心语句在各所述答案段落中出现的次数,确定各所述答案段落的量化值;
根据各所述答案段落的权重和量化值,确定所述分词后的核心语句对应的目标答案段落。
8.根据权利要求7所述的方法,其特征在于,所述根据各所述答案段落的权重和量化值,确定所述分词后的核心语句对应的目标答案段落,包括:
将满足预设的选择条件的候选答案段落,确定为所述目标答案段落;所述选择条件包括所述权重大于第一阈值和/或所述量化值大于第二阈值。
9.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述核心语句和所述文档段落集合进行文本分词处理,包括:
对所述核心语句和所述文档段落集合进行预处理,得到预处理后的核心语句和文档段落集合;所述预处理包括丢弃非文本词句和停用词;
根据预设的文本分词模型,对所述预处理后的核心语句和文档段落集合进行文本分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于和美(深圳)信息技术股份有限公司,未经和美(深圳)信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811036255.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中文人名识别方法
- 下一篇:一种基于并存率与关联规则的心理行为分析方法