[发明专利]问答对构建方法、装置、计算机设备和存储介质有效
申请号: | 202111051968.3 | 申请日: | 2021-09-08 |
公开(公告)号: | CN113779218B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 朱前威;谢春禾 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30;G06F40/211 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 郑义 |
地址: | 230001 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 答对 构建 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种问答对构建方法、装置、计算机设备和存储介质。方法包括:将文档拆分为段落;判断拆分得到的段落中是否存在标题与正文共存的段落;若存在标题与正文共存的段落,则将标题与正文共存的段落分别按照标题与正文切分为不同段落;根据文档中的所有段落,构建文档中的问答对。由于可将文档中标题与正文共存的段落进行切分,并分为作为不同的段落,从而使得位于同一段落的标题与正文也能够被识别出且构建为问答对,适用范围较广。另外,还可以使得问答对的构建不会存在内容缺失,以提高后续自动回复的精准度。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种问答对构建方法、装置、计算机设备和存储介质。
背景技术
随着知识图谱和智能客服在各个行业的应用,使用信息抽取技术从文档中挖掘知识已经成为一个研究热点。其中,从文档中自动获得问答对一直是公认的难点,问答对指的是问题文本以及与该问题文本相匹配的答复文本,文档可以为产品说明书文档或条例文档等。在实际实施过程中,主要是通过抽取文档中的标题,从文档中自动获取问答对。
在相关技术中,主要是按照文档中段落的换行特征,将文档拆分为段落,确定拆分的段落中的标题,并确定标题下的正文段落,最后将标题作为问答对中的问题文本,而将标题下的正文段落作为问答对中的答复文本。由于标题与正文可能会出现在同一段落,而按照文档中段落的换行特征则无法识别该情形,这使得位于同一段落的标题与正文不能被构成问答对,从而导致问答对的构建存在内容缺失,进而还会影响后续自动回复的精准度。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高问答对构建精准度的问答对构建方法、装置、计算机设备和存储介质。
一种问答对构建方法,该方法包括:
将文档拆分为段落;
判断拆分得到的段落中是否存在标题与正文共存的段落;
若存在标题与正文共存的段落,则将标题与正文共存的段落分别按照标题与正文切分为不同段落;
根据文档中的所有段落,构建文档中的问答对。
在其中一个实施例中,将文档拆分为段落,包括:
若文档为文本文件,则根据文档中的段落标识符,将文档拆分成段落;
若文档为文本图像,则对文档进行字符识别,确定文档中每一字符的位置信息,根据每一字符的位置信息,确定文档中每一文本行的位置信息,根据每一文本行的位置信息,对不同的文本行进行组合,得到文档中的段落。
在其中一个实施例中,根据文档中的所有段落,构建文档中的问答对,包括:
从所有段落中筛选出满足第一预设条件的段落,作为候选标题段落,第一预设条件用于衡量段落为标题段落的可能程度;
根据所有候选标题段落,构建文档中的问答对。
在其中一个实施例中,第一预设条件包括以下条件中的至少一项,以下条件分别为:段落句长为第一预设阈值、段落总字数小于第二预设阈值、段落总标点数小于第三预设阈值以及段落格式满足预设格式。
在其中一个实施例中,根据所有候选标题段落,构建文档中的问答对,包括:
从所有候选标题段落中确定标题段落;
根据标题段落与框架模板,确定文档的层次化结构,层次化结构用于表征文档中层级标题之间的层级关系;
根据层次化结构,构建文档中的问答对。
在其中一个实施例中,从所有候选标题段落中确定标题段落,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111051968.3/2.html,转载请声明来源钻瓜专利网。