[发明专利]目标语句提取方法、问题生成方法以及信息处理设备有效
申请号: | 201810827532.0 | 申请日: | 2018-07-25 |
公开(公告)号: | CN110852110B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 张姝;孟遥 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈炜;王伟楠 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 语句 提取 方法 问题 生成 以及 信息处理 设备 | ||
1.一种目标语句提取方法,用于从待处理文档中提取目标语句,该方法包括:
通过将待处理文档中的每个词用词向量表示,构建待处理文档的第一语义序列;
利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;
基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理,其中,待处理文档中的每个词的匹配结果表示下述四种结果之一:该词未在所述数据库的文档和语句对中出现;该词只在所述数据库的文档和语句对的文档中出现;该词只在所述数据库的文档和语句对的语句中出现;该词在所述数据库的文档和语句对的文档和语句两者中出现;以及
利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,
其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
2.如权利要求1所述的目标语句提取方法,其中,对第二语义序列中的各个元素进行加权包括:
针对待处理文档中的每个词,基于该词在文档和语句对数据库中的匹配结果构建标注向量,并将标注向量与第二语义序列中的对应元素进行合并。
3.如权利要求1所述的目标语句提取方法,还包括:
针对基于匹配结果分别对第二语义序列中的各个元素进行加权而得到的序列中的每个元素,应用注意力模型基于该序列中各个元素对该元素的影响而对该序列中各个元素进行加权求和,作为应用注意力模型加权处理后的第二语义序列中的对应元素,
其中,序列标注模型对应用注意力模型加权处理后的第二语义序列进行标注。
4.如权利要求1所述的目标语句提取方法,其中,
待处理文档包括书籍或技术文档;
文档和语句对数据库中的文档包括与待处理文档涉及类似内容的书籍或技术文档,并且该数据库中的对应语句包括基于该书籍或技术文档的针对读者关注问题的回答。
5.如权利要求1至4中任一项所述的目标语句提取方法,其中,
待处理文档为产品使用手册;
文档和语句对数据库中的文档包括与待处理文档涉及相同类型产品的产品使用手册,并且该数据库中的对应语句包括基于该产品使用手册的针对用户常用问题的回答。
6.一种问题生成方法,用于基于待处理文档生成问题,该方法包括:
利用权利要求1至3中任一项的方法从待处理文档中提取出目标语句作为回答,并将其转换为由词向量表示的回答语义序列;
利用编码模型对回答语义序列进行处理,以获得编码语义序列,编码语义序列的每个元素与回答语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;
基于所提取的目标语句中的各个词在预先获得的问题和回答对数据库中的匹配结果,分别对编码语义序列中的各个元素进行加权处理,其中,所提取的目标语句中的每个词的匹配结果表示下述四种结果之一:该词未在所述数据库的问题和回答对中出现;该词只在所述数据库的问题和回答对的问题中出现;该词只在所述数据库的问题和回答对的回答中出现;该词在所述数据库的问题和回答语句对的问题和回答两者中出现;以及
利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列,作为与所提取的目标语句对应的问题,其中,解码语义序列中的当前元素是解码模型基于加权处理后的编码语义序列以及解码语义序列中的前一元素进行处理而获得的,
其中,编码模型和解码模型是利用标记好的训练回答和训练问题而预先训练获得的、基于深度学习的模型。
7.如权利要求6所述的问题生成方法,其中,对编码语义序列中的各个元素进行加权包括:
针对所提取的目标语句中的每个词,基于该词在问题和回答对数据库中的匹配结果构建标注向量,并将该标注向量与编码语义序列中的对应元素进行合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810827532.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于对抗训练机制的多语言实体关系抽取方法及系统
- 下一篇:新型计算机鼠标