[发明专利]一种对话文本摘要模型自动搜索方法在审
申请号: | 202210508935.5 | 申请日: | 2022-05-10 |
公开(公告)号: | CN115062139A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 林劼;白毅;梁玉龙;李赛鹏;王元芳;姜铼 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 郭肖凌 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对话 文本 摘要 模型 自动 搜索 方法 | ||
本发明公开了一种对话文本摘要模型自动搜索方法,方法先将完整的对话文本按照主题信息划分为若干个离散段落,使用文本聚类算法聚类描述相同一主题内容的段落;基于可微的NAS算法和生成对抗网络构建对话文本摘要生成模型,并分别设计生成器和判别器的搜索空间,联合优化对话摘要生成模型;将聚类获得的主题段落输入对话文本摘要模型中,生成对应主题的子摘要,并对子摘要进行排序构成最后的对话摘要。本发明考虑了生成器和判别器在对抗过程中的相关性和平衡性,以可微NAS方法设计了它们各自的搜索空间,实现了模型参数和架构参数的联合优化,能够有效避免曝光偏差的积累,能确保其生成的文本摘要能鲜明地体现主题信息。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种对话文本摘要模型自动搜索方法。
背景技术
随着计算机网络的发展,一类以对话为主体的文本数据逐渐增多,如社交聊天、客服对话、医患诊断、AI问答等。随着这些对话文本数据的急剧增长,人们很难高效地获取其中关键的信息。这不仅影响着人们的阅读体验,也会大大增加人们在时间和精力上的损耗。因此,研究出一种高效的对话文本摘要技术具有十分重要的意义。
与文章式文本相比,对话文本有着更加鲜明的特点,主要表现在以下几个方面:(1)文章式文本通常以段落进行划分,篇幅一般较长,进行特征提取时更容易捕获到丰富的语义内容。而对话文本通常以多轮对话的形式展开,每条对话语句长度一般不会过长,语义内容较为稀疏,特征提取时很难捕获到有用的信息。(2)对话文本的主题通常随着对话的进展而变化,显著信息被稀释到整篇对话文本中。不像文章式文本主题通常是集中的,对话文本中主题分散在整个聊天中,甚至会出现一个主题的相关信息分散在不连续的对话中的现象。而当聊天记录过长时,语句之间的潜在联系更难被捕获到,这种长期依赖现象也是对话文本摘要面临的重要挑战之一。(3)对话文本中存在着大量的噪声干扰,这些噪声通常以非正式单词、缩写、表情符号等形式存在。而对话中高频率出现的无效冗余信息,如“请”、“谢谢”、“哈哈”等语气词,更是为对话文本摘要区分有用信息与无关信息增加了困难。
正是由于这些不同之处,那些在文章式文本上表现优异的模型用在对话文本上并不能取得同样的效果。对于对话文本而言,对话参与多方通常是围绕多个主题进行讨论的,每个主题的语义信息以对话语句的方式穿插在整篇对话中。因此,能否将主题信息从对话文本中抽取出来关系着后续对话摘要生成的质量。
发明内容
本发明的目的在于克服现有技术的不足,针对对话文本这类特殊文本数据,基于自动机器学习领域下的神经网络架构搜索技术,提供了一种对话文本摘要模型自动搜索方法。
本发明的目的是通过以下技术方案来实现的:
一种对话文本摘要模型自动搜索方法,包括以下步骤:
步骤1:对话文本主题划分,将完整的对话文本按照主题信息划分为若干个离散段落,使用文本聚类算法聚类描述相同一主题内容的段落;
步骤2:构建对话文本摘要模型,基于可微的NAS算法和生成对抗网络构建对话文本摘要生成模型,并分别设计生成器和判别器的搜索空间,联合优化对话摘要生成模型;
步骤3:基于主题段落生成对话摘要,将聚类获得的主题段落输入对话文本摘要模型中,生成对应主题的子摘要,并对子摘要进行排序构成最后的对话摘要。
具体的,所述步骤1具体包括以下步骤:
步骤11:使用句向量模型1,将对话语句转换为同一维度的句向量特征;
步骤12:将对话文本分段处理,使用双向长短期记忆网络BiLSTM捕获对话语句之间的上下文信息,并用CRF输出每条对话语句对应的分段符号,其中S表示段落起始语句,M表示段落中间语句,E表示段落终结语句;
步骤13:将分好的段落按照主题内容进行聚类处理,使用DBSCAN算法,按照段落之间的语义距离进行主题段落划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210508935.5/2.html,转载请声明来源钻瓜专利网。