[发明专利]分层会议摘要生成模型训练方法、生成方法及装置在审
| 申请号: | 202111679303.7 | 申请日: | 2021-12-31 |
| 公开(公告)号: | CN114372140A | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 陈春丽;黄震;孙岩;罗红 | 申请(专利权)人: | 北京海联捷讯科技股份有限公司;北京邮电大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/216;G06F40/289 |
| 代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 宋教花 |
| 地址: | 100176 北京市大兴区经济技术开发区科创十三街*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分层 会议 摘要 生成 模型 训练 方法 装置 | ||
本发明提供一种分层会议摘要生成模型训练方法、生成方法及装置,所述方法包括:获取中文会议数据集并进行预处理,所述预处理包括分词和建立词典,构建中文会议词汇列表,将所述中文会议词汇列表输入到BERT模型中,输出BERT词向量;基于获取的中文会议数据集,利用双向长短期记忆网络及注意力机制,生成原始的中文会议数据每句话的对话行为标签;采用所述BERT词向量和对话行为标签构成的训练样本集对预先建立的分层会议摘要模型进行训练,得到目标分层会议摘要生成模型。本发明能够生成具备高流畅度、准确度、可读性、异质性的分层会议摘要。
技术领域
本发明涉及会议摘要自动生成技术领域,尤其涉及一种面向对话行为优化的分层会议摘要生成模型训练方法、生成方法及装置。
背景技术
自新型冠状病毒疫情在全世界爆发以来,越来越多的政府部门、公司以及学校等组织开始使用远程会议应用来处理日常事务、开展网上教学,整个人类社会对于远程会议的需求达到了空前的高度,钉钉、腾讯会议皆因此获得了指数级的用户增长,但是随着越来越多的线上会议应用的普及,产生了大量的多媒体数据,如音视频信息,以及文本信息等。不同地域人员与会以及非面对面的讨论,使得会议记录以及会后的主要内容提炼带来了新的挑战。从大量会议对话信息中提取重要的内容,即借助信息技术提取会议摘要,已成为我们的一个迫切需求。因此,自动会议摘要这一技术逐渐被人们所关注。
自动会议摘要按照摘要方法可分为抽取式摘要和生成式摘要。抽取式方法从原文中选取关键词、关键句组成摘要,然而抽取式摘要存在着内容选择错误、连贯性差、灵活性差等问题,其抽取的摘要不能很好的符合我们的要求。生成式摘要支持理解会议全部内容后进行摘要生成任务,可以生成新的词语或短语,灵活性高,但也存在着重复生成,可读性差,超出词典范围(Out of Vocabulary,OOV)等问题。为了解决上述问题,Abigail See等人提出指针生成器网络,算法融合copy机制和coverage机制,通过从原文中拷贝词语到摘要中,有效缓解了OOV问题;通过引入注意力权重及coverage损失,可以避免重复考虑已获得的高权重部分,进而有效的缓解了重复生成的问题,但该网络仅考虑全局的文本信息并没有考虑每个参与者的语义信息和说话意图,无法建模参与者之间的异质性,因此不能直接应用于会议摘要生成。
相比于普通文档内容,会议内容更加冗长繁琐,且具有多个参与者,因此需要建模理解每个参与者的话语内容以及前后不同参与者话语之间的关系;此外,每个参与者的不同语义风格,立场和角色都促成了会议生成摘要的异质性,这使得端到端训练会议摘要更加困难。考虑到参与者说话意图对摘要生成的影响,Chih-Wen Goo等人设计了一个多任务学习框架,提出句子门控机制来建模对话行为和对话总结之间的关系。但该模型没有很好的对会议数据进行建模处理,只是简单的将主题信息作为摘要,生成的摘要不能很好的概括会议的全部内容。此外,在中文会议摘要生成领域,网上开源的会议摘要数据集都是英文的,缺乏中文会议摘要数据集,这给中文会议摘要生成任务造成了极大困难。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种面向对话行为优化的分层会议摘要生成模型训练方法、生成方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,用于解决目前分层会议摘要生成质量问题,能够实现异质性的、分层的会议摘要生成。
本发明的一个方面提供了一种面向对话行为优化的分层会议摘要生成模型训练方法,该方法包括以下步骤:
获取中文会议数据集并进行预处理,所述预处理包括分词和建立词典,构建中文会议词汇列表,将所述中文会议词汇列表输入到BERT(Bidimentional EncoderRepresentation from Transformers)模型中,输出BERT词向量;
基于获取的中文会议数据集,利用双向长短期记忆网络及注意力机制,生成原始的中文会议数据每句话的对话行为标签;
采用所述BERT词向量和对话行为标签构成的训练样本集对预先建立的分层会议摘要模型进行训练,得到目标分层会议摘要生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海联捷讯科技股份有限公司;北京邮电大学,未经北京海联捷讯科技股份有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111679303.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微腔色散探测装置
- 下一篇:语音对讲业务实现方法、设备和存储介质





