[发明专利]一种基于参考规范的专业文本生成方法及装置有效
申请号: | 202110798010.4 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113254604B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 孙宇清;胡宇 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南竹森知识产权代理事务所(普通合伙) 37270 | 代理人: | 吕利敏 |
地址: | 250013 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 参考 规范 专业 文本 生成 方法 装置 | ||
一种基于参考规范的专业文本生成方法,采用k个生成器,分别负责生成一种知识点匹配程度的专业文本,各生成器均为结合注意力机制的自编码器结构,包括编码器和解码器两部分。在训练过程中,生成器每次生成一个词语,n次迭代后生成完整的文本,对不完整的文本需要进行文本补全。本发明还采用两个判别器从多个角度评价生成文本,其中连贯性判别器用于评价生成文本的语言规范和鼓励文本多样性,专业性判别器用于评价生成文本与参考规范的语义相关性和知识点匹配性,通过两个判别器得到一个综合评分,并将其返回给生成器,生成器通过这个综合评分来更新相应的参数,以使生成文本获得更高的综合评分,从而训练获得一种专业文本生成方法及装置。
技术领域
本发明公开一种基于参考规范的专业文本生成方法及装置,属于自然语言处理的技术领域。
背景技术
文本自动生成任务是指面向特定目标,对输入的数据进行加工处理,自动生成一段满足条件的文本,具有广泛的应用场景,如新闻生成、作文生成等。一些场景中需要对生成文本进行语义控制,如生成不同情绪类别的诗歌。在基于参考规范的专业文本生成场景中,参考规范是对知识点的相关描述,不同参考规范描述不同知识点的相关内容,用于指导生成文本满足与参考规范的语义相关性和知识点匹配性,知识点的匹配程度有多种,如完全正确描述了知识点,或是与知识点矛盾。在特定匹配程度下,生成的专业文本和真实的专业文本在知识点描述上的相似性即为知识点匹配性。基于参考规范的专业文本生成有重要的应用价值,例如在自动文本评阅系统中,通过一个评阅模型来对文本进行打分,而训练模型过程需要大量标注样本,在实际场景中难以满足,可以使用基于参考规范的专业文本生成技术产生标注样本,辅助训练评阅模型。这种应用在其他类似的监督学习任务中同样适用,本发明探索面向自然语言文本处理的知识空间预训练模型,具有重要的理论价值。
可控文本生成技术是自然语言处理领域的研究热点,随着深度学习技术的不断进展,前沿工作主要采用深度网络模型,在控制生成文本语义方面分两种形式,一种为控制生成文本的属性类别,如生成不同情感的文本;另一种为控制生成文本与指导性文本的语义相关性,如根据标题生成新闻;但这些控制方法主要针对生成文本的语言连贯性和与指导性文本的语义相关性,没有从逻辑层面评价与参考文本的专业知识匹配程度,因此不能对知识点匹配程度进行约束,无法满足本发明场景要求的文本。
本发明针对给定的参考规范,设计专业文本生成方法及装置,用于指导生成文本满足与参考规范的语义相关性和知识点匹配性,生成的专业文本需同时具备语言连贯性和文本形式多样性。
发明内容
发明概述
针对现有技术的问题,本发明公开了一种基于参考规范的专业文本生成方法。
本发明还公开一种针对上述专业文本生成方法的对抗训练方法。
本发明还公开一种实现基于参考规范的专业文本生成方法的装置。
本发明采用k个生成器,分别负责生成一种知识点匹配程度的专业文本,各生成器均为结合注意力机制的自编码器结构,包括编码器和解码器两部分。在训练过程中,生成器每次生成一个词语,n次迭代后生成完整的文本;本发明采用两个判别器从多个角度评价生成文本,其中连贯性判别器用于评价生成文本的语言规范性和鼓励文本多样性,专业性判别器用于评价生成文本与参考规范的语义相关性和知识点匹配性,通过两个判别器反馈,得到一个综合评分,并将其返回给生成器,生成器通过此综合评分来更新模型参数;在生成文本每一步评价过程中,对不完整文本需要进行文本补全后送判别器进行评价;模型训练目标为使生成文本获得更高综合评分,从而获得一种专业文本生成方法及装置。
技术术语解释
知识点:特指教科书上或考试题中涉及的一个特定知识规则。例如,“名义股东在未经实际持股人同意投资而造成损失,并被实际持股人要求赔偿的情况下,有责任赔偿”是一个知识点。
参考规范:在本发明中指对特定的一个或多个专业知识点的相关规则、问题或案例描述文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110798010.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据库扩展方法和装置
- 下一篇:一种快速获取尾随人员信息方法及装置