[发明专利]一种基于参考规范的专业文本生成方法及装置有效
申请号: | 202110798010.4 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113254604B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 孙宇清;胡宇 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南竹森知识产权代理事务所(普通合伙) 37270 | 代理人: | 吕利敏 |
地址: | 250013 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 参考 规范 专业 文本 生成 方法 装置 | ||
1.一种基于参考规范的专业文本生成方法,其特征在于,包括:
1)对输入的参考规范文本,利用生成器进行处理,输出已生成文本;
2)对已生成文本进行补全后,输入至判别器模块,经判别后得到综合评分;其中所述判别器模块包括连贯性判别器和专业性判别器:
所述连贯性判别器的输入为已生成的部分文本,简称PartT,用于评价生成文本的语言规范,其中PartT是指生成器迭代生成文本过程中某一时刻已经生成的不完整文本;
所述专业性判别器的输入为参考规范文本和将PartT补全后文本,后者简称PartTA,用于评价生成文本PartTA与参考规范的语义相关性和知识点匹配性;
3)利用综合评分对所述生成器进行训练;
所述生成器、连贯性判别器和专业性判别器均为神经网络,所述步骤1)中包括k个生成器,其中,每个生成器包括编码器和解码器,生成器的个数和知识点匹配程度的种类数
所述编码器用于提取参考规范文本中的特征信息,使用单向循环神经网络,简记为,令一条参考规范文本为,采用预训练词嵌入,的第
(1)
为参考规范文本
(2)
其中,
所述解码器根据参考规范文本的特征信息生成文本:使用单向循环神经网络,简记为,使用注意力机制将参考规范文本
(3)
其中,表示
在生成器的解码器中,使用双线性注意力机制将与生成器对参考规范文本
(4)
使用softmax函数对进行归一化得到权重序列:
(5)
根据和计算得到相关性信息,即为参考规范文本
(6)
将和相加得到,作为该时间步的输出:
(7)
最后采用softmax函数对计算得到字典中各词语作为当前生成词语的概率,字典为数据集中所有词语及词语对应的索引组成的集合:
(8)
其中,依据进行随机采样,得到当前时刻生成的词语;
(9)
其中,所述表示在给定参考规范和已生成的文本情况下,第
所述连贯性判别器的工作流程,包括:
所述连贯性判别器,简记为,用于评价生成文本是否符合语言学规范,采用经过预训练的语言模型,步骤如下:
2-1)通过预训练的语言模型提取已生成的文本的特征向量,提取过程记为;
2-2)输入到softmax函数中,得到字典中各词语作为下一个词语的概率:
(10)
其中,
2-3)对连贯性进行评价,同时鼓励文本多样性,故采用如下动态阈值方式:
首先,设置两个超参数
对上述中的概率值由大到小进行排序,得到,中第
(11)
然后,对已生成文本的连贯性评分记为
(12)
其中,当大于等于时,的值均设置为1;当小于时,的值设置为;
所述专业性判别器的工作流程,包括:
专业性判别器为一个多分类器,用于评价生成文本与参考规范的语义相关性和知识点匹配性,简记为;
2-4)将所述生成文本按照与参考规范的关系,分为相关和不相关两大类;根据知识点匹配程度的不同,将与参考规范相关的文本分为相应的匹配种类,令知识点匹配程度的种类数为
加上与参考规范不相关的种类,最终需要将文本分为
2-5)仅能对完整的文本进行评价,因此需要先将生成的不完整文本补全:经过补全后的文本记为
在中分别对补全的文本
对参考规范文本先使用多种不同窗口大小的卷积操作分别特征编码,然后再通过池化操作得到多个向量,使用第
再将上述的输出拼接在一起得到的特征向量:
(13)
对补全的文本
再将上述的输出拼接在一起得到
(14)
使用全连接层分别对和进行降维后拼接在一起,得到向量:
(15)
其中,和分别为使用的全连接层的权重系数和偏置值,和分别为使用的全连接层的权重系数和偏置值;
使用softmax函数得到属于各个种类的概率:
(16)
其中,第1至
2-6)生成文本与参考规范的语义相关性评分记为
(17)
其中,所述中第个概率值为;
2-7)生成文本与参考规范的知识点匹配性评分记为:
期望的文本种类对应的概率为,所有与参考规范相关的文本种类对应的概率和为,将两者的比值作为对知识点匹配性的评价:
(18);
利用上述步骤1)-3)所述方法训练完成得到的生成器,在使用时,直接对输入的参考规范文本进行处理以生成专业文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110798010.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据库扩展方法和装置
- 下一篇:一种快速获取尾随人员信息方法及装置