[发明专利]一种基于参考规范的专业文本生成方法及装置有效

专利信息
申请号: 202110798010.4 申请日: 2021-07-15
公开(公告)号: CN113254604B 公开(公告)日: 2021-10-01
发明(设计)人: 孙宇清;胡宇 申请(专利权)人: 山东大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 济南竹森知识产权代理事务所(普通合伙) 37270 代理人: 吕利敏
地址: 250013 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 参考 规范 专业 文本 生成 方法 装置
【权利要求书】:

1.一种基于参考规范的专业文本生成方法,其特征在于,包括:

1)对输入的参考规范文本,利用生成器进行处理,输出已生成文本;

2)对已生成文本进行补全后,输入至判别器模块,经判别后得到综合评分;其中所述判别器模块包括连贯性判别器和专业性判别器:

所述连贯性判别器的输入为已生成的部分文本,简称PartT,用于评价生成文本的语言规范,其中PartT是指生成器迭代生成文本过程中某一时刻已经生成的不完整文本;

所述专业性判别器的输入为参考规范文本和将PartT补全后文本,后者简称PartTA,用于评价生成文本PartTA与参考规范的语义相关性和知识点匹配性;

3)利用综合评分对所述生成器进行训练;

所述生成器、连贯性判别器和专业性判别器均为神经网络,所述步骤1)中包括k个生成器,其中,每个生成器包括编码器和解码器,生成器的个数和知识点匹配程度的种类数k相同;

所述编码器用于提取参考规范文本中的特征信息,使用单向循环神经网络,简记为,令一条参考规范文本为,采用预训练词嵌入,的第i个词的词嵌入为,表示编码器第i个时间步的隐藏状态:

(1)

为参考规范文本R的特征信息:

(2)

其中,r为参考规范文本的长度;

所述解码器根据参考规范文本的特征信息生成文本:使用单向循环神经网络,简记为,使用注意力机制将参考规范文本R的特征信息融合到生成文本过程,为解码器第t个时间步的隐藏状态:

(3)

其中,表示t-1时刻生成的词语的词向量;

在生成器的解码器中,使用双线性注意力机制将与生成器对参考规范文本R的特征信息进行交互,以提取关键信息,其中为权重矩阵,r为参考规范文本的长度,得到向量序列:

(4)

使用softmax函数对进行归一化得到权重序列:

(5)

根据和计算得到相关性信息,即为参考规范文本R的特征信息中对生成器当前时刻最重要的信息,其中,为向量中的第i个元素:

(6)

将和相加得到,作为该时间步的输出:

(7)

最后采用softmax函数对计算得到字典中各词语作为当前生成词语的概率,字典为数据集中所有词语及词语对应的索引组成的集合:

(8)

其中,依据进行随机采样,得到当前时刻生成的词语;

(9)

其中,所述表示在给定参考规范和已生成的文本情况下,第i个生成器在第t步生成词汇的概率,其中为第i个生成器中的所有的参数;

所述连贯性判别器的工作流程,包括:

所述连贯性判别器,简记为,用于评价生成文本是否符合语言学规范,采用经过预训练的语言模型,步骤如下:

2-1)通过预训练的语言模型提取已生成的文本的特征向量,提取过程记为;

2-2)输入到softmax函数中,得到字典中各词语作为下一个词语的概率:

(10)

其中,t时刻生成的词语为,对应作为已生成的文本的下一个词语的概率即为;

2-3)对连贯性进行评价,同时鼓励文本多样性,故采用如下动态阈值方式:

首先,设置两个超参数i和,i为上述词汇选择概率中由高到低排序的第i个排名;

对上述中的概率值由大到小进行排序,得到,中第i大的概率值即为;选择阈值:

(11)

然后,对已生成文本的连贯性评分记为

(12)

其中,当大于等于时,的值均设置为1;当小于时,的值设置为;

所述专业性判别器的工作流程,包括:

专业性判别器为一个多分类器,用于评价生成文本与参考规范的语义相关性和知识点匹配性,简记为;

2-4)将所述生成文本按照与参考规范的关系,分为相关和不相关两大类;根据知识点匹配程度的不同,将与参考规范相关的文本分为相应的匹配种类,令知识点匹配程度的种类数为k

加上与参考规范不相关的种类,最终需要将文本分为k+1类;

2-5)仅能对完整的文本进行评价,因此需要先将生成的不完整文本补全:经过补全后的文本记为L,文本补全过程为将生成的不完整文本输入到步骤1)所述生成器中,再依次生成下一个词语,直到达到最大生成文本长度;

在中分别对补全的文本L和参考规范文本进行编码,均采用卷积神经网络CNN:

对参考规范文本先使用多种不同窗口大小的卷积操作分别特征编码,然后再通过池化操作得到多个向量,使用第i种窗口大小的CNN时的操作网络简记为;

再将上述的输出拼接在一起得到的特征向量:

(13)

对补全的文本L先使用多种不同窗口大小的卷积操作分别特征编码,然后再通过池化操作得到多个向量,使用第i种窗口大小的CNN时的操作网络简记为;

再将上述的输出拼接在一起得到L的特征向量:

(14)

使用全连接层分别对和进行降维后拼接在一起,得到向量:

(15)

其中,和分别为使用的全连接层的权重系数和偏置值,和分别为使用的全连接层的权重系数和偏置值;

使用softmax函数得到属于各个种类的概率:

(16)

其中,第1至k类分别表示L与参考规范相关且属于相应的知识点匹配种类的概率;第k+1类表示L与参考规范不相关的概率;

2-6)生成文本与参考规范的语义相关性评分记为

(17)

其中,所述中第个概率值为;

2-7)生成文本与参考规范的知识点匹配性评分记为:

期望的文本种类对应的概率为,所有与参考规范相关的文本种类对应的概率和为,将两者的比值作为对知识点匹配性的评价:

(18);

利用上述步骤1)-3)所述方法训练完成得到的生成器,在使用时,直接对输入的参考规范文本进行处理以生成专业文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110798010.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top