[发明专利]一种公文智能写作方法在审
申请号: | 202111626007.0 | 申请日: | 2021-12-28 |
公开(公告)号: | CN114492327A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 叶恺翔;吕晓宝;王元兵;王海荣 | 申请(专利权)人: | 中科曙光南京研究院有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/216;G06F40/242;G06F40/289;G06F40/30;G06F16/335 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 徐博 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公文 智能 写作 方法 | ||
1.一种公文智能写作方法,其特征在于:该方法包括步骤如下:
(1)获取若干公文文本数据,经过文本筛选处理后,形成公文训练数据集;
(2)利用现有文本语料数据对生成式预训练语言模型进行第一阶段训练后,获取生成式预训练语言模型的初始参数,再利用步骤(1)中获取的公文训练数据集对生成式预训练语言模型进行微调,使模型收敛;
(3)当用户输入文本片段开始公文写作时,利用微调后的生成式预训练语言模型对后续字符位置的内容进行预测。
2.根据权利要求1所述的一种公文智能写作方法,其特征在于:所述的步骤(1)中在指定公文发布网站上获取公文文本数据,并按照设定周期获取指定网站内新发布的公文文本数据。
3.根据权利要求2述的一种公文智能写作方法,其特征在于:所述的步骤(1)中文本筛选处理的步骤如下:
(a)将获取的每篇公文文本内的标签、空格、分隔符删除;
(b)利用自然语言处理算法对公文文本进行分词处理,将停用词比例高于第一设定比例的公文以及非中文字符占比超过第二设定比例的公文删除;
(c)将每篇公文文本内容按照自然段落进行分割,公文训练数据集中每条训练语句为一个自然段落。
4.根据权利要求1述的一种公文智能写作方法,其特征在于:所述的步骤(2)中结合目标领域的专业词典,在训练过程中对文本数据切分词时保留完整的语义片段。
5.根据权利要求4述的一种公文智能写作方法,其特征在于:所述的步骤(2)中生成式预训练语言模型微调阶段,将文本切分词语处理后的公文训练数据集按照设定比例划分为训练集、验证集和测试集,利用训练集对生成式预训练语言模型训练若干个周期,使模型收敛。
6.根据权利要求5述的一种公文智能写作方法,其特征在于:所述的步骤(2)中将公文文本按照内容质量划分为若干个等级并设置对应的权重系数,生成式预训练语言模型训练过程中,通过损失函数结合训练文本对应的权重系数计算模型的损失。
7.根据权利要求5述的一种公文智能写作方法,其特征在于:所述的步骤(2)中,在生成式预训练语言模型微调阶段中对模型进行验证时,在验证集中随机抽取设定数量的训练语句形成验证子集。
8.根据权利要求1述的一种公文智能写作方法,其特征在于:所述的步骤(3)中当用户输入文本片段后,将用户输入的字符输入训练好的生成式预训练语言模型中,生成式预训练语言模型预测下个字符位置的内容并按顺序往后预测,直到标点符号为止,按照所有预测字符的概率得分乘积计算联合概率,由高到低输出若干个候选文本片段供用户选择。
9.根据权利要求8述的一种公文智能写作方法,其特征在于:所述的步骤(3)中将生成式预训练语言模型输出的若干个候选文本片段与公文标题进行匹配,将与标题最为匹配的文本内容作为第一推荐结果输出给用户。
10.根据权利要求8述的一种公文智能写作方法,其特征在于:生成式预训练语言模型输出的候选文本片段与公文标题进行匹配的方法具体步骤如下:
(S1)将清洗后的数据中的每篇公文文本分割为标题和正文两部分,再以标点符号正则表达式将正文切分为分句;
(S2)将每一个分句与分句所属的文本标题配对拼接,形成标签为1的训练正样本;
(S3)将每一个分句与两个随机文本标题配对拼接,去除训练正样本,形成标签为0的训练负样本;
(S4)将正样本与负样本随机乱序,输入BERT模型中进行微调训练,更新BERT模型权重;
(S5)将生成式预训练语言模型输出的候选文本片段输入到训练好的BERT模型中,根据输出分值获取与标题最为匹配的文本内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科曙光南京研究院有限公司,未经中科曙光南京研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111626007.0/1.html,转载请声明来源钻瓜专利网。