[发明专利]一种结合语义和文本结构进行生成式摘要抽取的文本生成方法有效
| 申请号: | 201911393590.8 | 申请日: | 2019-12-30 |
| 公开(公告)号: | CN111178053B | 公开(公告)日: | 2023-07-28 |
| 发明(设计)人: | 任利;李清;贾海涛;贾宇明;李建;许文波;罗心;刘芳 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/30;G06F40/258 |
| 代理公司: | 电子科技大学专利中心 51203 | 代理人: | 邹裕蓉 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 语义 文本 结构 进行 生成 摘要 抽取 方法 | ||
1.一种结合语义和文本结构进行生成式摘要抽取的文本生成方法,其特征在于,包括以下步骤:
步骤1、文本语义数值化:将文本做分句处理,然后做分词和去停用词处理,得到文本的有效词语,在词表中查找有效词语对应的数值,得到的数值为数值化的文本语义;所述词表中包含有词语以及与词语一一对应的数值;
步骤2、文本结构数值化:对分句处理后的文本进行句子结构因素的提取,得到句子结构因素的数值为数值化的文本结构;句子结构因素包括:关键词相关度、命名实体数量、句子长度、总结性关键词个数、与关键性句子的相似度;
步骤3、将数值化的文本语义输入至编码网络的Bi-LSTM模型中进行编码,同时将数值化的文本结构输入编码网络的单层LSTM模型中进行编码,然后文本结构编码和文本语义编码结合作为编码器的编码输出至解码器;
步骤4、采用单层LSTM模型的解码器结合注意力机制网络完成解码后输出摘要文本;
所述词表的生成方法为:将数据源中各文本做分句处理,然后做分词和去停用词处理,得到文本的有效词语,统计有效词语的词频,根据词频从大到小进行对有效词语进行排序,选出排序中词频高的设定数值个有效词语,对选出的设定数值个有效词语赋予一一对应的数值形成词表。
2.如权利要求1所述方法,其特征在于,得到关键词相关度的数值具体方法为:利用基于图的排序算法,将根据图的计算得到评分高的词语作为本文的关键词,再统计句子中包含关键词的数量作为句子的关键词相关度的数值。
3.如权利要求1所述方法,其特征在于,得到命名实体数量的数值具体方法为:对句子做分词,然后对每个词语作词性的标注,根据词语和相对应的词性得到句子中的命名实体词语,计算命名实体的数量作为句子的命名实体数量的数值;所述命名实体词语的词性包括人名、机构名、地名以及其他以名称为标识的实体。
4.如权利要求1所述方法,其特征在于,得到句子长度的数值的具体方法为:利用中文预处理工具pyltp将句子分词,将统计分词的个数作为句子长度的数值。
5.如权利要求1所述方法,其特征在于,得到总结性关键词个数的数值的具体方法为:建立总结性词语词表,判断句子是否包含总结性词语,为包含总结性词语的句子赋予得分数值,将句子中的总结性词语的得分数值作为总结性关键词个数的数值。
6.如权利要求1所述方法,其特征在于,得到关键性句子的相似度的数值的具体方法为:利用图排序算法从文本中抽取出关键性句子,再使用杰卡德系数计算两个句子的相似度:杰卡德系数越大,句子相似度越高,两个句子的交集除以并集得到的数值作为关键性句子的相似度的数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911393590.8/1.html,转载请声明来源钻瓜专利网。





