[发明专利]中文文本摘要生成系统及方法有效
申请号: | 201710034464.8 | 申请日: | 2017-01-18 |
公开(公告)号: | CN106919646B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 俞旸;凌志辉 | 申请(专利权)人: | 南京云思创智信息科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210042 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种中文文本摘要生成系统,包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中,预处理模块用于进行分词和原始词向量的形成,词汇理解模块、句子理解模块和段落理解模块分别用于采用双向长短记忆神经网络来对词汇、句子和段落进行深度理解,摘要自动生成模块用于根据词汇理解模块、句子理解模块、段落理解模块理解后的词向量、句子向量和段落向量采用seg2seq生成摘要。本发明还公开了一种中文文本摘要生成方法。本发明利用神经网络让机器真正的去阅读全文,并将理解后的文本表示在神经网络内,再序列化的输出简短摘要,系统在理解文章时,除了语义外,还结合文章的结构表示,更加精细的理解了全文。 | ||
搜索关键词: | 中文 文本 摘要 生成 系统 方法 | ||
【主权项】:
一种中文文本摘要生成系统,其特征在于:该系统包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中:所述预处理模块,用于将原始文本进行分词,并对每个词都形成对应的原始词向量;所述词汇理解模块,用于按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;所述句子理解模块,用于将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;所述段落理解模块,用于将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;所述摘要自动生成模块,用于将词汇理解模块生成的词向量、句子理解模块生成的句子向量和段落理解模块生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云思创智信息科技有限公司,未经南京云思创智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710034464.8/,转载请声明来源钻瓜专利网。