[发明专利]一种自动生成中文新闻摘要的方法在审
申请号: | 201711000116.5 | 申请日: | 2017-10-24 |
公开(公告)号: | CN107784099A | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 尹青山;段成德;于治楼 | 申请(专利权)人: | 济南浪潮高新科技投资发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 孙晶伟 |
地址: | 250100 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 生成 中文 新闻 摘要 方法 | ||
技术领域
本发明公开一种自动生成中文新闻摘要的方法,涉及数据深度处理领域。
背景技术
随着互联网的普及、以及信息获取途径的增加,每天都会不断涌现海量新闻信息。若筛选新闻信息使用整篇文本阅读的方式,十分费时费力。
本发明公开了一种自动生成中文新闻摘要的方法,对中文新闻进行预处理,构建语料库,使用word2vec向量化,并使用seq2seq+ attention模型对新闻文本训练,使用ROUGE评价并生产摘要。使新闻信息以自动摘要的方式对新闻的主要内容进行抽取,形成简短的容易理解的摘要形式,帮助人们从海量的新闻文本中找到有价值的信息。
Seq2Seq 于 2013年、2014 年被多位学者共同提出,在机器翻译任务中取得了非常显著的效果,随后提出的 attention 模型更是将 Seq2Seq推上了神坛,利用Seq2Seq+attention 的组合可以训练出应用良好的模型。除了应用在机器翻译任务中,其他文本生成任务也可以基于 Seq2Seq 模型来做。
word2vec是google 推出的开源工具。简单的说,它在给定的语料库上训练一个模型,然后会输出所有出现在语料库上的单词的向量表示,这个向量称为"word embedding"。基于这个向量表示,可以计算词与词之间的关系,例如相似性等。
发明内容
本发明针对现有技术的问题,提供一种自动生成中文新闻摘要的方法,使用自动摘要的方式将新闻的主要内容进行抽取,形成简短的容易理解的摘要形式,帮助人们从海量的新闻文本中找到有价值的信息。
本发明提出的具体方案是:
一种自动生成中文新闻摘要的方法:
对新闻文本进行预处理,构建中文新闻语料库;
使用中文新闻语料库对需生成摘要的新闻文本进行处理,再使用word2vec对处理后的新闻文本进行训练,将文本转换为向量的形式;
将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,使用ROUGE评价并生成摘要。
所述的方法中使用中文新闻语料库对需生成摘要的新闻文本进行分词并将汉字转换为数字序列,标记<EOS>表示句子结尾。
所述的方法将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,其中decoder使用RNN-based模型,encoder使用CNN-based + attention模型。
所述的方法对新闻文本进行去除停用词及标点的预处理,构建中文新闻语料库。
所述的方法中按照新闻文本中常用词语及其同义词构建中文常用词语语料库,按照新闻文本中近期网络较热门词语及短语构建中文热门词语语料库。
本发明的有益之处是:
本发明提供一种自动生成中文新闻摘要的方法:
对新闻文本进行预处理,构建中文新闻语料库;使用中文新闻语料库对需生成摘要的新闻文本进行预处理,再使用word2vec对处理后的新闻文本进行训练,将文本转换为向量的形式;将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,使用ROUGE评价并生成摘要;
利用本发明方法对中文新闻进行预处理,构建语料库,使用word2vec向量化,并使用seq2seq+ attention模型对新闻文本训练,使用ROUGE评价并生产摘要,使新闻信息以自动摘要的方式对新闻的主要内容进行抽取,形成简短的容易理解的摘要形式,帮助人们从海量的新闻文本中找到有价值的信息。
附图说明
图1是Seq2Seq 模型图。
图2是本发明方法流程示意图。
具体实施方式
本发明提供一种自动生成中文新闻摘要的方法:
对新闻文本进行预处理,构建中文新闻语料库;使用中文新闻语料库对需生成摘要的新闻文本进行预处理,再使用word2vec对处理后的新闻文本进行训练,将文本转换为向量的形式;将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,使用ROUGE评价并生成摘要。
结合附图及具体实施方案,对本发明做进一步说明。
利用本发明方法,具体步骤为:
使用python的jieba函数库对中文新闻文本进行分词并去除停用词,标点等;
按照新闻文本中常用词语及其同义词构建中文常用词语语料库,按照新闻文本中近期网络较热门词语及短语构建中文热门词语语料库等等;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711000116.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无线通信中的方法和装置
- 下一篇:一种用量配额的授权方法及装置