[发明专利]一种针对海量文本快速理解的文摘方法在审

申请号：	201610708230.2	申请日：	2016-08-23
公开（公告）号：	CN106294863A	公开（公告）日：	2017-01-04
发明（设计）人：	刘贵松;秦科;罗光春;卢国明;李宝程	申请（专利权）人：	电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	成都弘毅天承知识产权代理有限公司51230	代理人：	刘东
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种针对海量文本快速理解的文摘方法，所述方法包括：获取文本内容；对文本进行分词、指代消除、去除冗余信息、划分分析单元等预处理操作；使用主题模型对文本内容进行主题分析得到文本中主题分布；依据分析单位间的主题关联关系构建图模型，并计算图模型中每条有向边的权重；使用贡献迭代方法计算图模型直到收敛，根据需求生成合适篇幅的文本摘要。通过本发明实现的文本摘要方法，能够对海量非结构化文本数据进行自动化分析，得到能够全面覆盖核心主题的文本摘要作为海量原始数据的替代，从而实现快速理解的目的。
搜索关键词：	一种针对海量文本快速理解文摘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种针对海量文本快速理解的文摘方法，其特征在于，包括下列步骤：步骤1：获取待分析的文本组成的文本集合；步骤2：对文本集合的语料进行分词、指代消解、冗余信息去除和基本单元划分，得到预处理后的语料库；步骤3：计算预处理后的语料库中各句子的基本特征的权值，所述基本特征包括TF‑IDF值、句子位置信息与句子长度信息；综合预处理后的语料库中各句子的基本特征的权值，得到各句子的初始权值；步骤4：对预处理后的语料库进行LDA模型训练，通过Gibbs采样过程估计文本集合中所有词语的主题概率分布；步骤5：利用步骤4估计到的词语的主题概率分布计算句子的主题概率分布；步骤6：构建图模型，使用预处理后的文本集合中各句子作为节点，依据各句子的主题概率分布来建立句子之间的关联,生成图模型的加权边，利用句子的主题概率分布计算句子与句子主题分布相对熵，将句子与句子主题分布相对熵作为图模型的加权边的权值，将各句子的初始权值作为各句子在图模型中对应节点的初始权值；步骤7：基于步骤6构建的图模型使用迭代贡献权值的方法计算每个句子的最终权值，根据每个节点的最终权值从大到小进行排序，根据句子排序的结果选择权值较高句子组合生成文摘。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610708230.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种针对海量文本快速理解的文摘方法在审

专利文献下载