[发明专利]一种基于PageRank的短文本摘要方法有效

专利信息
申请号: 201810329318.2 申请日: 2018-04-13
公开(公告)号: CN108446408B 公开(公告)日: 2021-04-06
发明(设计)人: 曹斌;吴佳伟;王思超;范菁 申请(专利权)人: 浙江工业大学
主分类号: G06F16/34 分类号: G06F16/34;G06F40/289
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;黄美娟
地址: 310014 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于PageRank的短文本摘要方法。该方法包括:包括:频繁项集生成;项集关系建模;项集模型计算并摘要。本发明基于PageRank模型,对事件短文本处理,形成关键词集合并通过模型计算对多个这些集合的重要程度进行模拟,选取最具概括性的集合作为该事件的关键词摘要。在实际应用中,清晰地描述事件的主要内容,达到节省人工成本并提高工作效率的目的。
搜索关键词: 一种 基于 pagerank 文本 摘要 方法
【主权项】:
1.一种基于PageRank的短文本分类摘要方法,包括如下步骤:步骤1:频繁项集生成;包括以下内容:对待处理文本进行分词并过滤,去除停用词,替换同义词,生成该文本的初始词的集合;在处理完所有文本后,统计文本分词结果中每个词的词频并依据词频对所有词进行排序;调整文本分词结果内部词序,按词频降序排列;设定阈值minSupport,删去分词结果中词频小于该阈值的词;基于频繁模式树FP‑tree的数据结构,使用频繁模式增长方法FP‑growth生成频繁项集;步骤2:项集关系建模;需要通过数据的分析统计并进行简单计算,构建PageRank关系模型,具体包含以下步骤:步骤2.1:初始化项集权值;统计步骤1中生成一类问题的频繁项集总数n,统计项集中各词的词频tfi,i∈[1,n],结合项集中蕴含词的情况,统计计算集合中每个项集的初始权值如下:即项集蕴含词与其词频积的累加在总词频中占比;进而得到集合的初始权值向量P0={p1,p2,…,pn}T;步骤2.2:构建状态转移概率矩阵;因为集合中每个频繁项集之间有重叠的词,而本方法的目的便在于通过构建图来描述频繁项集之间的关联;因此通过计算集合中频繁项集两两之间的交集的词语个数来代表相应两个频繁项集之间的数值化关系;即在集合中的所有项集所构成的有向图中,计算其边权值;可将项集视为一个特定的状态,边权值的物理意义即为由某一状态转变到另一状态的概率,即转移概率;对于每个项集Si和Sj,都有交集词向量Xij={xi1,xi2,…,xin}T,其中xij表示项集Si与项集Sj的交集词的词频,当i=j时取值为0,进而构成矩阵W(因为衡量对象是所有频繁项集,故为n维矩阵):其中即项集Si与项集Sj的交集词频对项集Si与其余所有项集交集词频和的比值,以此代表各项集之间的边权值,形成状态转移概率矩阵;步骤2.3:修正状态转移概率矩阵;由于项集之间存在交集词的关联,因此不难预见在计算过程中,项集的权值会根据其他项集的权值而产生变化;因此需要计算修正模型,使得能计算出一个稳定的值;根据马尔科夫收敛定理,在满足以下条件时:①有限状态个数;②固定的状态转移概率;③状态之间可以以任意方式转变;④状态转移方式不唯一;该马尔科夫过程将收敛到一个均衡状态,且此均衡唯一;在满足以下条件的情况下,①:状态个数为项集个数n;②:状态转移概率矩阵由项集决定且不会变化;④:项集交集所构成的边都是双向边,各状态之间在可达情况下有多种转移方式;仍然需要进行修正,以满足条件③;考虑特殊情况,当某一项集与其余项集的交集均为空,即无法构建边,在这里将该项集称为孤立状态的项集;则当访问到该项集时,状态无法进行转移;为适应这一情况,进一步修正矩阵W为W1:以图的角度来看,该修正的物理意义是使得图是连通的,满足了条件③;其中α为经验值,代表在迭代过程中孤立状态进行状态转移的概率,可结合实际情况自行修正;e为单位矩阵,因此公式的后半部分代表了直接访问该孤立状态的概率。步骤3:项集模型计算并摘要;指定迭代次数max_iter以及阈值min_diff;根据Pn+1=W1Pn,初始取值Pn=P0进行运算;当两次迭代结果差小于阈值,即Pn+1‑Pnmax_iter,即可视为运算结果收敛,可按需输出排名。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810329318.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top