[发明专利]一种基于PageRank的短文本摘要方法有效
| 申请号: | 201810329318.2 | 申请日: | 2018-04-13 |
| 公开(公告)号: | CN108446408B | 公开(公告)日: | 2021-04-06 |
| 发明(设计)人: | 曹斌;吴佳伟;王思超;范菁 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/289 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
| 地址: | 310014 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 pagerank 文本 摘要 方法 | ||
本发明涉及一种基于PageRank的短文本摘要方法。该方法包括:包括:频繁项集生成;项集关系建模;项集模型计算并摘要。本发明基于PageRank模型,对事件短文本处理,形成关键词集合并通过模型计算对多个这些集合的重要程度进行模拟,选取最具概括性的集合作为该事件的关键词摘要。在实际应用中,清晰地描述事件的主要内容,达到节省人工成本并提高工作效率的目的。
技术领域
本发明涉及一种基于PageRank的短文本摘要方法,主要解决在针对同一类问题具有多种描述的条件下,如何选择具有代表性的问题描述的问题。特别涉及一种文本项目排序方法。通过该方法,能够在同一类问题的多种描述中选择相对具有代表性的描述。
背景介绍
众所周知,文本是生活生产中最主要的信息载体之一。因此,在很多领域中,文本分类已经被高度重视并被广泛使用。通常情况下,我们认为某一类文本是对其对应特殊事件的描述,且这类文本通常是一些短文本,相对具有概括性,蕴含丰富的信息。因此,对这些文本进行分析处理并摘要,形成概括性描述,对生产生活有着十分积极的作用及意义,进而也成了一个亟待解决的问题。
经调研,现有短文本摘要方法有主题建模、自动摘要,但是以上方法仍然存在一些缺陷。常用的主题建模模型,LDA模型,相对复杂,对短文本处理效果相对较差,准确度不高;自动摘要主要有两种模式:其一是抽取式,即从文中选出某些句子作为摘要;另一种为理解式,通过理解文义进行摘要。目前相对成熟的方式是抽取式,但往往效果差强人意,且通常应用在单个长文本场景,而非多个短文本语料场景。
在本发明的一个实际应用场景中,需要对企业的各类诉求进行分析并摘要,以便企业有针对性地解决用户诉求,提高服务质量。而在实际工作中,由于用户诉求量巨大,现有处理方法花费过多的时间且容易出错,导致效率低下,难以推进后续工作,最终不能及时给用户反馈处理结果。同时人力资源有限难以调配人手参与该工作,亟需一个行之有效的解决方案,用计算机技术将这些复杂繁琐的操作过程自动化,减少错误,提高效率,节省人力资源。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于PageRank的短文本项目代表性程度排序方法,对经过处理的诉求所形成的关键词集合进行排序,选取最具概括性的集合作为该诉求的关键词描述,使分析者清晰地了解诉求的主要内容,节省人工成本并提高工作效率。
根据本发明的一个方面,提供了一种基于PageRank的短文本分类摘要方法,包括:频繁项集生成;项集关系建模;项集模型计算并摘要。
步骤1:频繁项集生成
包括以下内容:对待处理文本进行分词并过滤,去除停用词,替换同义词,生成该文本的初始词的集合;在处理完所有文本后,统计文本分词结果中每个词的词频并依据词频对所有词进行排序;调整文本分词结果内部词序,按词频降序排列;设定阈值minSupport,删去分词结果中词频小于该阈值的词;基于频繁模式树(FP-tree)的数据结构,使用频繁模式增长方法(FP-growth)生成频繁项集。
步骤2:项集关系建模
需要通过数据的分析统计并进行简单计算,构建PageRank关系模型,具体包含以下步骤:
步骤2.1:初始化项集权值
统计步骤1中生成一类问题的频繁项集总数n,统计项集中各词的词频tfi,i∈[1,n],结合项集中蕴含词的情况,统计计算集合中每个项集的初始权值如下:
即项集蕴含词与其词频积的累加在总词频中占比。
进而得到集合的初始权值向量P0={p1,p2,…,pn}T。
步骤2.2:构建状态转移概率矩阵
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810329318.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于区块链的数据库审计方法和装置
- 下一篇:一种出行管家智能交互系统及方法





