[发明专利]一种基于图模型的自动文摘方法有效
申请号: | 201510703353.2 | 申请日: | 2015-10-26 |
公开(公告)号: | CN105243152B | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 王俊丽;魏绍臣;管敏 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及自动文摘领域,是一种基于图模型的自动文摘方法。本发明的技术方案是将LDA概率主题模型应用于句子间语义相关性的度量,改进句子相关性的度量效果,并提出了句子的主题相关度和位置敏感度的概念,使得文摘的生成更加合理有效。该方法首先通过训练LDA主题模型获得文档的主题概率分布和主题的单词概率分布,然后求出句子主题概率分布,将句子间的语义相似度度量有效的转换成了句子主题概率分布的相似性度量问题;然后使用句子作为节点,根据句子间的语义相似性并结合余弦相似性构建边,生成一个代表文档的文本图;接下来根据句子与文档的主题概率分布计算句子的主题相关度,根据句子在文档中的位置计算句子的位置敏感度等。 | ||
搜索关键词: | 一种 基于 模型 自动 文摘 方法 | ||
【主权项】:
1.一种基于图模型的自动文摘方法,其特征在于,该方法首先通过训练LDA主题模型获得文档的主题概率分布和主题的单词概率分布,然后求出句子主题概率分布,将句子间的语义相似度度量有效的转换成了句子主题概率分布的相似性度量问题;然后使用句子作为节点,根据句子间的语义相似性并结合余弦相似性构建边,生成一个代表文档的文本图;接下来根据句子与文档的主题概率分布计算句子的主题相关度,根据句子在文档中的位置计算句子的位置敏感度,并根据这两项属性赋予节点静态权重,然后利用Biased‑PageRank算法对句子进行排序;最后根据要求选出高权重的句子根据原文顺序组合就得到了文章摘要;包括下列步骤:(1)文档预处理,清除语料中的无用信息;给定一组文档集合,通过分词、去停用词、词干化预处理技术,清除语料中的无用信息,得到清洗过后的语料库;(2)文档向量化,以便进行LDA主题模型的训练;对(1)中清洗过后的语料库中的所有单词进行编号,根据编号将每篇文档转换为对应的向量;(3)词频统计,生成词频矩阵;基于文档中词语出现频率的统计,生成一个文档‑单词的频率矩阵,即词频矩阵,矩阵中的每一项记录了每个单词在语料库中每个文档中出现的频率;(4)句子向量化,根据(3)中词频矩阵将文档中每个句子转换为对应向量,向量每一维为该单词的TF*IDF数值;(5)LDA模型训练;对(2)中向量化的文档采用Gibbs抽样算法训练LDA主题模型,估计文档的主题概率分布和主题的单词概率分布;(6)句子间相似度计算;利用(5)中LDA模型的训练结果计算句子的概率主题分布,然后根据不同句子主题概率分布的Jensen–Shannon距离计算句子间语义相似度的量化值;根据句子词频向量计算句子间的余弦相似度,作为语义相似度的补充;(7)文本图的构建;使用句子作为节点,根据(6)得出的句子间的相似度生成加权边,将文档表示成一个文本图;(8)主题相关度计算;根据句子主题概率分布与文档的主题概率分布的Jensen–Shannon距离计算句子的主题相关度;(9)位置敏感度计算;根据句子在文档中的位置计算句子的位置敏感度;(10)句子排序;根据(8)中的主题相关度和(9)中的位置敏感度赋予句子初始权重,使用Biased‑PageRank算法对(7)中生成的文本图进行排序;(11)文摘生成;根据(10)中句子排序的结果选择权重较高句子组合生成文摘。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510703353.2/,转载请声明来源钻瓜专利网。