[发明专利]一种多文档自动文摘方法有效

专利信息
申请号: 200710308516.2 申请日: 2007-12-29
公开(公告)号: CN101231634A 公开(公告)日: 2008-07-30
发明(设计)人: 张瑾;许洪波;王小磊 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京泛华伟业知识产权代理有限公司 代理人: 王勇
地址: 100080北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文档 自动 文摘 方法
【说明书】:

技术领域

发明涉及信息处理领域,进一步地,涉及到一种多文档自动文摘方法。

背景技术

随着时代的进步和经济的发展,人们日常生活中对信息的需求量越来越大,尤其是随着互联网的日益普及,每天都有海量的信息在互联网上发布和传播。以中国互联网的发展为例,根据北大天网提供的搜索结果,2005年底中国的网页总数约为10.8亿个,另据CNNIC的统计,截至2007年3月底,中国WAP网页数量约为2.6亿,网页字节数约为800GB。网页规模急剧增长的互联网,在为人们提供更加丰富的信息服务的同时,也给人们带来了如何高速有效获取有用信息的困惑。以搜索引擎为代表的信息检索技术可以根据用户的需求从海量信息中找出一批相关网页,提高了信息获取的效率。但这种方法很大程度上依赖于对于用户查询的准确理解以及查询结果的排序策略,同时在返回的查询结果的基础上还需要用户自己逐个网页查看以获取真正想要的信息,在用户查询意图不明确时难以做到准确高效,另外受搜索引擎采集和存储能力的影响,很难保证无信息的遗漏。在信息极大丰富的情况下,人们迫切需要取代获取相关信息、直接获取有用信息甚至最有价值信息的方法,以进一步减轻信息获取的工作量。多文档自动文摘技术可以在未给定先验知识的条件下对大量未知信息进行大意概括以帮助人们快速了解信息内容,可以在用户查询意图不明确时对杂乱的检索结果进行自动摘要以辅助人们加快查找速度,从而大大减轻了信息获取的代价,进一步提高了信息获取效率。多文档自动文摘方法在信息融合、信息检索、在线问答、移动内容服务和互联网内容安全等许多领域都具有重要价值和良好的应用前景。人工生成摘要信息的方法在针对单篇文档时比较有效,但由于代价昂贵,在面对大量文档时显得无能为力。通过机器学习和人工智能的方法,从多篇文档中自动进行重要信息的提取并形成多文档文摘,成为重要信息高效获取的最为现实而有效的技术手段。

目前的自动文摘技术主要是基于句子级的内容分析与抽取,即从原始的文档(或文档集)中抽取一些关键的句子组成文摘,主要的文摘算法可以概括为以下三类:

基于机器学习的文摘方法。该方法在向量空间模型的基础上利用分类、聚类等机器学习方法将句子划分为不同的类别,再从每个类别中抽取出最重要的句子来构成文摘。这种方法不受应用领域的限制,但受模型和机器学习方法的限制,往往算法精度有限。

搜索式的文摘方法。该方法借助文本搜索领域的算法,针对文摘任务的特点,对所有句子构造一种特殊的查询结果排序策略,再根据文摘长度要求选取排在前面的若干句子构成文摘。这种方法不用单独去构造句子所在的类别信息,但受查询结果排序策略的影响很大。

基于图排列的文摘方法。该方法先利用聚类算法把文档集划分为不同类别,再借助图模型对不同类别的文档集进行建模,通过对同一类别中句子间关联关系分析,计算出此类别中权重最大的句子作为最重要的句子,这些重要句子组成文摘。这种方法与基于机器学习的文摘方法相比能够更好的进行重要句的选取,但文摘性能往往取决于聚类算法的性能。

综上所述,现有技术中自动提取文摘的能力,受各种不同因素限制,精度难以保证。

发明内容

本发明的目的是提供一种多文档自动文摘的方法,即能够有效地进行句子类别信息的区分,又能从中抽取最重要句子,从而得到一种精度高、推广性好的多文档自动文摘方法。

为实现上述目的,根据本发明的一个方面,提供了一种多文档自动文摘方法,包括以下步骤:

1)把文档集进行句子边界切分,用向量空间模型表示句子;

2)计算句子向量间的距离构成句子关联矩阵;

3)根据句子关联矩阵计算初始句子权重向量;

4)根据初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从句子关联矩阵中划分出对应句子所代表子主题所在的子矩阵,更新句子关联矩阵;

5)重复步骤3)和4),完成文摘。

根据本发明的另一方面,上述步骤3)包含根据初始句子权重向量、句子对主题的贡献度和句子位置偏好性计算句子权重调整模型;

步骤4)根据句子权重调整模型,选取当前权重最大的结点,把此结点所对应的句子作为候选文摘句,从句子关联矩阵中划分出对应句子所代表子主题所在的子矩阵,更新句子关联矩阵。

根据本发明的另一方面,上述步骤2)包含对句子关联矩阵进行规范化,形成句子关系图;

步骤3)根据句子关系图计算初始句子权重向量;

步骤4)根据初始句子权重向量,选取当前权重最大的结点,把此结点所对应的句子作为候选文摘句,从句子关系图中划分出对应句子所代表子主题所在的子图,更新句子关系图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710308516.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top