[发明专利]一种对文档集进行批量单文档摘要的方法及系统有效
申请号: | 200610114590.6 | 申请日: | 2006-11-16 |
公开(公告)号: | CN101187919A | 公开(公告)日: | 2008-05-28 |
发明(设计)人: | 万小军;杨建武;吴於茜;陈晓鸥 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 李欣 |
地址: | 100871北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种对文档集进行批量单文档摘要的方法及系统,属语言文字处理技术领域。现有几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。本发明所述方法能够对给定文档集中的所有文档批量生成单文档摘要。该方法首先对给定的文档集进行文档聚类,生成若干文档类簇,属于同一类簇的文档具有相似的主题。给定每个文档类簇,对于该类簇中的所有句子统一进行全局重要性评价,然后基于类簇中的每篇文档对句子进行文档内差异性惩罚,最后从该文档中挑选真正重要并且新颖的句子为该文档生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果,同时以批量生成的方式提高了摘要效率。 | ||
搜索关键词: | 一种 文档 进行 批量 摘要 方法 系统 | ||
【主权项】:
1.一种对文档集进行批量单文档摘要的方法,其特征在于,包括以下步骤:步骤1、对给定文档集合D进行文档聚类,得到k个文档类簇C1,...,Ck,k为正整数;步骤2、对上述每个文档类簇中的文档分别进行批量单文档摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司,未经北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200610114590.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种钢筋的加工方法及装置
- 下一篇:黄鳝钓