[发明专利]一种多文档自动文摘方法有效
申请号: | 200710308516.2 | 申请日: | 2007-12-29 |
公开(公告)号: | CN101231634A | 公开(公告)日: | 2008-07-30 |
发明(设计)人: | 张瑾;许洪波;王小磊 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种利用图划分方法来自动提取多文档文摘的方法,包括以下步骤:进行句子边界切分,把文档用切分出来的句子表示;将句子表示成向量,计算句子两两间的相似度构成句子关联矩阵,并按指定的阈值对关联矩阵进行约简,同时进行规范化处理;在多文档文摘中引入主题的隐性逻辑结构的挖掘,将文档集按主题划分成不同的隐性子主题,从而把文摘任务转化为对子主题的选取和抽取过程;利用图划分的方法,既从全局特性上保证句子所在子主题的重要度,又从局部特性上保证不同子主题之间内容的低冗余性,从而有效提高了文摘质量。 | ||
搜索关键词: | 一种 文档 自动 文摘 方法 | ||
【主权项】:
1.一种多文档自动文摘方法,包括下列步骤:1)把文档集进行句子边界切分,用向量空间模型表示句子;2)计算所述句子向量间的距离构成句子关联矩阵;3)根据所述句子关联矩阵计算初始句子权重向量;4)根据所述初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关联矩阵中划分出所述对应句子所代表子主题所在的子矩阵,更新句子关联矩阵;5)重复步骤3)和4),完成文摘。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710308516.2/,转载请声明来源钻瓜专利网。