[发明专利]一种基于文本相似关系的紧凑性文本提取方法有效

专利信息
申请号: 201610542923.9 申请日: 2016-07-11
公开(公告)号: CN106202405B 公开(公告)日: 2019-06-25
发明(设计)人: 张瑾;陈国青;卫强;郭迅华 申请(专利权)人: 中国人民大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35
代理公司: 北京纪凯知识产权代理有限公司 11245 代理人: 关畅;刘美丽
地址: 100872 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于文本相似关系的紧凑性文本提取方法,其特征在于包括以下步骤:1)根据输入文本集合T计算输入文本相似矩阵;2)标识输入文本中的处理文本和待处理文本;3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构,构造过程从树状结构的最底层开始,逐层向上,最终到达树状结构的最顶层;4)标识待处理文本集合Tpending中文本的类别;5)根据用户指定的代表性文本个数k提取紧凑性文本;6)输出紧凑性信息集合。本发明的紧凑性文本提取方法具有更好的内容覆盖度和更低的内容冗余度,能够更好反映原始大量文本信息的内容。
搜索关键词: 一种 基于 文本 相似 关系 紧凑 提取 方法
【主权项】:
1.一种基于文本相似关系的紧凑性文本提取方法,其特征在于包括以下步骤:1)根据输入文本集合T计算输入文本相似矩阵M,具体过程为:对于一个输入文本集合T={t1,t2,...,tn},基于向量空间模型计算文本集合T的相似矩阵M=(eij)n×n,其中,矩阵M为n×n矩阵,eij为文本ti和tj之间的相似度,记为sim(ti,tj);2)标识输入文本中的处理文本集合Tprocess和待处理文本集合Tpending;3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构,构造过程从树状结构的最底层开始,逐层向上,最终到达树状结构的最顶层,其中,α为阈值∈[0,1],|T|表示集合T中包含的文本个数,具体过程为:3.1)聚类初始时,每个文本单独构成一个类,这样α|T|个文本构成α|T|个初始类,记为这些初始类构成树状结构的最底层,树状结构的最底层表示为第α|T|层,最顶层表示为第1层,表示第j层的第i个类,第j层中所有类个数表示为nj;3.2)在树状结构的每一层j,1≤j≤α|T|,计算任意两个类之间的相似度,第j层两个类之间的相似度按如下方式计算:3.3)在树状结构第j层,合并相似度最高的两个类成一个类3.4)标识新生成的类中的中心文本集合和边缘文本集合其中,依次计算类中每个文本对整个类中所有文本的平均相似度,根据用户指定的阈值β∈[0,1],平均相似度满足如下条件的文本构成中心文本集合:除去后,中剩下所有文本属于边缘文本集合3.5)重新标识集合中文本的类别,依次计算中每一个文本tp对于当前第j层所有类的平均相似度,将tp划分到与它平均相似度最高的类中;3.6)如果当前所有文本形成的类个数如果等于1,则停止树状结构的构造过程;如果当前所有文本形成的类个数大于1,则将第j层的类:复制到第j‑1层,开始第j‑1层迭代,重复步骤3.2)到步骤3.5),最终将输入处理文本集合Tprocess构造成一树状结构,该树状结构第一层为一个类,该树状结构第一层的类囊括所有Tprocess中的文本;树状结构的最后一层中每个类包含Tprocess中的一个文本,中间层j包含有nj‑1类4)标识待处理文本集合Tpending中文本的类别;5)根据用户指定的代表性文本个数k提取紧凑性文本;6)输出紧凑性信息集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610542923.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top