[发明专利]一种基于文本相似关系的紧凑性文本提取方法有效
申请号: | 201610542923.9 | 申请日: | 2016-07-11 |
公开(公告)号: | CN106202405B | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 张瑾;陈国青;卫强;郭迅华 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 关畅;刘美丽 |
地址: | 100872 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于文本相似关系的紧凑性文本提取方法,其特征在于包括以下步骤:1)根据输入文本集合T计算输入文本相似矩阵;2)标识输入文本中的处理文本和待处理文本;3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构,构造过程从树状结构的最底层开始,逐层向上,最终到达树状结构的最顶层;4)标识待处理文本集合Tpending中文本的类别;5)根据用户指定的代表性文本个数k提取紧凑性文本;6)输出紧凑性信息集合。本发明的紧凑性文本提取方法具有更好的内容覆盖度和更低的内容冗余度,能够更好反映原始大量文本信息的内容。 | ||
搜索关键词: | 一种 基于 文本 相似 关系 紧凑 提取 方法 | ||
【主权项】:
1.一种基于文本相似关系的紧凑性文本提取方法,其特征在于包括以下步骤:1)根据输入文本集合T计算输入文本相似矩阵M,具体过程为:对于一个输入文本集合T={t1,t2,...,tn},基于向量空间模型计算文本集合T的相似矩阵M=(eij)n×n,其中,矩阵M为n×n矩阵,eij为文本ti和tj之间的相似度,记为sim(ti,tj);2)标识输入文本中的处理文本集合Tprocess和待处理文本集合Tpending;3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构,构造过程从树状结构的最底层开始,逐层向上,最终到达树状结构的最顶层,其中,α为阈值∈[0,1],|T|表示集合T中包含的文本个数,具体过程为:3.1)聚类初始时,每个文本单独构成一个类,这样α|T|个文本构成α|T|个初始类,记为
这些初始类构成树状结构的最底层,树状结构的最底层表示为第α|T|层,最顶层表示为第1层,
表示第j层的第i个类,第j层中所有类个数表示为nj;3.2)在树状结构的每一层j,1≤j≤α|T|,计算任意两个类之间的相似度,第j层两个类
和
之间的相似度按如下方式计算:
3.3)在树状结构第j层,合并相似度最高的两个类
和
成一个类
3.4)标识新生成的类
中的中心文本集合
和边缘文本集合
其中,
依次计算类
中每个文本对整个类中所有文本的平均相似度,根据用户指定的阈值β∈[0,1],平均相似度满足如下条件的文本构成中心文本集合:
除去
后,
中剩下所有文本属于边缘文本集合
3.5)重新标识集合
中文本的类别,依次计算
中每一个文本tp对于当前第j层所有类
的平均相似度,将tp划分到与它平均相似度最高的类中;3.6)如果当前所有文本形成的类个数如果等于1,则停止树状结构的构造过程;如果当前所有文本形成的类个数大于1,则将第j层的类:
复制到第j‑1层,开始第j‑1层迭代,重复步骤3.2)到步骤3.5),最终将输入处理文本集合Tprocess构造成一树状结构,该树状结构第一层为一个类,该树状结构第一层的类囊括所有Tprocess中的文本;树状结构的最后一层中每个类包含Tprocess中的一个文本,中间层j包含有nj‑1类
4)标识待处理文本集合Tpending中文本的类别;5)根据用户指定的代表性文本个数k提取紧凑性文本;6)输出紧凑性信息集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610542923.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种基础地理数据接边入库方法
- 下一篇:一种基于交易数据的异常监测方法及装置