[发明专利]面向大规模数据的情报系统中文本聚合及展现方法及系统有效

申请号：	201610707151.X	申请日：	2016-08-23
公开（公告）号：	CN106294861B	公开（公告）日：	2019-08-09
发明（设计）人：	李靖;杜鲁;金俏;杨绪升	申请（专利权）人：	武汉烽火普天信息技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27
代理公司：	北京汇泽知识产权代理有限公司 11228	代理人：	程殿军;张瑾
地址：	430074 湖北省武***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种面向大规模数据的情报系统中文本聚合及展现方法及系统，包括以下步骤：S1、对长短文本进行多维度划分，包括长文本、短文本和无意义文本；S2、对长文本通过topN相似度算法计算相似度度量；S3、对短文本进行SimHash算法计算相似度度量；S4、文本聚合展示，在展示文本时，将相似的文本聚合到一起进行展示。本发明能够快速将相似的文本聚合在一起，页面上展现代表性文章的标题和摘要等基本信息，方便用户快速浏览发现自己感兴趣的信息以及在发现感兴趣信息后，点开详细阅读，极大地提高了用户阅读效率以及关键情报信息定位的准确率。
搜索关键词：	面向大规模数据情报系统文本聚合展现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向大规模数据的情报系统中文本聚合及展现方法，其特征在于，包括以下步骤：S1、对长短文本进行多维度划分，包括长文本、短文本和无意义文本；S2、对长文本通过topN相似度算法计算相似度度量；S3、对短文本进行SimHash算法计算相似度度量；S4、文本聚合展示，在展示文本时，将相似的文本聚合到一起进行展示；其中，所述步骤S2具体包括：从文本中提取N句代表性的词语，组成特征词语，将此N个句子按从长到短拼接成一个特征句，使用MD5生成此特征句的hash值，存入数据库，拥有相同hash值的文本被认为是相似文本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉烽火普天信息技术有限公司，未经武汉烽火普天信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610707151.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向大规模数据的情报系统中文本聚合及展现方法及系统有效

专利文献下载