[发明专利]基于词网识别大量Web文本信息相似度的方法有效

申请号：	201810445807.4	申请日：	2018-05-11
公开（公告）号：	CN108647322B	公开（公告）日：	2021-12-17
发明（设计）人：	靳宇倡;安俊秀;文仁强	申请（专利权）人：	四川师范大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/953;G06K9/62
代理公司：	北京元本知识产权代理事务所(普通合伙) 11308	代理人：	秦力军
地址：	610066 ***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于识别大量 web 文本信息相似方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于词网识别大量Web文本信息相似度的方法，包括以下步骤：(1)构建词网；(2)新Web网页文本信息相似度识别，包括以下步骤：从新Web网页中提取文本信息构成新文档，从新文档中提取特征词f₁、f₂、…、f_m；求解每一个特征词f的相似词的集合；求解每一个特征词f的相似文档集合；确定新文档的相似文档并计算相似文档集中文档的相似度值；过滤相似文档集中的文档，得到最终的相似度文档集合；(3)按步骤(1)的方法对新Web网页进行词网更新。利用本方法，可以用于发现信息剽窃或信息模仿、篡改，可以用于发掘不同领域之间隐含存在的相关关系，可以消除重复的网页，降低搜索引擎的负担，优化存储和索引结构。

技术领域

本发明涉及一种识别互联网文本信息相似度的方法，尤其涉及一种基于词网识别大量Web文本信息相似度的方法。

背景技术

互联网技术的变革在传递信息和知识的同时，也为线下上网用户提供了一个发布信息、交流沟通的平台，引入普通用户参与大量在线信息的快速增长，促成互联网成为信息资源库的重要组成部分之一。

为了努力应对互联网信息的高速增长，许多研究项目把目标定位于如何有效地组织这些大量的信息，使终端用户能够快速、准确地获取所需信息，并降低组织信息的成本。互联网中的Web信息是以文本的形式通过HTML标记进行合理地格式化操作显示给终端用户，因此许多Web文档处理系统都是基于文本数据处理技术实现对Web文档采用普通文本的一般化处理方式。Web文档处理技术包括很多过程，按照一般形式有：网页爬取、去除HTML标记、消除多余的空行、去除干扰词、提取词干、文本数据挖掘、信息展示等。如果针对存在链接关系的相关网页进行特别处理，还需要分析网页之间的连接关系，整个处理过程的核心是文本数据挖掘。文本数据挖掘与传统的数据挖掘技术在方法上存在许多共同的地方，包括分析数据潜在的固有结构，对相似数据进行聚类，当应用于普通文本数据，聚类方法试着识别文本文档的所属组，然后根据文档之间的相似程度形成不同的簇，其中簇内的文档之间具有很高的相似度，而簇间的文档之间具有很低的相似度。

因此，针对互联网对信息进行有序规范的组织，提高互联网公开信息的透明化和有序化，是为终端用户在提供信息获取服务过程中不被海量信息淹没的首要解决途径之一。尤其是进入移动互联网时代，要快速地从大量的信息海洋中获取并展示给终端用户有价值的信息，同时还要确保参与信息产生的个人或机构组织的财产安全和隐私保密，消除互联网中的无用信息、重复信息、敏感信息，是提高互联网用户体验的必要工作之一。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川师范大学，未经四川师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810445807.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种树形智能车间制造大数据集成建模与语义计算方法
下一篇：一种职业能力的数据汇总方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于词网识别大量Web文本信息相似度的方法有效

专利文献下载