[发明专利]词与网页的关联度计算方法及装置有效

申请号：	201610058722.1	申请日：	2016-01-28
公开（公告）号：	CN105718445B	公开（公告）日：	2018-05-11
发明（设计）人：	刘忠;陈发君;黄金才;朱承;修保新;程光权;陈超;冯旸赫	申请（专利权）人：	中国人民解放军国防科学技术大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京中济纬天专利代理有限公司 11429	代理人：	陈立新
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页关联计算方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种词与网页的关联度计算方法，其特征在于，包括以下步骤：

步骤S100：读取网页的标题和正文内容，进行分词及词性标注，得到正文词列表bodyList和标题词列表titleList，对所述正文分词列表bodyList和所述标题分词列表titleList分别进行过滤预处理；

步骤S200：构建词连接集合linkMap；

步骤S300：根据所述标题词列表titleList对所述词连接集合linkMap进行修正，得到修正词连接集合，利用所述修正词连接集合计算所述网页中每个词的TextRank得分，得到每个词的得分集合scoreMap，过滤所述得分集合scoreMap中的常用词，余下的所述得分集合scoreMap中的词及其TextRank得分，即为词与网页的关联度；

所述词连接集合linkMap的构建包括以下步骤：

步骤S210：初始化队列queue、词连接集合linkMap和窗口大小N，遍历正文词列表bodyList，将第i个词A加入所述队列queue的尾部，若所述队列queue的长度大于N，则将所述队列queue的队首元素删除，若所述第i个词A不包含于所述词连接集合linkMap中，则将所述第i个词A加入词连接集合linkMap中并设置所述第i个词A的值为空集合；

步骤S220：对所述队列queue中的所有任两元素进行比较，如果二者不相同则分别加入任两所述词连接集合linkMap的连接词集合中；

步骤S230：遍历所述正文词列表bodyList，重复步骤S210～S220得到所述词连接集合linkMap。

2.根据权利要求1所述的词与网页的关联度计算方法，其特征在于，所述过滤预处理步骤包括过滤停用词，并保留名词、动词、形容词及副词。

3.根据权利要求1所述的词与网页的关联度计算方法，其特征在于，步骤S300包括以下步骤：

步骤S310：计算所述词连接集合linkMap中每个词的连接词集合大小的平均值记为M，从所述词连接集合linkMap中选取前M个连接词集合最大的词构建词集合reviseSet；

步骤S320：遍历所述标题词列表titleList中的标题词，若所述标题词不包含于所述词连接集合linkMap中，则将所述标题词加入所述词连接集合linkMap并将所述词集合reviseSet中的所有词加入到所述标题词的连接词集合中；

若所述标题词包含于所述词连接集合linkMap中，则将所述词集合reviseSet中除所述标题词之外的所有词加入所述标题词的连接词集合中；

步骤S330：遍历reviseSet判断其中每个词是否是所述标题词，如果该词不是所述标题词则将该词加入该词在所述词连接集合linkMap中对应的连接词集合；否则，不做处理；

步骤S340：遍历所述标题词列表titleList，重复步骤S310～330得到修正词连接集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学，未经中国人民解放军国防科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610058722.1/1.html，转载请声明来源钻瓜专利网。

上一篇：像素补偿电路、方法、扫描驱动电路及平面显示装置
下一篇：一种发电机结构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]词与网页的关联度计算方法及装置有效

专利文献下载