[发明专利]一种基于元搜索引擎的标签自动生成方法在审
申请号: | 201611199495.0 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106682149A | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 唐雅媛;罗恩韬;唐亚纯;高傲 | 申请(专利权)人: | 湖南科技学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 长沙正奇专利事务所有限责任公司43113 | 代理人: | 马强;王娟 |
地址: | 425199 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于元搜索引擎的标签自动生成方法,首先是文本预处理优化,在进行中文分词的同时保留词语的基本信息,包括词性、词位置、词频,构成五元组;其次是词语过滤,去掉停用词,进行词性过滤,根据经验保留名词、动词和动名词,降低噪音干扰;再次重新计算词语信息量,通过统计的词语基本信息,计算词语位置得分、词频、词跨度,并计算综合得分作为词语的权重;最后计算词语间的相似度作为TextRank算法中的边的权重,利用TextRank算法计算每个词的TextRank值。本发明引入了元搜索引擎技术和自动生成标签,将自动标签技术应用到搜索引擎中,从而保证查全率和查准率。 | ||
搜索关键词: | 一种 基于 搜索引擎 标签 自动 生成 方法 | ||
【主权项】:
一种基于元搜索引擎的标签自动生成方法,其特征在于,包括以下步骤:1)对文本标题和摘要进行分词处理,并记录词性;对词语进行过滤处理,得到一系列候选关键词;2)按照候选关键词的先后顺序进行标号,遍历候选关键词,记录词语出现的频率、词语首次出现的位置、末次出现的位置以及词语总数sum,计算词语wi的位置因子L(wi)、词频因子T(wi)、跨度因子S(wi),从而计算出词语wi的信息量m(wi);3)根据词语信息量计算词语间的相关性;词语wi和词语wj的相关性有如下计算公式:correlation(wi,wj)=m(wi)*m(wj)r(wi,wj)2;]]>其中,r(wi,wj)表示词语wi和wj之间的差异性;m(wj)为wj的词语信息量;4)根据所述相关性计算词语wi的TextRank值:P(wi)=(1-d)+d*Σj∈In(wi)correlation(wi,wj)Σcorrelation(wi,wj)P(wj);]]>其中,d指的是阻尼系数,其大小介于0和1之间;P(wi)表示词语wi的TextRank值或者重要性,In(wi)表示与词语wi相关的词语集合;P(wj)表示词语wj的TextRank值或者重要性,P(wi)、P(wj)的初始值均为1,上式等号右侧P(wj)为上一次迭代的值,等号左侧P(wi)为当次迭代的值;5)对于从搜索引擎爬取的每一条结果的标题和摘要中的词语,利用步骤1)~步骤4)计算TextRank值,将词语按TextRank值进行排序,选取前五个词语作为候选标签;6)将所有候选标签进行合并,选取得分最高的前N个词语作为标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南科技学院,未经湖南科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611199495.0/,转载请声明来源钻瓜专利网。
- 上一篇:笔式针头外覆盖件及笔式针头组件
- 下一篇:胰岛素自注贴膜