[发明专利]一种为文本添加超级链接的方法和装置有效
申请号: | 201210087642.0 | 申请日: | 2012-03-29 |
公开(公告)号: | CN103365831B | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 贺翔;卞琪;焦峰 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 添加 超级链接 方法 装置 | ||
技术领域
本发明涉及文本处理技术,特别涉及一种为文本添加超级链接的方法和装置。
背景技术
超级链接,是指互联网中指向某个特定目标的连接,点击超级链接后,将自动跳转到指定目标。
通过在文本中添加超级链接,可将不同的文本联系在一起。如图1所示,图1为现有添加了超级链接的文本示意图。其中的“太和殿”、“中和殿”、“保和殿”等词即添加了超级链接。在实际应用中,通常将添加了超级链接的词称为超链词,用带下划线的蓝色字体表示。
现有技术中,通常采用以下方式来为文本添加超级链接:
1)针对待添加超级链接的文本,人工确定对其中的哪些词添加超级链接;
2)预先生成一个超链词列表,针对待添加超级链接的文本,通过与超链词列表进行匹配,为在超链词列表中出现的词添加超级链接。
但是,上述两种方式在实际应用中均会存在一定的问题:
对于方式1),由于需要人工进行操作,因此实现起来很不方便,尤其是当需要对大规模文本添加超级链接时;
对于方式2),虽然实现起来比较方便,但只是简单地为匹配上的词添加超级链接,可能导致所添加的超级链接与文本的相关性较低。
发明内容
有鉴于此,本发明提供了一种为文本添加超级链接的方法以及一种为文本添加超级链接的装置,能够提高所添加的超级链接与文本的相关性,且实现起来简单方便。
为达到上述目的,本发明的技术方案是这样实现的:
一种为文本添加超级链接的方法,包括:
预先生成一个超链词列表,并收集各种文本,通过对各文本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率;
针对每个待添加超级链接的文本X,分别进行如下处理:
对文本X进行切词处理;
从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;
根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定出的权值,分别得到每个提取出的超链词的最终权值;
按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于前K位的超链词添加超级链接,K为正整数。
一种为文本添加超级链接的装置,包括:
预处理模块,用于预先生成一个超链词列表,并收集各种文本,通过对各文本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率;
添加模块,用于针对每个待添加超级链接的文本X,分别进行如下处理:
对文本X进行切词处理;
从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;
根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定出的权值,分别得到每个提取出的超链词的最终权值;
按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于前K位的超链词添加超级链接,K为正整数。
可见,采用本发明所述方案,通过统计收集到的文本中的词与词之间的共现关系,得到词与词之间的相关性,进而根据从待添加超级链接的文本中提取出的各超链词与提取出的各特征词的共性频率等得到提取出的各超链词的最终权重,并为最终权值较大的超链词添加超级链接,从而提高了所添加的超级链接与文本的相关性;而且,采用本发明所述方案后,可自动确定出为哪些词添加超级链接,无需人工操作,实现起来简单方便。
附图说明
图1为现有添加了超级链接的文本示意图。
图2为本发明为文本添加超级链接的方法实施例的流程图。
图3为本发明为文本添加超级链接的装置实施例的组成结构示意图。
具体实施方式
针对现有技术中存在的问题,本发明中提出一种为文本添加超级链接的方案,能够提高所添加的超级链接与文本的相关性,且实现起来简单方便。
为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
图2为本发明为文本添加超级链接的方法实施例的流程图。如图2所示,包括:
步骤21:预先生成一个超链词列表,并收集各种文本,通过对各文本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210087642.0/2.html,转载请声明来源钻瓜专利网。