[发明专利]一种基于URL的中文多语义名词的在线语义挖掘系统无效

专利信息
申请号: 201310431789.1 申请日: 2013-09-22
公开(公告)号: CN103488741A 公开(公告)日: 2014-01-01
发明(设计)人: 刘一正 申请(专利权)人: 华东师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海蓝迪专利事务所 31215 代理人: 徐筱梅;张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于URL的中文多语义名词的在线语义挖掘系统,该系统利用基于URL的网页分类方法,能在线对中文多语义词进行语义挖掘,其过程:首先,通过在线URL分类目录,构建得到URL分类器;然后,借助于URL分类器,对搜索引擎返回的多语义词的搜索结果(包括网页URL及摘要)进行分类,得到多语义词的初始语义分类结果;最后,对初始语义分类结果按其网页摘要聚类,得到多语义词的语义挖掘结果。本发明提出的语义挖掘具有较为理想的准确率及召回率,且高度适用于网络热词语义挖掘。
搜索关键词: 一种 基于 url 中文 语义 名词 在线 挖掘 系统
【主权项】:
一种基于URL的中文多语义名词的在线语义挖掘系统,其特征在于该系统包括基于URL的语义分类模块及语义生成模块,其中:所述基于URL的语义分类模块利用互联网网页中URL中的语义特征,对中文多语义词的搜索结果进行语义分类;其该模块的生成:中文权威网站发布并更新URL网址分类目录,此目录会对其收录的网站URL及其对应的语义类别;根据多个权威网站的网页目录,对其收录的网页URL及对应的语义分类进行归纳、去重,以构建URL分类器; URL分类器为树状结构,树中叶子结点即为其收录的网站主页URL,非叶子结点则为其子结点的语义类别; 所述基于URL的语义生成模块根据中文多语义词搜索结果中的网页摘要部分,对基于URL语义分类模块中所得结果进行聚类,并采用top‑N筛选出每类的特征词,作为多语义词的语义分类结果;其该模块的多语义词的语义生成过程:ⅰ)对于构建的URL分类器所得的初始语义分类中的网页摘要进行分词处理,并按改进的基于词频的方法选取特征词;ⅱ)根据所得特征词,对网页摘要进行聚类,聚类方法为Single‑link聚类; ⅲ)采用top‑N,对每类选取一组特征词,表示最终的语义挖掘结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310431789.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top