[发明专利]一种基于URL的中文多语义名词的在线语义挖掘系统无效
申请号: | 201310431789.1 | 申请日: | 2013-09-22 |
公开(公告)号: | CN103488741A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 刘一正 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海蓝迪专利事务所 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于URL的中文多语义名词的在线语义挖掘系统,该系统利用基于URL的网页分类方法,能在线对中文多语义词进行语义挖掘,其过程:首先,通过在线URL分类目录,构建得到URL分类器;然后,借助于URL分类器,对搜索引擎返回的多语义词的搜索结果(包括网页URL及摘要)进行分类,得到多语义词的初始语义分类结果;最后,对初始语义分类结果按其网页摘要聚类,得到多语义词的语义挖掘结果。本发明提出的语义挖掘具有较为理想的准确率及召回率,且高度适用于网络热词语义挖掘。 | ||
搜索关键词: | 一种 基于 url 中文 语义 名词 在线 挖掘 系统 | ||
【主权项】:
一种基于URL的中文多语义名词的在线语义挖掘系统,其特征在于该系统包括基于URL的语义分类模块及语义生成模块,其中:所述基于URL的语义分类模块利用互联网网页中URL中的语义特征,对中文多语义词的搜索结果进行语义分类;其该模块的生成:中文权威网站发布并更新URL网址分类目录,此目录会对其收录的网站URL及其对应的语义类别;根据多个权威网站的网页目录,对其收录的网页URL及对应的语义分类进行归纳、去重,以构建URL分类器; URL分类器为树状结构,树中叶子结点即为其收录的网站主页URL,非叶子结点则为其子结点的语义类别; 所述基于URL的语义生成模块根据中文多语义词搜索结果中的网页摘要部分,对基于URL语义分类模块中所得结果进行聚类,并采用top‑N筛选出每类的特征词,作为多语义词的语义分类结果;其该模块的多语义词的语义生成过程:ⅰ)对于构建的URL分类器所得的初始语义分类中的网页摘要进行分词处理,并按改进的基于词频的方法选取特征词;ⅱ)根据所得特征词,对网页摘要进行聚类,聚类方法为Single‑link聚类; ⅲ)采用top‑N,对每类选取一组特征词,表示最终的语义挖掘结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310431789.1/,转载请声明来源钻瓜专利网。
- 上一篇:食品成型滚筒
- 下一篇:一种无锁数据汇聚方法及装置