[发明专利]一种网页信息数据挖掘通用方法在审
申请号: | 201810254857.4 | 申请日: | 2018-03-26 |
公开(公告)号: | CN108509571A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 刘莎 | 申请(专利权)人: | 刘莎 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400000 重庆市九*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明在对网页信息全文关键字搜索结果进行信息特征系统分析的基础之上,针对网页信息数据挖掘中主要难点:信息分类及其权重、关键词搜索及其摘要提取,提供了系统化的全新解决方案。该方法不仅是网页信息通用数据挖掘的系统方法,并且在根本改善网页信息全文关键词搜索领域具有重要和普遍的应用价值。 | ||
搜索关键词: | 网页信息 关键词搜索 数据挖掘 全文关键字 搜索结果 通用数据 系统分析 信息分类 信息特征 摘要提取 系统化 权重 通用 挖掘 应用 | ||
【主权项】:
1.一种网页信息数据挖掘通用方法,其特征在于包括以下步骤:获得数据挖掘组织结构词及数据挖据内容关键词;用获得的数据挖掘组织结构词匹配网页信息全文关键词;根据数据挖掘组织结构词与网页信息全文关键词的匹配结果判断网页信息类型 ;在已确定信息类型的网页信息中,用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数;根据匹配成功的网页信息组织结构词、网页信息内容关键词以及获得的关键词参数抽取和整理网页信息摘要;用获得的与数据挖掘目的相匹配的数据挖掘算法处理抽取到的网页信息摘要;将网页信息摘要处理结果转换为用户所需的数据挖掘可视化结果并进行显示;其中,所述的数据挖掘组织结构词,是指从数据挖掘需求方获得的互联网信息通用顶层组织结构词及相关下层组织结构词;所述的数据挖据内容关键词,是指从数据挖掘需求方获得的数据挖掘组织结构词下的关键词;所述的网页信息全文关键词,是指任意网页文字信息中的可直接检索到的关键词,但不包括关键词属性标记;所述的网页信息组织结构词,是指用数据挖掘方提供的数据挖掘组织结构词检索到的网页信息关键词;所述的网页信息内容关键词,是指用数据挖掘方提供的数据挖掘内容关键词检索到的网页信息关键词;所述的关键词参数,是指在进行网页信息摘要抽取和整理时提供的辅助性参数;所述的网页信息类型,是指可对任意网页信息进行通用分类的网页信息类型;所述的获得网页信息数据挖掘组织结构词及数据挖据内容关键词的方法,包括从网页信息数据挖掘人机交互通用模板上获得数据挖掘组织结构词、数据挖据内容关键词;其中所述的网页信息数据挖掘人机交互通用模板的预设内容包括:主题关键词输入框,各项分类下的数据挖掘通用组织结构词以及该数据挖掘组织结构词下的数据挖据内容关键词输入框和供用户选择数据挖掘相关需求及挖掘目的自由输入框。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘莎,未经刘莎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810254857.4/,转载请声明来源钻瓜专利网。