[发明专利]一种网页信息数据挖掘通用方法在审
申请号: | 201810254857.4 | 申请日: | 2018-03-26 |
公开(公告)号: | CN108509571A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 刘莎 | 申请(专利权)人: | 刘莎 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400000 重庆市九*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页信息 关键词搜索 数据挖掘 全文关键字 搜索结果 通用数据 系统分析 信息分类 信息特征 摘要提取 系统化 权重 通用 挖掘 应用 | ||
本发明在对网页信息全文关键字搜索结果进行信息特征系统分析的基础之上,针对网页信息数据挖掘中主要难点:信息分类及其权重、关键词搜索及其摘要提取,提供了系统化的全新解决方案。该方法不仅是网页信息通用数据挖掘的系统方法,并且在根本改善网页信息全文关键词搜索领域具有重要和普遍的应用价值。
技术领域
本发明涉及计算机及通信领域,特别是涉及互联网信息数据挖掘通用方法。
背景技术
在数据挖掘领域,面向各类用户提供互联网信息数据挖掘服务,无疑是数据挖掘服务的最大应用市场。但网页信息的80%左右是半结构或无结构文本信息,导致互联网信息数据挖掘服务质量差,效率低下。
如何才能根本改善网页信息的通用化分类水平及摘要抽取质量,是互联网信息数据挖中迫切需要解决的重大问题。为了解决网页信息的数据挖掘这一难点,提高互联网信息数据挖掘质量,发明人对网页信息全文关键字搜索结果进行了信息特征分析,发现了互联网信息组织结构的双十定律:(参见图1)。无论在全文关键词搜索框中输入任意关键字(例如:国家发改委、苹果公司、智能手机、云计算、普金、世界杯、欧美大片……),其相关信息的高频顶层分类均在10项左右。例如,任意主题关键字的相关信息高频顶层分类结果均包括:新闻、公告、知识、产品、服务、论坛、点播/下载、论坛、微博/微信、大黄页。并且,每个信息分类下的常用高频信息组织结构词也在10项左右。
例如:招聘、应聘、征婚、交友等不同功能信息的常用高频通用组织结构词均包括:交往目的、年龄、性别、学历、职业、性格、爱好.....。因此,均属于“人际交往”类信息。
根据上述互联网信息组织双十定律,本发明提供一种网页信息通用数据挖掘方法(包括各种非结构化文本信息),以提高互联网信息数据挖掘通用服务的质量与效率。
发明内容
本发明提供一种网页信息数据挖掘通用方法,以根本改善互联网信息数据挖掘通用服务质量与效率。其主流程如下:
获得数据挖掘组织结构词及数据挖据内容关键词;
用获得的数据挖掘组织结构词匹配网页信息全文关键词;
根据数据挖掘组织结构词与网页信息全文关键词的匹配结果判断网页信息类型;
在已确定信息类型的网页信息中,用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数;
根据匹配成功的网页信息组织结构词、网页信息内容关键词以及获得的关键词参数抽取和整理网页信息摘要;
用获得的与数据挖掘目的相匹配的数据挖掘算法处理抽取到的网页信息摘要;
将网页信息摘要处理结果转换为用户所需的数据挖掘可视化结果并进行显示。
其中,
所述的数据挖掘组织结构词,是指从数据挖掘需求方获得的互联网信息通用顶层组织结构词及相关下层组织结构词。
所述的数据挖据内容关键词,是指从数据挖掘需求方获得的数据挖掘组织结构词下的关键词。
所述的网页信息全文关键词,是指任意网页文字信息中的可直接检索到的关键词,但不包括关键词属性标记。
所述的网页信息组织结构词,是指用数据挖掘方提供的数据挖掘组织结构词检索到的网页信息关键词。
所述的网页信息内容关键词,是指用数据挖掘方提供的数据挖掘内容关键词检索到的网页信息关键词。
所述的关键词参数,是指在进行网页信息摘要抽取和整理时为关键词匹配结果提供的辅助性参数。
所述的网页信息类型,是指可对任意网页信息进行通用分类的网页信息类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘莎,未经刘莎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810254857.4/2.html,转载请声明来源钻瓜专利网。