[发明专利]一种基于资讯内容提取的数据加工方法、系统在审
| 申请号: | 201710515733.2 | 申请日: | 2017-06-29 |
| 公开(公告)号: | CN107273534A | 公开(公告)日: | 2017-10-20 |
| 发明(设计)人: | 黄俊 | 申请(专利权)人: | 武汉楚鼎信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京卓唐知识产权代理有限公司11541 | 代理人: | 唐海力,韩来兵 |
| 地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 资讯 内容 提取 数据 加工 方法 系统 | ||
技术领域
本发明涉计算机软件领域,特别涉及一种基于资讯内容提取的数据加工方法、系统。
背景技术
资讯抓取,是指根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。资讯抓取还包括:网络数据采集/信息挖掘,从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库中。资讯抓取还可以采用:精准搜索引擎的解析内核,实现对网页内容的仿浏览器解析,在此基础上利用原创的技术实现对网页框架内容与核心内容的分离、抽取,并实现相似页面的有效比对、匹配。资讯抓取还可以包括:根据用户输入的关键字通过主流搜索门户在整个互联网上进行元搜索,然后将搜索结果页面采集下来。
现有技术中存在的缺陷在于:1)资讯抓取效果单一,无法分类提取;2)对资讯的深度处理能力不足;3)采集加工维度的加工方式单一,从而资讯的使用率较低。
发明内容
本发明要解决的技术问题是,提供一种可实现资讯热度、个股热度以及概念和题材的多维度处理的基于资讯内容提取的数据加工方法。
解决上述技术问题,本发明提供了一种基于资讯内容提取的数据加工方法,包括如下步骤:
抓取资讯内容到一临时数据库,
在所述临时数据库中根据设置的抓取属性抓取资讯内容,建立资讯内容池,
在所述资讯内容池中计算资讯热度,并按照热度等级编辑资讯内容,
将待编辑的资讯内容分派为不同类型的资讯内容维护任务,储放至业务数据库完成数据加工处理。
更进一步,所述抓取属性包括:资讯栏目分类、资讯浏览量、资讯评论数以及资讯转载量中的一种或者多种。
更进一步,在所述资讯内容池中计算资讯热度的方法具体包括:
对所述资讯内容池中的资讯进行排重筛选,得到重复资讯和核心资讯,
建立所述核心资讯和所述重复资讯的ID映射,
根据所述核心资讯统计出资讯的去重统计转载量和/或去重浏览量,
根据所述去重统计转载量和/或去重浏览量以及转载量计算出资讯热度,并将所述资讯热度分别按照:不同主题/类同主题,不同内容/重复转载内容的方式进行分类。
更进一步,方法还包括如下步骤:若所述资讯内容不需要编辑,则进入人工审核工作台,同时接受所述一根据重复资讯内容关联处理后得到的记录ID映射表。
更进一步,所述不同类型的资讯内容维护任务进一步包括:相关人物资讯、发布机构资讯、相关机构资讯、相关概念、相关行业、相关个股、资讯分类以及关键词。
更进一步,方法还包括:若没有所述相关概念若,则进行新增,若有,则进行引用。
更进一步,方法还包括:对所述相关个股,进行个股投资要点标识处理。
更进一步,所述资讯内容包括:资讯类、公告类或者研报类。
更进一步,所述资讯类编辑预处理规则至少包括:对标题、正文进行分类、分词、标签预处理;
所述正文加工预处理至少包括:公告类编辑预处理规则包括对标题进行分类,标签预处理,摘要预处理;
所述研报类编辑预处理规则至少包括:对标题进行分类;
通过上述预处理后的资讯类数据、公告类数据、研报类数据,提交到业务数据库。
基于上述,本发明还提供了一种基于资讯内容提取的数据加工系统,包括:资讯采集单元、热度计算单元、分类加工单元,
所述资讯采集单元,用以抓取资讯内容到一临时数据库,以及在所述临时数据库中根据设置的抓取属性抓取资讯内容,建立资讯内容池,
所述热度计算单元,用以在所述资讯内容池中计算资讯热度,并按照热度等级编辑资讯内容,
所述分类加工单元,用以将待编辑的资讯内容分派为不同类型的资讯内容维护任务,储放至业务数据库完成数据加工处理
本发明的有益效果:
采用本发明的方法,由于抓取资讯内容到一临时数据库,通过抓取资讯内容到临时库中从而进行结构化存储。由于在所述临时数据库中根据设置的抓取属性抓取资讯内容,建立资讯内容池,能够对临时表中结构化数据,加工成为支撑数据表,从而可供资讯第三方采集平台使用。由于在所述资讯内容池中计算资讯热度,并按照热度等级编辑资讯内容,通过增加热度计算,能够实现资讯热度的处理。由于将待编辑的资讯内容分派为不同类型的资讯内容维护任务,储放至业务数据库完成数据加工处理,通过人工分配资讯内容维护任务的方式,可实现资讯深度加工处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉楚鼎信息技术有限公司,未经武汉楚鼎信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710515733.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全码表多维数组交叉搜索方法及装置
- 下一篇:一种商标智能分析系统
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





