[发明专利]一种概率主题计算与匹配的舆情监测方法及系统有效

专利信息
申请号: 201710248537.3 申请日: 2017-04-17
公开(公告)号: CN107066585B 公开(公告)日: 2019-10-01
发明(设计)人: 马坤;周劲;于自强;纪科 申请(专利权)人: 济南大学
主分类号: G06F16/906 分类号: G06F16/906
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 黄海丽
地址: 250022 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种概率主题计算与匹配的舆情监测方法及系统;包括:数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档进行主题匹配;中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,对合并后的内容进行分词,分词后去掉停用词;主题估计:对分词后的内容估计出主题库与历史文档主题集;主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集,从而实现舆情监测。
搜索关键词: 文档 解析 爬虫 分词 集群 匹配 全文检索系统 监测 概率主题 数据采集 文档主题 主题匹配 页面 采集 读取 历史文档 媒体数据 内容合并 文档存储 异步方式 中文分词 规则库 数据源 停用词 文档集 主题集 主题库 推送 推断 合并
【主权项】:
1.一种概率主题计算与匹配的舆情监测方法,其特征是,包括:步骤(1):数据采集:步骤(101):数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;所述规则库包括一组选择器;所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档;所述选择器包括三种,分别是元素选择器、属性选择器、联合选择器;所述元素选择器通过HTML标签名称、HTML标签ID或HTML标签类名选择相应的元素;所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配或HTML标签属性值正则匹配选择相应的元素;所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素或相同父母元素的子元素选择相应的元素;步骤(102):存储推送:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至步骤(3)进行主题匹配;步骤(2):主题计算:步骤(201):中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;步骤(202):主题估计:采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集;步骤(3):主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710248537.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top