[发明专利]一种概率主题计算与匹配的舆情监测方法及系统有效
申请号: | 201710248537.3 | 申请日: | 2017-04-17 |
公开(公告)号: | CN107066585B | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 马坤;周劲;于自强;纪科 | 申请(专利权)人: | 济南大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种概率主题计算与匹配的舆情监测方法及系统;包括:数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档进行主题匹配;中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,对合并后的内容进行分词,分词后去掉停用词;主题估计:对分词后的内容估计出主题库与历史文档主题集;主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集,从而实现舆情监测。 | ||
搜索关键词: | 文档 解析 爬虫 分词 集群 匹配 全文检索系统 监测 概率主题 数据采集 文档主题 主题匹配 页面 采集 读取 历史文档 媒体数据 内容合并 文档存储 异步方式 中文分词 规则库 数据源 停用词 文档集 主题集 主题库 推送 推断 合并 | ||
【主权项】:
1.一种概率主题计算与匹配的舆情监测方法,其特征是,包括:步骤(1):数据采集:步骤(101):数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;所述规则库包括一组选择器;所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档;所述选择器包括三种,分别是元素选择器、属性选择器、联合选择器;所述元素选择器通过HTML标签名称、HTML标签ID或HTML标签类名选择相应的元素;所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配或HTML标签属性值正则匹配选择相应的元素;所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素或相同父母元素的子元素选择相应的元素;步骤(102):存储推送:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至步骤(3)进行主题匹配;步骤(2):主题计算:步骤(201):中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;步骤(202):主题估计:采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集;步骤(3):主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710248537.3/,转载请声明来源钻瓜专利网。