[发明专利]一种概率主题计算与匹配的舆情监测方法及系统有效

申请号：	201710248537.3	申请日：	2017-04-17
公开（公告）号：	CN107066585B	公开（公告）日：	2019-10-01
发明（设计）人：	马坤;周劲;于自强;纪科	申请（专利权）人：	济南大学
主分类号：	G06F16/906	分类号：	G06F16/906
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250022 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种概率主题计算与匹配的舆情监测方法及系统；包括：数据采集解析：利用爬虫集群从数据源中采集页面HTML，然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据；爬虫集群采用异步方式将解析得到的文档存储在全文检索系统，采用同步方法将解析得到的文档进行主题匹配；中文分词：从全文检索系统中读取文档，将每个文档的标题与内容合并，对合并后的内容进行分词，分词后去掉停用词；主题估计：对分词后的内容估计出主题库与历史文档主题集；主题匹配：将数据采集实时推送的文档推断出实际文档主题集，并将实际文档主题集与用户输入的舆情监测关键词进行匹配，得到有序文档集，从而实现舆情监测。
搜索关键词：	文档解析爬虫分词集群匹配全文检索系统监测概率主题数据采集文档主题主题匹配页面采集读取历史文档媒体数据内容合并文档存储异步方式中文分词规则库数据源停用词文档集主题集主题库推送推断合并
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种概率主题计算与匹配的舆情监测方法，其特征是，包括：步骤(1)：数据采集：步骤(101)：数据采集解析：利用爬虫集群从数据源中采集页面HTML，然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据；解析出来的每一条媒体数据均被称作一篇文档，每篇文档包括标题、时间与内容；所述规则库包括一组选择器；所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档；所述选择器包括三种，分别是元素选择器、属性选择器、联合选择器；所述元素选择器通过HTML标签名称、HTML标签ID或HTML标签类名选择相应的元素；所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配或HTML标签属性值正则匹配选择相应的元素；所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素或相同父母元素的子元素选择相应的元素；步骤(102)：存储推送：所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统，采用同步方法将解析得到的文档推送至步骤(3)进行主题匹配；步骤(2)：主题计算：步骤(201)：中文分词：从全文检索系统中读取文档，将每个文档的标题与内容合并，利用条件随机场分词算法对合并后的内容进行分词，分词后去掉停用词；步骤(202)：主题估计：采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集；步骤(3)：主题匹配：将数据采集实时推送的文档推断出实际文档主题集，并将实际文档主题集与用户输入的舆情监测关键词进行匹配，得到有序文档集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于济南大学，未经济南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710248537.3/，转载请声明来源钻瓜专利网。

上一篇：基于能量流的船舶动力装置状态监控系统及监测方法
下一篇：具有缺陷探测电路的半导体芯片

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种概率主题计算与匹配的舆情监测方法及系统有效

专利文献下载