[发明专利]基于自然语言的舆情追踪方法及装置在审
申请号: | 202310525692.0 | 申请日: | 2023-05-10 |
公开(公告)号: | CN116521877A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 李鑫;李锦涛;高敏敏;潘涛 | 申请(专利权)人: | 精英数智科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 邓超 |
地址: | 030000 山西省太原市小*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 舆情 追踪 方法 装置 | ||
1.一种基于自然语言的舆情追踪方法,其特征在于,所述方法包括:
根据目标主题获取原始互联网舆情;其中,所述原始互联网舆情包括多个舆情样本;
基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表;
基于所述标签库和所述目标主题对应的关键词对每个舆情样本的标签列表进行分类,得到与所述目标主题关联的第一类样本;
基于所述标签库为每个第一类样本标注相应的关键信息标签,并获取每个第一类样本的事件发生时间;
按照关键信息标签和事件发生时间将全部第一类样本聚合成一个或多个舆情集合,并对每个舆情集合进行舆情追踪。
2.根据权利要求1所述的方法,其特征在于,所述标签库包括多个第一标签,每个所述第一标签具有各自的标签属性;所述方法还包括:
对于每个第一类样本,基于该第一类样本对应第一标签的标签属性为该第一类样本标注相应的第二标签。
3.根据权利要求2所述的方法,其特征在于,所述第一标签包括表征目标主题对应的实体归属信息、人员状况信息以及事件类型信息。
4.根据权利要求2所述的方法,其特征在于,基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表的步骤包括:
对每个舆情样本的标题和内容进行切词,得到相应的切词结果;
基于每个舆情样本对应的切词结果,查询所述标签库以获取每个舆情样本的标签;其中,不同的标签对应不同的第一标签;
对每个舆情样本的标签进行去重,并将去重后的标签组成相应的标签列表。
5.根据权利要求1所述的方法,其特征在于,获取每个第一类样本的事件发生时间的步骤包括:
基于预先定义的事件中心词和正则表达式,通过正则匹配的方式提取出每个第一类样本的事件发生时间。
6.根据权利要求1或2所述的方法,其特征在于,对每个舆情集合进行舆情追踪的步骤包括:
从每个舆情集合中筛选出具有同一关键信息标签的第一舆情样本;
根据发布时间和具有关键信息标签的数量对每个舆情集合中的第一舆情样本进行清洗,清洗后得到相应的第一舆情集合;
对于每个第一舆情集合,按照发布时间对该第一舆情集合中的舆情样本进行排序,并基于该第一舆情集合的排序结果梳理出相应的发布时间线。
7.根据权利要求6所述的方法,其特征在于,对每个舆情集合进行舆情追踪的步骤还包括:
对于每个第一舆情集合,将该第一舆情集合中全部舆情样本的标签列表合并成一个总标签列表,并采用FPgrowth算法为该第一舆情集合的总标签列表建立相应的FP树。
8.根据权利要求7所述的方法,其特征在于,采用FPgrowth算法为该第一舆情集合的总标签列表建立相应的FP树的步骤包括:
扫描该第一舆情集合的总标签列表以生成频繁项集,并计算该频繁项集中各个频繁项间的置信度和提升度;
设置最小置信度和最小提升度,按照支持度由大到小的顺序对该频繁项集中的频繁项进行排序,并基于排序后的频繁项生成FP树。
9.根据权利要求8所述的方法,其特征在于,对每个舆情集合进行舆情追踪的步骤还包括:
对于每个第一舆情集合,基于该第一舆情集合的频繁项集中各个频繁项间的置信度和提升度,为该第一舆情集合的FP树中除叶子节点之外的每个节点分配相应的权重。
10.一种基于自然语言的舆情追踪装置,其特征在于,所述装置包括:
第一获取模块,用于根据目标主题获取原始互联网舆情;其中,所述原始互联网舆情包括多个舆情样本;
第二获取模块,用于基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表;
分类模块,用于基于所述标签库和所述目标主题对应的关键词对每个舆情样本的标签列表进行分类,得到与所述目标主题关联的第一类样本;
第一处理模块,用于基于所述标签库为每个第一类样本标注相应的关键信息标签,并获取每个第一类样本的事件发生时间;
第二处理模块,用于按照关键信息标签和事件发生时间将全部第一类样本聚合成一个或多个舆情集合,并对每个舆情集合进行舆情追踪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于精英数智科技股份有限公司,未经精英数智科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310525692.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于石斛生产的压片方法
- 下一篇:一种兼具复合治疗功能的碳晶体护理垫