[发明专利]一种面向农业舆情的热词自动提取方法及系统有效
申请号: | 201711071454.8 | 申请日: | 2017-11-03 |
公开(公告)号: | CN107967299B | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 段青玲;张璐;刘怡然;刘春红;王凯 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F40/289;G06F40/216;G06F16/958 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 农业 舆情 自动 提取 方法 系统 | ||
本发明提供面向农业舆情的热词自动提取方法及系统,其中所述方法包括:步骤1,利用多标记分类算法对实验文本语料进行分类,按分类类别构建各语料库;步骤2,基于各语料库提取目标文本中的各至少两个候选热词;步骤3,利用基础词频的方法计算所述各候选热词的热度,热度最高的N个所述候选热词中的至少一个即为热词,N≥1。本发明具有能够较好地针对每个类别自动提取出热词,利于从事不同农业行业类别的用户群快速获取本行业的热点信息的有益效果。
技术领域
本发明涉及农业网站信息处理技术领域,更具体地,涉及一种面向农业舆情的热词自动提取方法及系统。
背景技术
随着互联网的蓬勃发展,农业网站信息呈现爆发式增长。互联网已经成为政府了解民情的直接渠道,也是新形势下管理部门的重要舆论阵地。只有及时发现互联网的热点信息,快速识别、处理有较大影响的重要事件,并进行定向跟踪,才可能更快更全面地掌握舆情动向,从而进行舆论的正面引导和宣传。我国从事农业行业的主体繁多,包括各级农业管理部门、涉农企业以及从事农林牧副渔等行业的农民。不同的主体对农业信息的关注点差异很大。所以,针对每个农业类别分别提取热词,有助于各行业了解国家相关政策信息、行业前沿信息,抓住行业新机遇,增强行业发展新动力。
热词是指由网民创造或发掘的、在网络上迅速传播并盛行的词汇或句子,反映了网民对某一公共事件和某种社会现象的看法、态度和评价。目前在热词提取方法方面主要针对整个互联网信息开展研究,也有针对教育、体育、社会等特有领域进行研究的,但是农业领域的研究较少。
在对农业网站信息进行热词自动提取的过程中,如何提高热词候选词挑选的合理性和全面性、如何提高热词候选词热度计算的正确性,确保高效准确地完成热词自动提取任务,是一个亟待解决的问题。
发明内容
本发明为克服上述问题或者至少部分地解决上述问题,提供面向农业舆情的热词自动提取方法及系统。
根据本发明的一个方面,提供一种面向农业舆情的热词自动提取方法,包括:
步骤1,利用多标记分类算法对实验文本语料进行分类,按分类类别构建各语料库;
步骤2,基于各语料库提取目标文本中的各至少两个候选热词;
步骤3,利用基础词频的方法计算所述各候选热词的热度,热度最高的N个所述候选热词中的至少一个即为热词,N≥1。
根据本发明的另一方面,提供一种面向农业舆情的热词自动提取系统,包括:
获取模块,用于利用多标记分类算法对实验文本语料进行分类,按分类类别构建各语料库;
提取模块,用于分别提取各语料库中存在的各至少两个候选热词;
计算模块,利用基础词频的方法计算所述各候选热词的热度,热度最高的N个所述候选热词中的至少一个即为热词,N≥1。
根据本发明另一方面,提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述任一所述的方法。
根据本发明另一方面,提供一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述任一所述的方法。
本申请提出面向农业舆情的热词自动提取方法及系统,所述方法能够较好地针对每个类别自动提取出热词,利于从事不同农业行业类别的用户群快速获取本行业的热点信息。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711071454.8/2.html,转载请声明来源钻瓜专利网。