[发明专利]一种基于网站的中文新闻信息多维度分类制作方法在审
申请号: | 201710446916.3 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107315789A | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 梁世安;陶友青;王军;谭诗济;喻庆达 | 申请(专利权)人: | 南昌航空大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南昌洪达专利事务所36111 | 代理人: | 刘凌峰 |
地址: | 330038 江西*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网站 中文 新闻 信息 多维 分类 制作方法 | ||
技术领域
本发明涉及基于网站的信息分类方法,具体涉及一种基于网站的中文新闻信息多维度分类制作方法。
背景技术
新闻是“对新近发生的事实的报道 ”。新闻使用简练的文字概括 了丰富的信息并频繁更新 ,且通过公开媒体传播时代 ,丰富了新闻的来源 , 加速了新闻的传播 。但面对爆炸式增长且杂乱无序的 新闻 ,用户获取所需信息的难度增加 ,因此 ,迫切地需要对新闻进行有效的信息组织。
在2017年4月19日上午在京召开网络安全和信息化工作座谈会,强调按照创新、协调、绿色、开放、共享的发展理念推动我国经济社会发展,是当前和今后一个时期我国发展的总要求和大趋势,我国网信事业发展要适应这个大趋势,在践行新发展理念上先行一步,推进网络强国建设,推动我国网信事业发展,让互联网更好造福国家和人民。
加强网络信息引导和管理,规范公众舆论参与,是提升政府网络执政能力的必要措施。新媒体时代政府信息公开具有两种方式:一是公告,二是根据申请要求实行信息公开。同时,应从创新舆情引导机制,提升政府舆论监督能力;加强网络执政能力,有效进行网络舆情引导;提升舆情危机的应急处理能力等三个方面着手,不断强化网络舆情的正面引导,才能形成系统、科学、有效的网络舆情引导机制。
信息是市场经济的一大支撑。现今社会离不开新闻。但是现今政府新媒体,社会商业媒体的中文新闻信息存在以下的缺陷和不足:
1、缺乏通用的标准语料和评价方法:国内没有统一的新闻分类标准。现有的一些中文新闻语料库 ,如搜狗的中文新闻语料库 、中国科学院自动化研究所的中文新闻分类语料库 ,所采用的分类体系都过于简单 ,不利于新闻自动分类的研究 。而且在新闻重要性的评价方法上 ,也还需要探索适用于中文的评价方法。
2、新闻噪声影响新闻分类质量:网络新闻的真实性不足,常有新闻标题与正文不一 、正文前后表述不一 、标题娱乐媚俗 、夸张报道。对失真的新闻做文本分类 ,文本表示环节会明显受到干扰 ,进而导致分类结果不具有实际意义 ,如一些新闻文不对题 ,在分类过程中会由于标题权重较高导致分类结果受影响,还于一些报道过于夸张 ,使得情感特征词的情感倾向被夸大 ,进而影响情感分类的结果。
3、分类体系过于简单 ,不利于深度分析:当前网络新闻分类研究中的分类体系过于简单,多采取人为选定类别的方法 ,选定的分类体系类目少、层次少、类目间区分度大 ,趋于理想化。这与复杂的实际应用环境相背离 。现实中 ,随着待分类新闻的数量增加 ,新闻的相似度增加,粗分类已不能满足用户需求 ,需要依赖更为科学的分类体系。
4、分类维度太过单一:当前网络新闻的分类多是从主题维度进行的。对于海量的新闻内容 ,应该提供多人口,实现分类的多维化 。目前 ,已有从时间维度进行话题跟踪 、从情感维度进行情感倾向性分析、从地理位置维度进行分类的研究,但综合多个维度的研究仍少之又少,这是未来的一个研究方向 。
5、新闻专题平面化 ,缺乏深度:用户对于主题或事件的全方位认知需求推动了网络新闻专题的发展 。新闻专题应该是一种深度报道,但是当前较多专题质量不高 ,通常只是相关信息的简单罗列堆积 ,虽然实现了信息的集成 ,却忽视了信息间的层次关系 ,缺少条理性和逻辑性 ,也缺乏系统性的梳理 、归纳和总结,给用户冗余、杂乱的感觉 。
6、没有进行组合分析:一个新闻不一定仅仅涉及到单一的方面,有可能涉及多方面。
情感包括喜爱,敬佩,高兴,欣喜,惊讶,同情,反思,忧伤,哀痛,痛恨,悲伤,反省,恐惧,厌恶,愤怒等情感。情感是人最难控制的,分析的东西,需要用别的东西去形象化它。
发明内容
本发明的目的是针对上述问题,提供一种基于网站的中文新闻信息多维度分类制作方法,从多维度将新闻信息进行细化的分类,归类清晰,便于新闻信息后续的查找和深入分析。
本发明的技术方案是这样实现的,一种基于网站的中文新闻信息多维度分类方法,其特征在于,其方法步骤为:
A.分析新闻分类;
B.定义五个分类级别:
(1)第一分类级别为事件涉及的地域范围:国际范围,国家范围,省份范围,市区范围,群体范围,个人范围;
(2)第二分类级别为新闻信息的来源涉及的人群职业:百姓,学生,父母,明星,工人,务工人员,商家,军人,官员,老师,农民,黑社会,闲散人员;
(3)第三分类级别为事件涉及的大范围的客观分类,具体为:
政治
法律、司法
对外关系、国际关系
军事
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌航空大学,未经南昌航空大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710446916.3/2.html,转载请声明来源钻瓜专利网。