[发明专利]基于公文标题的热门话题数据处理方法、装置及电子设备在审
申请号: | 202110827216.5 | 申请日: | 2021-07-21 |
公开(公告)号: | CN113536779A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 刘志远;苗功勋;赖成宾;王超;熊英超;韦文峰 | 申请(专利权)人: | 南京中孚信息技术有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/211;G06F40/295;G06F16/35;G06F16/34 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 王思楠 |
地址: | 210000 江苏省南京市浦口区江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 公文 标题 热门话题 数据处理 方法 装置 电子设备 | ||
本申请提供了一种基于公文标题的热门话题数据处理方法、装置及电子设备,涉及数据处理技术领域,缓解了感知公文热点话题较难的技术问题。该方法包括:获取多个待分析公文标题;对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题;利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种基于公文标题的热门话题数据处理方法、装置及电子设备。
背景技术
目前,随着大数据时代来临,互联网走进千家万户,成为人们获取信息的最重要的途径。然而,在互联网信息资源极大丰富的同时,“信息冗余”、内容难以治理等问题也日益凸显。
国内外关于热门话题的研究比较少,多集中于研究热门话题的传播机制、从计算机技术层面分析热门话题的检测和跟踪技术,热门话题意义生成的符号学分析等,从传播学角度展开的论述还不够深入,没有达到系统化的程度。例如,浙江大学杨冠超的《微博热点话题发现策略研究》、哈尔滨工业大学丁伟莉的《中文Blog热门话题检测与跟踪技术研究》都是从计算机技术层面分析微博热门话题的热度预测模型与跟踪技术;余达明提出了双结构网络中的热门话题演化机制以及应用研究,该方法在LDA模型的基础上,通过命名实体表征聚类的话题,衡量话题的演化过程,达到了对海量新闻网页进行自动、高效的话题挖掘效果。所以,现有技术感知热门话题的难度较大。
发明内容
本申请的目的在于提供一种基于公文标题的热门话题数据处理方法、装置及电子设备,以缓解感知公文热点话题较难的技术问题。
第一方面,本申请实施例提供了一种基于公文标题的热门话题数据处理方法,所述方法包括:
获取多个待分析公文标题;
对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题;
利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
在一个可能的实现中,所述方法还包括:
获取多个历史公文标题,所述历史公文标题中包括多个名称实体及日期实体;
对所述名称实体及所述日期实体进行标注,并利用标注的所述名称实体、所述日期实体及基于条件随机场对实体识别模型进行训练,得到目标实体识别模块,所述目标实体识别模块包括多个预设名称实体及预设日期实体。
在一个可能的实现中,对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题的步骤,包括:
利用所述目标实体识别模块对多个所述待分析公文标题进行识别;
当识别到所述日期实体时,对包含所述日期实体的待分析公文标题进行过滤,得到过滤后的多个第一文本标题。
在一个可能的实现中,利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题的步骤,包括:
利用均值算法对所述第一文本标题进行聚类,得到两个第一子集;
对所述第一子集执行所述利用均值算法对所述第一文本标题进行聚类的步骤,直至得到若干第二子集,所述第二子集为话题簇;
对每个所述话题簇的关键词进行词频统计及标准差过滤;
对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
在一个可能的实现中,对每个所述话题簇的关键词进行词频统计及标准差过滤的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中孚信息技术有限公司,未经南京中孚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110827216.5/2.html,转载请声明来源钻瓜专利网。