[发明专利]一种基于分布式计算的中医古籍大数据挖掘分析系统在审
申请号: | 202210572139.8 | 申请日: | 2022-05-25 |
公开(公告)号: | CN114822864A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 李兵;张华敏;张伟娜;刘思鸿;李斌;董燕;侯酉娟;李莎莎 | 申请(专利权)人: | 中国中医科学院中医药信息研究所;中国中医科学院中药研究所 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62;G06F40/289 |
代理公司: | 北京盛询知识产权代理有限公司 11901 | 代理人: | 刘静 |
地址: | 100000 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 计算 中医 古籍 数据 挖掘 分析 系统 | ||
1.一种基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,包括:
数据输入模块,用于输入古籍数据,提供数据支撑;
数据加工模块,与所述数据输入模块连接,用于对所述中医古籍数据进行分段,获得中医古籍的段落数据;
数据清洗模块,与所述数据加工模块连接,用于对所述段落数据进行标准化处理,获得标准化数据;
数据挖掘分析模块,与所述数据清洗模块连接,用于对所述标准化数据的术语词进行特征提取,统计所述术语词的出现频次;
数据处理模块,与所述数据挖掘分析模块连接,用于对所述挖掘分析模块提供可行性支持。
2.根据权利要求1所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,
所述清洗模块包含第一清洗单元、第二清洗单元;所述第一清洗单元,用于对所述古籍数据中的标准化词进行加壳操作;所述第二清洗单元,用于通过隐马尔可夫模型的分词算法、专业词表识别数据中的异名词,利用中医专业化词表对所述古籍数据进行标准化,剔除非标准化术语词,获得所述标准化数据。
3.根据权利要求1所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,所述挖掘分析模块包括:
关联规则单元,用于通过专业词表及所述古籍数据获得术语词之间的支持度,置信度,提升度指标;
点互信息单元,用于通过专业词表及所述古籍数据获得术语词之间的共现频次及点互信息指标;
卡方校验单元,用于通过专业词表及所述古籍数据获得术语词之间的卡方值;基于所述支持度、置信度、提升度指标、共现频次及点互信息指标,利用所述卡方值进一步验证术语词之间关系;
聚类分析单元,用于通过专业词表及所述古籍数据,依据不同的距离类型、不同的聚类方法进行层次聚类,提供聚类可视化展示;
社团分析单元,用于通过专业词表及所述古籍数据,利用贪心优化模块度社团分析算法,对术语词进行社团划分,并提供可视化展示;
复杂网络单元,用于通过专业词表及所述古籍数据,利用术语词共现频次构建复杂网络,通过节点间权重进行可视化展示。
4.根据权利要求3所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,
所述聚类分析单元包括尺度维度单元,所述尺度维度单元包括距离类型,聚类方法;
所述距离类型包括:欧式距离,切比雪夫距离,绝对值距离;
所述聚类方法包括:最大距离,最小距离,平均距离。
5.根据权利要求3所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,
所述聚类分析单元还包括层次聚类展示单元,所述层次聚类展示单元包括横向层次聚类图、纵向层次聚类图。
6.根据权利要求1所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,
所述处理模块包括Storm流式数据处理单元、存储单元、获取单元、分布式计算单元;
所述Storm流式数据处理单元,用于接收分布式信息流平台发送的实时请求,通过查询相关的段落数据并抽取出现术语词的特征,获得目标词表的特征;
所述存储单元,用于根据所述目标词表的特征,利用时间换空间的方法,将中间计算结果中冗余的数据存储到数据结构服务器中;
所述获取单元,用于选取合适的并行度、合适的进程数;
所述分布式计算单元,用于通过分布式计算,将所述古籍数据发送给Bolt消费者进行并行计算,获得分析成功的数据。
7.根据权利要求6所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,
所述Storm流式数据处理单元采用定时存储方式对临时结果进行存取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国中医科学院中医药信息研究所;中国中医科学院中药研究所,未经中国中医科学院中医药信息研究所;中国中医科学院中药研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210572139.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种磁流体变阻尼耗能支撑结构
- 下一篇:优化拍振噪音的方法及装置、空调器