[发明专利]一种基于分布式计算的中医古籍大数据挖掘分析系统在审
申请号: | 202210572139.8 | 申请日: | 2022-05-25 |
公开(公告)号: | CN114822864A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 李兵;张华敏;张伟娜;刘思鸿;李斌;董燕;侯酉娟;李莎莎 | 申请(专利权)人: | 中国中医科学院中医药信息研究所;中国中医科学院中药研究所 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62;G06F40/289 |
代理公司: | 北京盛询知识产权代理有限公司 11901 | 代理人: | 刘静 |
地址: | 100000 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 计算 中医 古籍 数据 挖掘 分析 系统 | ||
本发明公开了一种基于分布式计算的中医古籍大数据挖掘分析系统,包括:数据输入模块、数据加工模块、数据清洗模块、数据挖掘分析模块、数据处理模块。数据输入模块,用于输入中医古籍数据;数据加工模块,用于对中医古籍数据进行分段,获得中医古籍的段落数据;数据清洗模块,用于对段落数据进行标准化处理,获得标准化数据;数据挖掘分析模块,用于对标准化数据的术语词进行特征提取,统计术语词的出现频次;数据处理模块,用于对挖掘分析模块提供可行性支持。该系统在传统古籍数据挖掘的基础上集成了Storm分布式平台,同时融入了各算法可视化模块,通过专业化词表解决了古籍挖掘盲目性以及数据量大时算法运行时间长的问题。
技术领域
本发明属于数据挖掘领域,特别是涉及一种基于分布式计算的中医古籍大数据分析系统。
背景技术
中医古籍是我国传统文化的宝贵财富,也是中国医学理论研究与应用的主要参考文献,中医古籍文献中的大量病例,对现代临床医学的发展有重要意义。随着大数据时代的到来,如何利用计算机技术分析、归纳、挖掘中医古籍中记载的诊疗与用药规律已成为现代中医药研究的重要方向之一。数据挖掘技术是从庞大的、缺失的、有噪声的、模糊的、随机的数据中提取隐藏的、潜在有价值的数据的过程。数据挖掘技术的自有特性为中医古籍信息的知识提取带来了新的机遇。在大数据时代,知识变的更加全面,这也使海量中医古籍数据的集成挖掘成为可能。
数据挖掘在中医古籍中的应用仍存在许多亟待解决的痛点问题,尽管大数据技术不强调结构化以及规范化数据,但古籍文献存在大量的一词多义、多词同义的现象,这对提取有价值的数据信息造成了很大困难。同时由于中医古籍中记载着病、证、方、药的海量知识及其相关关系,利用复杂网络、聚类分析等对其进行数据挖掘分析需要较多的时间和计算资源,如何针对中医古籍的知识挖掘特点,设计高效的数据挖掘计算模型与技术是中医古籍大数据知识发现的关键。
发明内容
本发明的目的是提供一种基于分布式计算的中医古籍大数据分析系统,以解决上述现有技术存在的问题。该系统在传统古籍数据挖掘的基础上集成了Storm分布式平台,同时融入了各算法可视化模块,通过专业化词表解决了古籍挖掘盲目性以及数据量大时算法运行时间长的问题。
为实现上述目的,本发明提供了一种基于分布式计算的中医古籍大数据分析系统,包括:
数据输入模块,用于输入古籍数据,提供数据支撑;
数据加工模块,与所述数据输入模块连接,用于对所述中医古籍数据进行分段,获得中医古籍的段落数据;
数据清洗模块,与所述数据加工模块连接,用于对所述段落数据进行标准化处理,获得标准化数据;
数据挖掘分析模块,与所述数据清洗模块连接,用于对所述标准化数据的术语词进行特征提取,统计所述术语词的出现频次;
数据处理模块,与所述数据挖掘分析模块连接,用于对所述数据挖掘分析模块提供可行性支持。
优选地,所述清洗模块包含第一清洗单元、第二清洗单元;所述第一清洗单元,用于对所述古籍数据中的标准化词进行加壳操作;所述第二清洗单元,用于通过隐马尔可夫模型的分词算法、专业词表识别数据中的异名词,利用中医专业化词表对所述古籍数据进行标准化,剔除非标准化术语词,获得所述标准化数据。
优选地,挖掘分析模块包括:
关联规则单元,用于通过专业词表及所述古籍数据获得术语词之间的支持度,置信度,提升度指标;
点互信息单元,用于通过专业词表及所述古籍数据获得术语词之间的共现频次及点互信息指标;
卡方校验单元,用于通过专业词表及所述古籍数据获得术语词之间的卡方值;基于所述支持度、置信度、提升度指标、共现频次及点互信息指标,利用所述卡方值进一步验证术语词之间关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国中医科学院中医药信息研究所;中国中医科学院中药研究所,未经中国中医科学院中医药信息研究所;中国中医科学院中药研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210572139.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种磁流体变阻尼耗能支撑结构
- 下一篇:优化拍振噪音的方法及装置、空调器