[发明专利]一种从数据起源出发的数据处理方法及系统有效
| 申请号: | 202211060927.5 | 申请日: | 2022-09-01 |
| 公开(公告)号: | CN115544337B | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 王世今;莫卉星;刘珂杭;高铭;武欢欢 | 申请(专利权)人: | 睿智合创(北京)科技有限公司 |
| 主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/22;G06F16/242;G06F16/23 |
| 代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张树朋 |
| 地址: | 100000 北京市密云区鼓楼东大街3号山水*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 起源 出发 数据处理 方法 系统 | ||
1.一种从数据起源出发的数据处理方法,其特征在于,包括:
步骤1:根据初始数据的数据起源,确定数据分类的分类维度,具体为:
根据对所述初始数据的应用需求,确定分类角度;
从维度数据库中提取与所述分类角度一致的初始维度,并基于所述应用需求的重点,从所述初始维度中选取预设数目个目标维度;
建立所述目标维度在所述分类角度下的维度分布图,并判断所述维度分布图是否涵盖所述分类角度的所有方面;
若是,确定所述目标维度为进行数据分类的分类维度;
否则,确定缺失方面,并为所述缺失方面匹配最优的维度作为补充维度,将所述补充维度和目标维度共同组成进行数据分类的分类维度;
步骤2:根据所述初始数据的维度属性,对所述初始数据进行数据类型划分,得到维度数据,具体为:
基于所述分类维度的特点,设置在每个所述分类维度下的分析点和每个分析点的权重;
基于所述分类维度的分析点及其对应的权重,设置属性确定模型;
将所述初始数据输入所述属性确定模型中,确定所述初始数据的维度属性;
获取与所述维度属性对应的初始维度,作为所述初始数据的维度,得到对应的维度数据;
基于所述分类维度的分析点及其对应的权重,设置属性确定模型,包括:
基于所述分类维度,设定通道个数以及每个通道对应的属性,并基于所述通道个数和每个通道对应的属性,构建通道模型;
对所述分类维度的分析点进行分析,确定所述分析点之间的关联特征和分析顺序;
从数据分析库中获取与所述分析点对应的初始分析方式,并根据所述关联特征,选取存在关联的初始分析方式;
对所述存在关联的初始分析方式进行拆分确定子分析规则,选择所述存在关联的初始分析方式中的相同子分析规则,并确定所述相同子分析规则在所述初始分析方式中的位置;
基于所述相同子分析规则和位置,对存在关联的初始分析方式进行合并和简化,得到目标分析方式;
基于所述分析顺序,建立所述目标分析方式的分析流程,并获取与所述分析流程对应的分析资源,且基于所述分析资源,构建分析层;
基于所述分析点对应的权重,设置对应的计算规则,并基于所述计算规则构建评分层;
基于所述分析点对应的权重,建立所述分析层和评分层的第一连接关系;
将所述分析层和评分层,根据所述第一连接关系,在所述通道模型中建立数据分析规则;
所述通道模型中的每个通道与输出层进行连接;
所述输出层包括评分比较层,用于对每个通道的输出评分进行比较,并选取出最大评分值;
所述输出层还包括属性输出层,用于确定最大评分值对应的通道的属性,作为最终初始数据的维度属性;
基于所述通道模型和输出层,建立属性确定模型;
步骤3:根据所述维度数据的类型属性,对所述维度数据进行数据名称命名,得到数据类型名称,具体为:
根据所述维度数据的类型属性,确定在所述类型属性下的名称关键词;
根据所述维度数据在历史应用中的应用需求,确定所述维度数据的应用关键词;
其中,所述名称关键词和应用关键词为多个;
将所述名称关键词和应用关键词进行随机组合,得到第一数据名称;
将所述第一数据名称输入语义评分模型中,并根据评分结果从所述第一数据名称中选取评分值大于预设值的数据名称作为第二数据名称;
获取用于对于所述维度数据的历史搜索名称,并确定在历史搜索名称下,用户成功获取目标维度数据的概率,并基于所述概率,从所述历史搜索名称中获取最优搜索名称;
从所述第二数据名称中获取与所述最优搜索名称相似度大于预设相似值的数据名称作为第三数据名称;
在所述类型属性下,对所述维度数据进行关键词提取,得到数据关键词;
获取所述数据关键词与所述第三数据名称的适配度,并选取适配度最大的的第三数据名称作为第四数据名称;
基于数据处理系统的查询规则,设置数据名称格式,包括名称字数和名称文本属性;
判断所述第四数据名称是否满足所述数据名称格式;
若是,将所述第四数据名称作为所述维度数据的数据类型名称;
否则,确定所述第四数据名称不满足所述数据名称格式的具体内容;
若所述具体内容为名称字数,则根据所述类型属性对所述第四数据名称进行划分,得到多组字样,并基于字样与所述类型属性的匹配度,对所述第四数据名称的字数进行增加或删除,得到第五数据名称作为所述维度数据的数据类型名称;
若所述具体内容为名称文本属性,则从所述第四数据名称中提取出不满足名称文本属性的文字,基于所述名称文本属性,对所述文字进行相似性替换,得到满足所述名称文本属性的目标文字,并基于所述目标文字对所述第四数据名称进行修改,得到第六数据名称作为所述维度数据的数据类型名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于睿智合创(北京)科技有限公司,未经睿智合创(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211060927.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





