[发明专利]一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统有效
申请号: | 202010553296.5 | 申请日: | 2020-06-17 |
公开(公告)号: | CN111916215B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 龚开政;殷旭东;王磊;朱毅;章永龙;李斌;孙小兵 | 申请(专利权)人: | 扬州大学附属医院 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H10/60;G16H50/30;G06N3/04;G06N3/08 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 周新楣 |
地址: | 225000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 群集 慢性 疾病 早期 自动 报警 初步 特征 分析 风险 评估 系统 | ||
1.一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,其特征在于,包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块;其中,
病例信息收集模块:利用医院门诊电子病历系统、住院病历系统以及患者随访系统,利用数据标识实现区域性病人诊治信息的关键数据信息提取,形成数据集成中心,数据信息提取包括患者的个人一般性社会、生物学信息,病情相关信息,社会活动信息;
进行数据信息提取时,按如下步骤进行:
1.1.构建基于病人诊治数据的知识图谱:
对不同系统中的信息进行实体抽取、属性-值对抽取、关系抽取;从无结构文本中识别具有特定意义的实体;针对实体抽取的任务,将其转化为序列标注问题,利用BIO规范对语料进行标注;针对从文本中自动选择特征,采用基于神经网络的方法自动学习特征;最后利用概率模型对文本进行标签预测;具体步骤如下:
1.1.1采用Word2Vec工具进行词向量训练,词向量的训练是从海量的未标注文本中通过无监督的语言模型训练而得到;
1.1.2.采用训练双向长短记忆网络BiLSTM把词向量表示的文本输入到神经网络模型中,学习文本间词语的隐层表示,该网络由一个前向记忆网络LSTMF和一个后向记忆网络LSTMB组成,前者用于学习前向的序列信息,后者学习后向的序列信息,最后得到每个词的隐层表示hi=[Fi,Bi];BiLSTM输出每个字或词的标签分数,为了考虑词汇之间的关联性,在BiLSTM的输出层加入CRF层学习标签之间的关系,而不是独立进行标注;假设输入文本为X=(x1,x2,...,xi…,xn),标签序列为Y=(y1,y2,…,yi,...yn),则CRF对序列标注的打分函数如公式(1)所示:
其中:
式中fk和hj为特征函数,λk和μj为对应的权值,yi是第i个文本输入xi的标签,Z(x)是归一化因子;
对于一个输入序列,其标签序列根据最大分类概率计算:
y*=arg max P(y]x) (3)
1.1.3.关系抽取首先采用哈工大LTP自然语言处理工具对文本进行分词、词性标注;将每个单词映射到一个低维,稠密的向量空间;引入位置信息,距离信息,把位置信息、距离信息表示成位置距离向量;最后拼接词向量、词性向量、位置距离向量生成针对句子中的每个词对应的向量;采用卷积神经网络对输入向量进行特征提取;最后通过softmax函数预测实体关系的分类;
1.2.对医院门诊电子病历系统、住院病历系统以及患者随访系统中的病人诊治信息进行知识融合:
处理包括实体冲突、属性冲突、关系冲突的问题,同时对相同实体包含的信息进行融合和聚集;具体步骤如下:
1.2.1利用Doc2Vec句子表示方法对未被对齐实体与被对齐实体的实体与上下文文本属性信息进行表示,得到两组实体向量e1和e2,接着计算两组向量的相似度,得到未被对齐实体的本地得分如果未被对齐实体的本地得分大于预先设定的阈值α,则把该未被对齐实体加入到候选融合实体集合C中;
1.2.2对被对齐实体所有有关系的实体进行同步消岐,采用设计条件随机场模型,如公式(4)所示,并且利用置信传播算法对条件随机场模型进行训练和预测;最后迭代得出使公式(4)取得最大值的每个目标实体;得出的目标实体即为需要与被对齐实体融合的实体;
其中e为候选实体集合,me为同步消岐的实体集合,为实体ei的本地得分,ω(ei,ej)为候选实体之间的关系得分;
1.2.3.采用计算词语相似度的方法解决属性对齐和关系对齐问题,把属性词语训练成词向量,通过相似度计算方法计算两个词向量之间的相似度,若相似度大于设定的阈值,则认为两个属性是对齐的;
活动轨迹追踪模块:利用患者使用的可公布、共享的定位方式,或与移动通讯运营商协议,经主管部门允许,通过患者手机终端获得患者物理空间GPS定位信息,自动对预设地区就诊人群在特定时间段内具有相同患者活动轨迹的特定事件进行群集性分析,包括活动轨迹提取及聚类分析;
活动轨迹追踪模块工作时,包括如下步骤:
2.1活动轨迹获取:
利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间戳四维信息,同时对冗余轨迹数据进行压缩;
轨迹数据由一系列的数据点构成,用P=(p1,p2,…,pi,…pn)表示;具体步骤如下:
2.1.1.利用滑动窗口W和均值技术从轨迹数据中滤除噪点,得到处理后的数据点集P'=(p'1,p'2,…,p'i,p'i+1,…,p'k);
2.1.2.对上述数据点集进行停留点检测,所述停留点是指具有代表性的数据点,使数据点集就变成有意义的地方集;
首先,检查定位点p'i与其后继者p'i+1之间的距离是否大于给定阈值的轨迹;然后,它测量定位点和距离阈值内的最后一个后继p'k之间的时间间隔;如果时间间隔大于给定的阈值,则该定位点为停留点;最后从p'k的后继点迭代检查,直到所有数据点集检查完;
2.1.3.进行轨迹压缩;在步骤2.1.2获得的数据点集的基础上,采用道格拉斯-普克算法进行压缩,过程如下:
将曲线的首末点连成一条直线,求曲线上所有点到直线的垂直距离,并找出最大距离值dmax;
用dmax与预设的阈值D相比,若dmax<D,则将该曲线所有点舍去,用直线取代曲线,该曲线处理完毕;
否则,保留dmax对应的坐标点,并以该点为界,将曲线划为两部分,重复上述步骤,直到所有dmax均小于D,即完成对曲线的压缩;
当所有曲线都处理完毕时,依次连接各个分割点形成的折线,即为原始曲线的路径;
2.2.活动轨迹数据分析:
通过对预处理后轨迹数据,分析与获取有价值的信息,通过时空环境中事故调查、群体跟踪;发现频繁时序模式,通过公共性规律或公共性频繁路径,进行地点预测、病员相似性估计;通过周期性的活动行为,预测病员未来的行为;具体步骤如下:
2.2.1.进行轨迹相似性度量,通常用一个距离函数来计算;首先,定义点与轨迹之间的相似性,假定点q与轨迹A,q与A之间的相似性通常定义如下:
p'为轨迹A上按照d(.)计算距离最小的点;在计算两个点距离时,选择L-P范数,以欧氏距离,切比雪夫距离或曼哈顿距离计算方法计算距离;
接着,通过计算EDR距离来确定轨迹与轨迹的相似性,EDR距离如下:
h,r为轨迹A,B的长度;subcost定义为:
给定轨迹Aa1,a2,...aha和轨迹Bb1,b2,...brb,Head(A)表示a1,Rest(A)表示a2,a3...aha;
2.2.2.对轨迹进行聚类,分析公共规律行为;采用密度聚类算法DBSCAN,其核心思想:发现密度大于预设阈值的点,然后把相近的高密度点逐步都连成一片,进而生成各种簇;对于给定的线段集合D,算法输出聚类集合0,对于输入的每条线段,算法会对其进行分类,即核心线段和边界线段;过程如下:
a.对于每一条未分类的线段L,算法计算其的ε邻域以判断该线段是否为核心线段;若L为核心线段,则程序跳转下一步;
b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中;如果新加入的线段未被分类,则把其加入队列Q中以做进一步扩展;若新加入的线段不是核心线段,则不加入队列Q中;
c.计算每个簇的基数,若其值小于阈值,则算法将该簇淘汰;
自动报警展示模块:通过预先设定的扫描病情相关参数、扫描时间和空间半径对聚集性、群体性发生的事件进行自动分析显示并实时报警;达到预先设定的群集性标准时,自动报警生成并存档目标病例的统计表,同时自动在当地地图中直观标注发病地点;
自动报警展示模块工作时,按如下步骤进行:
3.1.在系统展示屏幕上选择需要监控的流行性疾病,通过GPS地图展示其历史数据以及趋势,并通过海量病例分析模块得到相关特征数据,包括时空相关特征;
3.2.依据专家经验预先设置的条件和阈值,判断特征数据是否达到预设触发条件,如果达到预设触发条件,则自动化报警;
风险分析评价模块:利用自动报警展示模块与病例信息收集模块提供的数据信息,当系统自动报警后,采用手动方式对单位时间内出现的相同症状、体征或相同诊断与检查指标结果相同病例,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,获得相应的计算数值;
风险分析评价模块工作时,包括如下步骤:
4.1.海量病例特征信息处理:
由于要对单位时间内出现特定特征的病例进行索引和查找,在系统自动报警后,处理和分析海量数据;具体步骤如下:
4.1.1.构建基于斐波那契散列的二叉链表;构建规则是:
①对于16位整数而言,取乘数40503
②对于32位整数而言,取乘数2654435769
③对于64位整数而言,取乘数11400714819323198485对于常见的32位整数而言,映射公式如下:
index=(value*2654435769)28
其中,value是输入值,index是链表的头地址;
4.1.2.基于分布式的数据处理框架Spark,检索出现特定特征的病例;数据处理步骤:
①使用Spark提交任务,使Driver进程运行在主节点或从节点上;
②使用本地的主节点类的main函数来创建SparkContext并初始化它;
③SparkContext连接到从节点,注册并申请资源;
④主节点根据SparkContext提出的申请,根据任务的心跳报告,来决定到底在哪个任务上启动任务执行模块;
⑤任务执行模块向SparkContext注册;
⑥SparkContext将应用分配给任务执行模块;
⑦SparkContext解析应用,并将应用进行分解成多个阶段,每个阶段通过对应处理模块中的任务分配到相应的工作节点上,并由任务执行模块来执行;
⑧任务执行模块创建线程池,开始执行任务,并向SparkContext汇报;
⑨所有的任务执行完成之后,SparkContext向主节点注销;
4.2.在查找到单位时间内出现特定特征的病例的基础上,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,具体步骤如下:
4.2.1.使用广度优先的扫描算法遍历所有病例,首先以一个未被访问过的顶点作为起始顶点,访问其所有相邻的顶点;然后对每个相邻的顶点,再访问它们相邻的未被访问过的顶点;最后直到所有顶点都被访问过,遍历结束;实现步骤如下:
①首先以一个未被访问过的顶点作为起始顶点,以该顶点为起点;
②将该顶点放入到队列中,然后将与该顶点相邻的未访问过的顶点依次放入到队列中;
③接下来再将与相邻顶点相邻的未访问过的顶点放入到队列中;
④依此访问所有顶点,遍历结束;
4.2.2.通过异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,其中异常事件分析探测使用排列熵算法,其计算步骤如下:
设一维时间序列为:Xtime={xtime(1),xtime(2),...,xtime(i),...,xtime(n)}
采用相空间重构延迟坐标法对Xtime中任一元素xtime(i)进行相空间重构,对每个采样点取其连续的m个样点,得到点x(i)的m维空间的重构向量:
Xrec={xrec(i),xrec(i+1),...xrec(i+(m-1)*l)}
则一维时间序列Xtime的相空间矩阵为:
其中m和l分别为重构维数和延迟时间;
对xtime(i)的重构向量Xrec各元素进行升序排列,得到:
X′rec={xrec(i+(c1-1)*l)≤xrec(i+(c2-1)*l)≤...≤xrec(i+(cm-1)*l)}
这样得到的排列方式为:
{c1,c2,...,cm}
其为全排列mdim!中的一种,对一维时间序列Xtime各种排列情况出现次数进行统计,计算各种排列情况出现的相对频率作为其概率px1、px2、…、kp=mdim!,计算序列归一化后的排列熵:
其中,mdim是空间维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学附属医院,未经扬州大学附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010553296.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于食品包装生产的切割设备
- 下一篇:群体接力运动的方法、系统及电子设备