[发明专利]基于复杂网络模型并行化PageRank算法的核心药物挖掘方法有效

申请号：	201210122900.4	申请日：	2012-04-24
公开（公告）号：	CN102708285A	公开（公告）日：	2012-10-03
发明（设计）人：	吴骏;刘正;王志坚;许峰	申请（专利权）人：	河海大学
主分类号：	G06F19/00	分类号：	G06F19/00
代理公司：	南京天翼专利代理有限责任公司 32112	代理人：	汤志武
地址：	210098 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明的基于复杂网络模型并行化PageRank算法的核心药物挖掘方法包括如下步骤：1）组网阶段：a)预处理生成中药数据集，格式化为文本数据；b)将初始文本数据部署至Hadoop平台；c)并行化组建中药药物网络TCM；d)结束。2）挖掘阶段：a)获取步骤1-c处理生成的中药药物网络文本文件；b)将药物网络文本文件部署至Hadoop平台；c)实施并行化PageRank算法发现核心药物节点；d)结束。本发明的基于复杂网络模型并行化PageRank算法的核心药物挖掘方法建立了中药药物复杂网络模型，利用并行化技术提高了组网以及PageRank算法的可扩展性和运行速度，并且能有效挖掘复方中的关键核心药物节点，研究中药配伍规律。
搜索关键词：	基于复杂网络模型并行 pagerank 算法核心药物挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于复杂网络模型并行化PageRank算法的核心药物挖掘方法，其特征是包括如下步骤：1)组网阶段：a)预处理生成中药复方数据集，格式化为文本数据；所说的预处理为抽取中药复方数据中所有复方的药物组成；每个中药复方均格式化为文本数据；b)将初始文本数据部署至Hadoop平台，即开发分布式并行程序的平台；所说的部署为将步骤a)生成的初始文本数据上传至Hadoop的分布式文件系统(HDFS)；c)并行化组建中药药物网络TCM；具体过程如下：1)为每个中药复方(一行文本数据)设定一个唯一复方标识ID；2)建立从药物到复方标识ID之间的倒排索引；3)为每个药物设定唯一药物标识id，并包含在复方中出现的频次；4)再次建立倒排索引，还原中药复方的文本数据；5)分布式并行程序的每个Map函数读取一行文本数据，解析出中药复方的药物节点信息；6)两两组合原复方中的药物，以按字典序小的药物ID加上频次作为Key，另一个作为Value，以键值对<Key，Value>的形式经过shuffle & & sort发送到Reduce函数；以上为Hadoop平台自带的两个步骤，对Key值进行排序整理；7)开发分布式并行程序的Reduce函数接收相同Key下组成的[Value]数组，即Map函数传递的所有在该Key下的Value，按照下式计算两两药物间度量，将大于设定阈值的药对写入文件并保存至HDFS中SCAB=|FA∩FB|min{|FA|,|FB|}]]>其中|F_A∩F_B|表示药物A、B一起组方的次数，min{|F_A|，|F_B|}表示药物A、B中组方次数较少的药物的出现次数，而SC_AB表示药物A、B共现次数与最少出现药物次数的比率；8)读取6)中生成的药对文件，格式化为邻接表形式保存中药药物网络拓扑结构；9)结束；2)挖掘阶段：a)获取步骤1)-c)处理生成的中药药物网络文本文件；b)将药物网络文本文件部署至Hadoop平台；步骤2-b中所说的部署为将步骤2-a生成的药物网络文本文件上传至Hadoop的分布式文件系统；c)实施并行化PageRank算法发现核心药物节点；步骤具体过程如下：1)每个Map函数读取一行文本，存入Hadoop自定义数据类型Text的变量Value中；2)解析Value中数据，保存到临时数组Tmp[]；3)传递节点信息、在分布式环境下维持整个网络结构；4)从Tmp[]中解析出节点PageRankCentrality值即节点PageRank值的大小和节点的邻居节点，分别保存在变量P和临时链表AdjList中；5)令变量i为06)如果i小于临时链表长度AdjList.length，则发送<AdjList.get(i),PAdjList.length>,]]>前者为药物节点ID，后者为均分的PageRankCentrality值，并执行7)，否则执行8)；7)i自增1，执行6)；8)Map函数过程结束，Hadoop分布式文件系统执行shuffle & & sort；9)Reduce函数解析[Value]数组，分别用数据结构AdjpageRank保存节点结构，临时链表ls保存每个传递过来的PageRankCentrality值；10)令j＝0，p＝0；11)如果j小于临时链表长度ls.length，则p＝p+ls.get(j)并执行12)，否则执行13)；12)j自增1，执行11)；13)按照下式计算节点PageRankCentrality值作为本次迭代最新的值；P(n)=α(1|G|)+(1-α)Σm∈L(n)P(m)C(m)]]>其中|G|是指药物节点总数，α是随机跳转因子、设置为0到1之间，L(n)是连接药物节点n的邻居节点，C(m)是药物节点m的邻居节点个数；更新AdjpageRank中的值为p，保存新的AdjpageRank。14)保存结果至HDFS中；15)结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210122900.4/，转载请声明来源钻瓜专利网。

上一篇：有效载荷机身无人机
下一篇：输配电线路拉线回头弯尾线压接固定方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学，即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真，例如：概率模型或动态模型，遗传基因管理网络，蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的，例如：进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的，例如：结构排序，结构或功能关系，蛋白质折叠，结构域拓扑，用结构数据的药靶，涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的，例如：基因型–表型关联，不均衡连接，种群遗传学，结合位置鉴定，变异发生，基因型或染色体组的注释，蛋白质相互作用或蛋白质核酸的相互作用

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于复杂网络模型并行化PageRank算法的核心药物挖掘方法有效

专利文献下载