[发明专利]一种改进HMM模型聚类策略的方法在审

申请号：	201610493012.1	申请日：	2016-06-23
公开（公告）号：	CN106203479A	公开（公告）日：	2016-12-07
发明（设计）人：	贾海龙	申请（专利权）人：	新乡学院
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/30
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东风
地址：	453000 河***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种改进HMM模型聚类策略的方法，与现有技术相比，本发明对HMM爬虫的页面采集方法做出了改进。针对HMM爬虫相关度低，容易丢失相关页面的问题，改进了相关度判别方法。针对其中存在的主控服务器瓶颈问题和心跳数据包信息不完整问题，提出了基于自适应反馈算法的网页云存储系统构建方法。并通过实验证明了改进的HMM爬虫模型在查准率方面均优于传统HMM爬虫；网页云存储系统在磁盘利用率及均匀度和服务阻塞率及均匀度方面均优于HDFS。
搜索关键词：	一种改进 hmm 模型策略方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种改进HMM模型聚类策略的方法，其特征在于，包括以下步骤：(1)输入训练集和候选页(P)；(2)输出权重值分配给候选页面P；(3)采用K‑Means训练集的簇(K值自动获得)；(4)计算π、A、Bπ、A、B矩阵和相关页面的质心C_rC_r；(5)采用K‑Nearest Neighbor算法，将候选页面P分类到簇C_tC_t；(6)给出当前计算隐状态概率：

<mrow><mi>a</mi><mrow><mo>(</mo><msub><mi>L</mi><mi>j</mi></msub><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>b</mi><mrow><mi>j</mi><mi>e</mi><mi>t</mi></mrow></msub><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>-</mo><mn>0</mn></mrow><mrow><mi>s</mi><mi>t</mi><mi>a</mi><mi>t</mi><mi>e</mi><mi>s</mi></mrow></munderover><mrow><mo>(</mo><mi>a</mi><mo>(</mo><mrow><msub><mi>L</mi><mi>i</mi></msub><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo><mo>·</mo><msub><mi>a</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow><mo>;</mo></mrow>

(7)计算下一步隐状态概率估计：

<mrow><mi>a</mi><mrow><mo>(</mo><msub><mi>L</mi><mi>j</mi></msub><mo>,</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>-</mo><mn>0</mn></mrow><mrow><mi>s</mi><mi>t</mi><mi>a</mi><mi>t</mi><mi>e</mi><mi>s</mi></mrow></munderover><mrow><mo>(</mo><mi>a</mi><mo>(</mo><mrow><msub><mi>L</mi><mi>i</mi></msub><mo>,</mo><mi>t</mi></mrow><mo>)</mo><mo>·</mo><msub><mi>a</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow><mo>;</mo></mrow>

(8)计算权重priority_HMM(p)＝a(L₀，t+1)priority_HMM(p)＝a(L₀，t+1)；(9)采用VSM计算页面内容和相关页面的质心C_rC_r之间的similarity(p，c)；(10)分配权重给网页：priority_{learning NMM}(p，c_r)＝(similarity(p，c_r)+prity_HMM(p))/2priority_{learning NMM}(p，c_r)＝(similarity(p，c_r)+prity_HMM(p))/2。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新乡学院，未经新乡学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610493012.1/，转载请声明来源钻瓜专利网。

上一篇：一种耦合判别局部块对齐方法
下一篇：一种基于最近邻分类与模糊算法的猪头尾轮廓识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种改进HMM模型聚类策略的方法在审

专利文献下载