[发明专利]一种基于PLSA主题模型和EM算法确定网页元素主题的方法有效
| 申请号: | 202010185732.8 | 申请日: | 2020-03-17 |
| 公开(公告)号: | CN111459806B | 公开(公告)日: | 2022-09-23 |
| 发明(设计)人: | 杨龙祥;贾秀秀;刘玉珍 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F16/958 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王恒静 |
| 地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 plsa 主题 模型 em 算法 确定 网页 元素 方法 | ||
1.一种基于PLSA主题模型和EM算法确定网页元素主题的方法,其特征在于,该方法包括以下步骤:
(1)选取待测网页的网页元素对应的主题,找出主题关键词集合和主题集合;
(2)对待测网页的网页元素进行预处理,生成元素-词的关系;
(3)根据获取到的所述主题集合,按照PLSA模型公式训练出主题-词矩阵以及网页元素-主题矩阵,
(4)采用改进的EM算法求解出网页元素中对应概率最大的主题,作为该网页元素的主题;
(5)当网页结构或元素属性改变而造成网页状态变化后,重新获取当前DOM,重新对当前网页内的网页元素的主题进行判定,并生成网页元素XPath定位器;
所述步骤(2),具体包括:
(21)从待测网页的网页元素与主题相关联的属性值中筛选主题关键词集合中的关键词以及网页元素的主题关键词,该主题下的所有网页元素样本关键词组成的集合就是主题关键词集合;
(22)计算各个主题关键词的频率,具体为:待测网页的网页元素e中主题关键词w出现的频率表示为:
其中,nw代表网页元素e中关键词w出现的次数,ne代表网页元素e中全部关键词的出现次数;
所述步骤(3)具体包括:
(31)根据得到的主题关键词集合W,网页元素集合E,主题集合T,根据PLSA模型公式训练出主题-词P(wj|tk)和网页元素-主题P(tk|ei);
(32)计算网页元素中的生成概率,如下式所示:
其中,P(ei)为待测网页中某网页元素ei的概率,P(wj|tk)为主题关键词wj在给定的主题tk中出现的概率,P(tk|ei)为主题tk在给定的网页元素ei中出现的概率;n为待测网页中主题的总数,P(tk|ei)和P(wj|tk)是未知量,故θ=(P(wj|tk),P(tk|ei))就是需要估计的参数值,并且使得最大化θ值;
所述改进的EM算法包括:
(41)计算Q函数:
其中,观测数据集合Ym=(w0i,w1i),若yi来自额外的0,记w0i=1,否则w0i=0;同样的yi若来自额外1,记w1i=1,否则w1i=0,这样就给出完全数据集,其中Y0=(yi,Xi,Zi)为观测数据,X和Z是协变量集合;β和γ0,γ1是回归系数,记表示在第t步迭代中参数θ估计的当前值;表示期望值的计算是在条件分布下算出的;分别表示数据中参数0、1和2所占总体数据的比例;
而且有:
(42)将观测数据集分为子集Y01,Y02,划分的规则:把每个观测随机的分到两个子集Y01,Y02的两者的任意一个中去;
(43)接下来在两个样本集Y01,Y02将Q函数极大化,利用条件极大化的办法实现;利用迭代方程得到:
具体的如下:
令则
同样的
重复(42)和(43)步,直到算法收敛得到全局最优解;
所述步骤(4)中,采用改进的EM算法求解出网页元素中对应概率最大的主题,具体包括:
(44)对θ进行迭代进行极大似然估计,如下式所示:
其中,n为迭代θ的次数,L为网页元素样本集的词分布的对数似然函数;
(45)主题-词P(wj|tk)的概率和等于1,网页元素-主题P(tk|ei)的概率和等于1:
(46)由于关键词之间相互独立,所以网页元素的词分布如下式所示:
故网页元素样本集的词分布的对数似然函数,如下式所示:
其中,n(ei)代表网页元素e中全部关键词的出现次数,其有取值范围,每次取的值不同,会有一个编号来表示,M、N、K就是取值的最大值,n(ei)就是从1取到这个最大值,n(wj,ei)表示词wj在网页元素ei中出现的次数、P(ei,wj)是词wj在网页元素ei中的词频率;
(47)接下来将网页元素样本集的词分布对数似然函数l(θ)代入式(7)中,通过条件极大化的方法对L(θ)函数极大化,得到在第k步迭代中参数θ随机部的估计当前值,也即是参数θ随机部的全局最优解;
(48)计算此时t的后验概率,利用贝叶斯公式,得到如下:
(49)将计算得到的t代入式(8),求解相应的P(wj|tk)和P(tk|ei)
由于n(ei)∝P(ei),简化公式(17),由于式(15)得到参数θ随机部的全局最优解,接下来的计算max l(θ)就转化为一个优化问题;
对应的目标函数为:
约束条件为:
(410)采用拉格朗日乘数法,估算得到P(wj|tk)和P(tk|ei);
(411)把P(wj|tk)和P(tk|ei)再代入公式(16),循环迭代得到隐变量主题t的后验概率P(tk|ei,wj)
其中,P(tk|ei)代表网页元素的主题分布,进而把网页元素ei对应概率最大的主题tk作为该网页元素的主题。
2.根据权利要求1所述的基于PLSA主题模型和EM算法确定网页元素主题的方法,其特征在于,所述步骤(1)中,找出主题关键词集合和主题集合包括:
使用网络爬虫技术模拟浏览器获取待测网页的源代码,再进行解析HTML代码,得到网页元素的主题关键词和主题集合,分别为主题集合:T={主题t1,主题t2…,主题tn},主题关键词:主题t1:{关键词k11,关键词k12…,关键词k1p},主题t2:{关键词k21,关键词k22…,关键词k2q},…,主题tn:{关键词kn1,关键词kn2…,关键词knm},其中,n为待测网页中主题的总数,p为主题t1下的主题关键词的总数,q为主题t2下的主题关键词的总数,m为主题tn下的主题关键词的总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010185732.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无人机实时轨迹预测方法
- 下一篇:一种审计信息管控平台





