[发明专利]一种数据处理方法、系统及相关装置有效
申请号: | 201110424177.0 | 申请日: | 2011-12-16 |
公开(公告)号: | CN102591917A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 科比洛夫.维拉迪斯拉维;文刘飞;施广宇 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 彭愿洁;李文红 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种数据处理方法、系统及相关装置,用于提高hLDA模型的参数求解速度及参数求解精度。本发明实施例方法包括:将全局初始统计信息发送给各从节点,归并接收到的各从节点的局部统计信息,得到新的全局统计信息,若从节点进行的吉布斯采样已结束,则根据新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,根据计算所得到的概率分布,建立文本集的似然函数,并极大化似然函数,得到新的hLDA超参数,若求解hLDA超参数迭代已收敛,则根据新的hLDA超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。 | ||
搜索关键词: | 一种 数据处理 方法 系统 相关 装置 | ||
【主权项】:
一种数据处理方法,其特征在于,包括:将全局初始统计信息发送给各从节点,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档‑主题计数矩阵信息,主题‑单词计数矩阵信息;归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括:所述各从节点的文档‑主题计数矩阵,主题‑单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括:全局文本‑主题计数矩阵信息,所述各从节点的主题‑单词计数矩阵信息,以及全局文档层次主题路径;若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,所述吉布斯采样用于为各文档的各单词分配主题,以及为各文档分配层次主题路径;根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数;若求解层次隐含狄利克雷分配模型超参数迭代已收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110424177.0/,转载请声明来源钻瓜专利网。