[发明专利]一种数据处理方法、系统及相关装置有效
申请号: | 201110424177.0 | 申请日: | 2011-12-16 |
公开(公告)号: | CN102591917A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 科比洛夫.维拉迪斯拉维;文刘飞;施广宇 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 彭愿洁;李文红 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 相关 装置 | ||
1.一种数据处理方法,其特征在于,包括:
将全局初始统计信息发送给各从节点,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;
归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括:所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括:全局文本-主题计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;
若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,所述吉布斯采样用于为各文档的各单词分配主题,以及为各文档分配层次主题路径;
根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数;
若求解层次隐含狄利克雷分配模型超参数迭代已收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
2.根据权利要求1所述的方法,其特征在于,所述将全局初始统计信息发送给从节点之前包括:
为层次隐含狄利克雷分配模型的各超参数分别设定不同的初始值;
将所述文本集划分成多个文本子集,所述文本子集的数量与节点的数量相同;
为所述文本集中的每个文档分配一个主题路径,为文档中的每个单词分配一个主题,根据统计的所述文本集的单词总数,每个文档包含的单词总数,以及所述文本集的单词表,得到文档-主题计数矩阵及主题-单词计数矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述归并接收到的各从节点的局部统计信息,得到新的全局统计信息之后包括:
判断从节点进行的吉布斯采样是否结束;
所述判断从节点进行的吉布斯采样是否结束包括:
根据吉布斯采样的迭代次数或者似然函数的梯度判断吉布斯采样是否结束。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若从节点进行的吉布斯采样未结束,则将所述新的全局统计信息发送给所述从节点。
5.根据权利要求4所述的方法,其特征在于,所述根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数之后包括:
判断期望最大算法迭代是否收敛;
所述判断期望最大算法迭代是否收敛包括:
当所述层次隐含狄利克雷分配模型超参数所对应的所述文档集的似然函数值的梯度小于预置的梯度阈值时,则确定期望最大算法的迭代已经收敛。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若求解层次隐含狄利克雷分配模型超参数迭代未收敛,则将更新层次隐含狄利克雷分配模型超参数后的所述新的全局统计信息发送给从节点。
7.一种数据处理方法,其特征在于,包括:
接收主节点发送的全局初始统计信息,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;
根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;
根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;
将局部统计信息发送给主节点,所述局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
8.根据权利要求7所述的方法,其特征在于,所述根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题之后包括:
更新重新分配单词主题后的各文档的文档-主题计数矩阵,及主题-单词计数矩阵信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110424177.0/1.html,转载请声明来源钻瓜专利网。