[发明专利]一种数据处理方法、系统及相关装置有效
申请号: | 201110424177.0 | 申请日: | 2011-12-16 |
公开(公告)号: | CN102591917A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 科比洛夫.维拉迪斯拉维;文刘飞;施广宇 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 彭愿洁;李文红 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 相关 装置 | ||
技术领域
本发明涉及信息检索技术领域,尤其涉及一种数据处理方法、系统及相关装置。
背景技术
信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。而狭义的信息检索仅指从信息集合中找出所需要的信息的过程,相当于人们所说的信息查询。当今,随着互联网的飞速发展,互联网上的信息以指数级的方式增长,面对如此海量的信息资源,如何高效快速地获取自己需要的信息对人们越来越重要。为了提高用户信息检索的质量和效率,可使用功能强大的信息检索工具--搜索引擎,但搜索引擎在给人们带来很大便利的同时,也暴露出以关键词为基本索引单位的搜索技术的很多不足:一方面,无论用户提交什么样的关键词,都会返回过多的结果,其中用户真正需要的信息往往只占很小一部分,用户不得不花费相当多的时间对这些结果进行人工筛选;另一方面,由于同义词、近义词的原因,许多与查找主题有关的文本和用户输入的关键词并不完全匹配,导致搜索引擎不能找出这些文本。对信息基于主题进行分类、检索是解决上述问题的一种有效途径,可以在较大程度上解决网上信息异构、杂乱的问题,从而缩小搜索空间,提高检索速度,改善查询结果。
现有技术中,在层次隐含狄利克雷分配(hLDA,hierarchical Latent DirichletAllocation)模型超参数的求解过程中,对于给定的一个文本集合,需要首先给定模型所对应的nCRP先验,并把hLDA模型超参数看成不变量,然后通过分布式的吉布斯抽样,对于每一个文档获取相应的主题路径,对文档中的每个单词获取一个相应的主题,最后根据主题-单词、文档-主题计数矩阵算出最近似的参数hLDA模型超参数。
但是,在现有技术中,由于将hLDA模型超参数看成不变量,因此在求解过程中,无法达到最大近似解,最后求出的参数hLDA模型超参数精度较低,并且求解速度较慢。
发明内容
本发明实施例提供了一种数据处理方法、系统及相关装置。用以通过并行化求解提高hLDA模型的参数求解速度,并通过基于最大似然的超参数估计提高hLDA模型的参数求解精度。
本发明实施例中的数据处理方法,包括:将全局初始统计信息发送给各从节点,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括:所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括:全局文本-主题计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,所述吉布斯采样用于为各文档的各单词分配主题,以及为各文档分配层次主题路径;根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数;若求解层次隐含狄利克雷分配模型超参数迭代已收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
本发明实施例中的数据处理方法,包括:接收主节点发送的全局初始统计信息,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;将局部统计信息发送给主节点,所述局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110424177.0/2.html,转载请声明来源钻瓜专利网。