[发明专利]语义分析方法及系统有效

专利信息
申请号: 201310314194.8 申请日: 2013-07-24
公开(公告)号: CN104346339B 公开(公告)日: 2019-09-10
发明(设计)人: 王益;赵学敏;孙振龙;严浩;王莉峰;靳志辉;王流斌 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F17/27
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 滕一斌
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语义 分析 方法 系统
【说明书】:

技术领域

发明涉及计算机领域,特别涉及一种语义分析方法及系统。

背景技术

在目前的网络活动中,用户常常会通过关键字词来搜索自己感兴趣的信息,比如,用户在搜索引擎中输入关键字词,搜索引擎通过关键字匹配算法来检索诸如图片、视频和链接之类的信息。然而,从自然语言的角度来说,大部分词具有一词多义的特点,一个词除了表达本意之外,还可能具有其它的隐含语义,仅通过关键字匹配的搜索方法无法为用户提供更精确的服务。

为了提高匹配结果的相关性,近年来兴起一种基于隐含语义的索引方式,其检索结果的实际效果更接近于人的自然语言。而要实现基于隐含语义的索引,首先需要进行隐含语义分析,以大样本数量的统计分析找出不同的词之间的相关性。

现有的语义分析方法主要包括如下步骤:1)获取训练语料,该训练语料中包括多个训练文档,每个训练文档中包括至少两个词;2)对训练语料进行迭代采样,输出最终收敛的采样模型;3)对输出的采样模型进行分析。具体请参见图1,其示出了本发明现有技术提供的语义分析系统的架构图,该语义分析系统包括多个训练进程和多个模型进程。其中,训练进程用于加载训练文档,从模型进程获取上一轮采样获得的采样模型,并根据获取到的采样模型对加载的训练文档进行采样,最后向模型进程输出本轮采样获得的采样模型。训练进程和模型进程之间通过交换词的主题分布向量来进行通信。

在实现本发明的过程中,发明人发现现有技术至少存在以下问题:

现有的语义分析方法中,当要分析的隐含语义很多时,对单进程的内存要求较高,训练效率低。

发明内容

为了解决现有技术中当要分析的隐含语义较多时对单进程的内存要求较高,训练效率低的问题,本发明实施例提供了一种语义分析方法及系统。所述技术方案如下:

一方面,提供了一种语义分析方法,所述方法包括:

获取训练语料,所述训练语料中包括N个训练文档,每个所述训练文档中包括至少两个词;

按照文档维度和词维度将所述训练语料切分成a*M*M个数据块,其中,a为大于等于1的整数,且a*M小于所述训练文档的个数N,N≥2;

对切分出的所述a*M*M个数据块进行迭代采样,输出最终收敛的采样模型;

根据所述最终收敛的采样模型进行语义分析。

另一方面,提供了一种语义分析系统,所述系统包括:

训练语料获取模块,用于获取训练语料,所述训练语料中包括N个训练文档,每个所述训练文档中包括至少两个词;

切分模块,用于按照文档维度和词维度将所述训练语料获取模块获取到的训练语料切分成a*M*M个数据块,其中,a为大于等于1的整数,且a*M小于所述训练文档的个数N,N≥2;

迭代采样模块,用于对所述切分模块切分出的所述a*M*M个数据块进行迭代采样,输出最终收敛的采样模型;

语义分析模块,用于根据所述迭代采样模块输出的、最终收敛的采样模型进行语义分析。

本发明实施例提供的技术方案带来的有益效果是:

通过将获取到的训练语料切分成a*M*M个数据块,对切分出的该a*M*M个数据块进行迭代采样,输出最终收敛的采样模型,根据输出的最终收敛的采样模型进行分析。由于切分获得的a*M*M数据块可以分别单独进行采样,从而可以降低单进程的内存需求,解决了现有技术中当要训练的隐含语义较多时对单进程的内存要求较高的问题,达到提高训练效率的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明现有技术提供的语义分析系统的架构图;

图2是本发明实施例一提供的语义分析方法的方法流程图;

图3是本发明实施例二提供的语义分析方法的方法流程图;

图4是本发明实施例二提供的语义分析系统进程框架图;

图5是本发明实施例三提供的语义分析系统的系统构成图;

图6是本发明实施例四提供的语义分析系统的系统构成图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310314194.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top