[发明专利]语义分析方法及系统有效
申请号: | 201310314194.8 | 申请日: | 2013-07-24 |
公开(公告)号: | CN104346339B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 王益;赵学敏;孙振龙;严浩;王莉峰;靳志辉;王流斌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 滕一斌 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种语义分析方法,属于计算机领域。所述方法包括:获取训练语料;按照文档维度和词维度将所述训练语料切分成a*M*M个数据块;对切分出的所述a*M*M个数据块进行迭代采样,输出最终收敛的采样模型;根据所述最终收敛的采样模型进行语义分析。本发明通过将获取到的训练语料切分成a*M*M个数据块,对切分出的数据块进行迭代采样,输出最终收敛的采样模型,根据输出的最终收敛的采样模型进行分析。由于切分获得的数据块可以分别单独进行采样,从而可以降低单进程的内存需求,解决了现有技术中当要训练的隐含语义较多时对单进程的内存要求较高的问题,达到提高训练效率的目的。 | ||
搜索关键词: | 语义 分析 方法 系统 | ||
【主权项】:
1.一种语义分析方法,其特征在于,所述方法包括:获取训练语料,所述训练语料中包括N个训练文档,每个所述训练文档中包括至少两个词;将所述训练语料中的所有文档切分成a*M个文档组,其中,a为大于等于1的整数,且a*M小于所述训练文档的个数N,N≥2;统计所述训练语料中每一个词的出现频次,将每一个所述文档组中的词按照所述出现频次从高到低的顺序进行排序;分别将每一个所述文档组中的词按照排序结果依次切分至所述文档组对应的M个数据块中预定频次最小的数据块中,得到a*M*M个数据块,所述预定频次是当前数据块中已划分有的各个词各自的出现频次之和;对所述a*M*M个数据块进行迭代采样,输出最终收敛的采样模型;根据所述最终收敛的采样模型进行语义分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310314194.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种新型疏水膜及其制备方法
- 下一篇:电子装置