[发明专利]基于语义表示模型来生成词向量的方法、装置和电子设备在审
申请号: | 201611128785.6 | 申请日: | 2016-12-09 |
公开(公告)号: | CN108228554A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 张姝;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 陶海萍;王曦 |
地址: | 日本神奈*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 目标语言 语义表示 电子设备 损失函数 源语言 词语 语言表示 语义 构建 申请 隐含 匹配 共享 语言 监督 | ||
本申请的实施例提供一种基于语义表示模型来生成词向量的方法、装置和电子设备,该方法通过对源语言和目标语言的隐含状态值进行均值匹配来构建语义表示模型的损失函数,并且,在基于损失函数而调整语义表示模型的过程中,能够在双语共享的K维词向量空间中,分别得到源语言的词向量和目标语言的词向量,从而使得语义接近的源语言的词语与目标语言的词语所对应的词向量也彼此接近。根据本申请实施例,无需借助于跨语言监督,就能够实现源语言和目标语言的跨语言表示。
技术领域
本申请涉及信息技术领域,尤其涉及一种基于语义表示模型来生成词向量的方法、装置和电子设备。
背景技术
自然语言理解的问题要转化为机器学习的问题,首先需要将自然语言的符号数学化,即,将词表示为数字。
最直观的词表示方法是One-hot Representation,这种方法把每个词表示为一个很长的向量,这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个值为1的维度就代表了当前的词。
例如,“话筒”的向量为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...],“麦克”向量为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...]。
One-hot Representation的词表示方法存在一个重要的问题,那就是“词汇鸿沟”现象,即,任意两个词的向量都是孤立的。所以,光从词的向量中看不出这些词是否有关系。
在自然语言处理领域,通常使用的词向量并不是用One-hot Representation表示的高维度的词向量,而是低维实数向量,例如,[0.792,-0.177,-0.107,0.109,-0.542,...]。这种低维实数向量的维度通常是50或100。基于特定的语义表示模型,一个词可以被表示为n维空间中的一个低维实数向量,并且,对于同一个词,采用不同的语义表示模型,会得到不同的低维实数向量。
用低维实数向量作为词向量来表示词的情况下,语义相近的词所对应的向量在空间中也会比较接近,例如,“电脑”和“计算机”的词向量比较接近。此外,语义表示还有很多有趣的性质,比如表示“国王”的词向量减去表示“男人”的词向量,再加上表示“女人”的词向量,计算结果得到的向量与表示“女王”的词向量非常接近。
常用的用于获得低维实数向量的语义表示模型,例如可以是连续词袋(ContinuousBag-of-Words Model,CBOW)模型,或SKIP模型等。
下面,对连续词袋(CBOW)模型进行简单说明:
图1是CBOW模型的一个示意图,如图1所示,CBOW模型100至少包括输入层101,隐含层103,输出层105,第一权重矩阵W和第二权重矩阵M。
在CBOW模型中,语料集D是一系列词语对(pairs)所构成的集合,该集合中有N个词语对,第i个词语对可以被表示为(xi,yi),其中,N是自然数,i为整数,且0≤i<N。在第i个词语对中,yi是中心词,xi是由该中心词的Ci个上下文词语所构成的集合,即其中,j为自然数,且j≤Ci。yi,xi∈(1,2,…,V),其中,V是语料集D所处的词典中词语的数量,即词典的规模。
例如,该第i个词语对为(the,cats,sit,on,the,mat),其中,sit是中心词yi,该中心词yi的Ci个上下文词语所构成的集合xi=(the,cats,on,the,mat)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611128785.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理的方法
- 下一篇:基于栏目主题的文章处理方法和装置