[发明专利]利用基于词上下文的字嵌入与神经网络的中文分词方法有效
申请号: | 201710368867.6 | 申请日: | 2017-05-23 |
公开(公告)号: | CN107168955B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 戴新宇;郁振庭;陈家骏;黄书剑;张建兵 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/02 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种利用基于词上下文的字嵌入与神经网络的中文分词方法,在大规模的自动切分数据上学习字嵌入,将学习得到的字嵌入作为神经网络分词模型的输入,可以有效帮助模型学习。具体步骤如下:根据字上下文以及词位标记在大规模自动切分数据上学习字嵌入,将字嵌入作为神经网络分词模型的输入,有效地提高了分词的性能。对比其它基于神经网络的中文分词技术,该方法采用了基于词上下文的字嵌入,有效地将词信息融合进了分词模型,成功的提高了分词任务的准确性。 | ||
搜索关键词: | 利用 基于 上下文 嵌入 神经网络 中文 分词 方法 | ||
【主权项】:
1.一种利用基于词上下文的字嵌入与神经网络的中文分词方法,其特征在于,包括如下步骤:步骤1,计算机读取大规模自动切分的数据,利用基于词上下文的字嵌入学习方法得到字嵌入和双字嵌入;步骤2,利用基于神经网络的方法对待分词句子进行句子切分;步骤1包括如下步骤:步骤1‑1,根据四词位标注体系,将一句切分好的句子表示成字序列{c1,c2,...,cn}和{l1,l2,...,ln},n是句子的长度,li∈{B,M,E,S},1≤i≤n,cn表示句子中的第n个字,ln表示句子中第n个字对应的标记,li表示句子中第i个字对应的标记,在四词位标注体系中共有B、M、E、S四个标记,其中B代表当前字占据一个多字词的词首,M代表当前字占据一个多字词的词中E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词;步骤1‑2,利用基于词上下文的字嵌入学习方法在大规模自动切分的数据上学习得到字嵌入和双字嵌入;步骤1‑2中整个大规模自动切分数据中的所有句子拼接成一个长句形成数据集,整个数据集表示为字序列{c1,c2,...,cT}和相对应的标记序列{11,l2,...,lT},其中T是数据集中字的个数,cT表示数据集中的第T个字,lT表示数据集中的第T个字对应的标记;步骤1‑2包括如下步骤:步骤1‑2‑1,字嵌入的学习目标定义为:
其中,log p(ct+j|ct)和log p(lt+j|ct)按如下公式计算,![]()
其中,σ表示sigmoid函数,为一个实值函数,其作用在一个向量上表示对向量中的每个元素都做此操作,得到一个与输入向量维度相同的目标向量,euni表示输入端的字嵌入矩阵,
表示输出端的字嵌入矩阵,euni(x)表示从输入端的字嵌入矩阵中取出字x对应的字嵌入,
表示从输出端的字嵌入矩阵中取出字x对应的字嵌入,k表示负采样的个数,Pn(c)表示采样的分布,a表示上下文窗口的大小;步骤1‑2‑2,按照随机梯度下降法学习得到字嵌入矩阵euni;步骤1‑2‑3,双字嵌入的学习目标定义为:
其中,log p(ct+jct+j+1|ctct+1)和log p(lt+j|ctct+1)按如下公式计算,![]()
其中ebi表示输入端的双字嵌入矩阵,
表示输出端的字嵌入矩阵,ebi(x)表示从输入端的双字嵌入矩阵中取出双字x对应的双字嵌入,
表示从输出端的双字嵌入矩阵中取出字x对应的的双字嵌入,ctct+1表示第t个字和第t+1个字连接在一起得到的双字;步骤1‑2‑4,在定义完双字嵌入的学习目标后,按照随机梯度下降法学习得到双字嵌入矩阵ebi。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710368867.6/,转载请声明来源钻瓜专利网。