[发明专利]利用基于词上下文的字嵌入与神经网络的中文分词方法有效

申请号：	201710368867.6	申请日：	2017-05-23
公开（公告）号：	CN107168955B	公开（公告）日：	2019-06-04
发明（设计）人：	戴新宇;郁振庭;陈家骏;黄书剑;张建兵	申请（专利权）人：	南京大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06N3/02
代理公司：	江苏圣典律师事务所 32237	代理人：	胡建华
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种利用基于词上下文的字嵌入与神经网络的中文分词方法，在大规模的自动切分数据上学习字嵌入，将学习得到的字嵌入作为神经网络分词模型的输入，可以有效帮助模型学习。具体步骤如下：根据字上下文以及词位标记在大规模自动切分数据上学习字嵌入，将字嵌入作为神经网络分词模型的输入，有效地提高了分词的性能。对比其它基于神经网络的中文分词技术，该方法采用了基于词上下文的字嵌入，有效地将词信息融合进了分词模型，成功的提高了分词任务的准确性。
搜索关键词：	利用基于上下文嵌入神经网络中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种利用基于词上下文的字嵌入与神经网络的中文分词方法，其特征在于，包括如下步骤：步骤1，计算机读取大规模自动切分的数据，利用基于词上下文的字嵌入学习方法得到字嵌入和双字嵌入；步骤2，利用基于神经网络的方法对待分词句子进行句子切分；步骤1包括如下步骤：步骤1‑1，根据四词位标注体系，将一句切分好的句子表示成字序列{c₁，c₂，...，c_n}和{l₁，l₂，...，l_n}，n是句子的长度，l_i∈{B，M，E，S}，1≤i≤n，c_n表示句子中的第n个字，l_n表示句子中第n个字对应的标记，l_i表示句子中第i个字对应的标记，在四词位标注体系中共有B、M、E、S四个标记，其中B代表当前字占据一个多字词的词首，M代表当前字占据一个多字词的词中E代表当前字占据一个多字词的词尾，S代表当前字是一个单字词；步骤1‑2，利用基于词上下文的字嵌入学习方法在大规模自动切分的数据上学习得到字嵌入和双字嵌入；步骤1‑2中整个大规模自动切分数据中的所有句子拼接成一个长句形成数据集，整个数据集表示为字序列{c₁，c₂，...，c_T}和相对应的标记序列{1₁，l₂，...，l_T}，其中T是数据集中字的个数，c_T表示数据集中的第T个字，l_T表示数据集中的第T个字对应的标记；步骤1‑2包括如下步骤：步骤1‑2‑1，字嵌入的学习目标定义为：其中，log p(c_t+j|c_t)和log p(l_t+j|c_t)按如下公式计算，其中，σ表示sigmoid函数，为一个实值函数，其作用在一个向量上表示对向量中的每个元素都做此操作，得到一个与输入向量维度相同的目标向量，e_uni表示输入端的字嵌入矩阵，表示输出端的字嵌入矩阵，e_uni(x)表示从输入端的字嵌入矩阵中取出字x对应的字嵌入，表示从输出端的字嵌入矩阵中取出字x对应的字嵌入，k表示负采样的个数，P_n(c)表示采样的分布，a表示上下文窗口的大小；步骤1‑2‑2，按照随机梯度下降法学习得到字嵌入矩阵e_uni；步骤1‑2‑3，双字嵌入的学习目标定义为：其中，log p(c_t+jc_t+j+1|c_tc_t+1)和log p(l_t+j|c_tc_t+1)按如下公式计算，其中e_bi表示输入端的双字嵌入矩阵，表示输出端的字嵌入矩阵，e_bi(x)表示从输入端的双字嵌入矩阵中取出双字x对应的双字嵌入，表示从输出端的双字嵌入矩阵中取出字x对应的的双字嵌入，c_tc_t+1表示第t个字和第t+1个字连接在一起得到的双字；步骤1‑2‑4，在定义完双字嵌入的学习目标后，按照随机梯度下降法学习得到双字嵌入矩阵e_bi。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710368867.6/，转载请声明来源钻瓜专利网。

上一篇：文本关键词生成方法及装置和电子设备及可读存储介质
下一篇：一种基于管道的中文篇章结构分析方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]利用基于词上下文的字嵌入与神经网络的中文分词方法有效

专利文献下载