[发明专利]一种基于嵌入式表示的自适应中文分词方法有效
申请号: | 201710269840.1 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107145483B | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 李思;包祖贻;徐蔚然;高升 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 嵌入式 表示 自适应 中文 分词 方法 | ||
本发明实施例公开了一种基于嵌入式表示的自适应中文分词方法。属于信息处理领域。该方法的特征包括:分词网络和字符语言模型共享一个字符的嵌入式表示层。字符的嵌入式表示,一方面通过基于卷积神经网络的分词网络,得到待分词文本的隐多粒度局部特征;再经过一个前向网络层,得到字符的标签概率;最后应用标签推断,得到句子级别上的最优分词结果。另一方面,我们随机抽取未标注的文本,通过一个基于长短期记忆单元(LSTM)循环神经网络的字符语言模型,预测该字符下一个位置的字符,对分词网络进行约束;本发明通过字符语言模型建模中文不同领域文本中的字符共现关系,并通过嵌入式表示将信息传递给分词网络,使得分词的领域迁移能力得到提升,具有很大的实用价值。
技术领域
本发明涉及信息处理领域,特别涉及一种基于神经网络中文分词的领域迁移方法。
背景技术
中文分词是中文自然语言处理中的基础任务,它的目标是将以中文汉字为组成的序列转换为以中文词语组成的序列。因为中文词语是中文语义表达的基本单元,中文分词是非常重要的基础任务,而且分词系统的性能会直接影响到中文自然语言处理的上层任务,例如,信息检索和机器翻译。
在过去的十几年里,中文分词方面有许多研究工作,也取得了很多瞩目的成果。一方面,许多中文分词的标准数据集被建立了起来;另一方面,许多统计学习的分类器被应用到中文分词任务中,目前最普遍的分词方法是把分词任务作为一个有监督的序列标注任务来完成。比较常见的传统分词模型有结构化感知器、条件随机场(CRFs)等。但是这些传统模型都十分依赖人工设计的特征,需要复杂的特征才能取得较好的分词效果。最近,由于神经网络可以自己学习特征以代替复杂的人工设计特征,大大减轻特征工程的负担,许多工作尝试将神经网络应用于中文分词任务。正是由于这些大量的标注数据和不断改进的统计学习模型,中文分词在标准数据集上取得了很好的效果,有些模型在标准数据集上的准确率甚至超过了98%。
然而中文分词并不能说是一个已经解决了的任务,由于大量标注的数据主要是新闻语料,这使得在这些数据上训练得到的分词器在例如专利、文学、金融等领域的文本上性能大大下降。这一问题就是著名的领域迁移问题。领域迁移问题,由可得到的资源可进一步细分为两个大类,一个是全监督领域迁移,一个是半监督领域迁移。这两个类别的主要区别在于迁移的目标领域是否有标注数据。全监督领域迁移中,我们有大量的源领域标注数据和少量目标领域标注数据。在半监督领域迁移中,我们有大量源领域标注数据,但是在目标领域我们只能得到无标注的数据。
而本发明主要为了解决上述的半监督领域迁移问题,采用了一种基于嵌入式表示的领域迁移方法,利用语言模型建模中文文本字符之间的共现关系,将这一跨领域信息通过嵌入式表示传递给神经网络分词器,得到了较好的领域迁移分词效果。
发明内容
为了解决现有的技术问题,本发明提供了一种基于神经网络分词的领域迁移方法。方案如下:
训练时,分词网络和语言模型网络同时工作:
步骤一,我们将输入的已标注句子和随机抽取的未标注句子的每个字符都映射为字符向量,通过这一步将句子参数化,句子各映射为一个数值矩阵。
步骤二,我们使用一个多卷积核的卷积神经网络对参数化的已标注句子进行卷积操作,不同窗口大小的卷积核从句子中提取到隐多粒度的局部特征。
步骤三,将隐多粒度局部特征送入一个前向网络中,得到各个字符序列标注的标签概率。
步骤四,在句子层面上,对整个句子中各个字符的标签概率进行维特比解码,得到句子层面的最优分词结果和分词网络的损失函数值。
步骤五,未标注的句子送入一个基于长短期记忆单元(LSTM)循环神经网络的字符语言模型。得到各个字符位置的隐层表示。
步骤六,将隐层表示送入一个前向网络中,得到各个字符位置的下一个字符的概率分布。得到语言模型网络的损失函数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710269840.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带检测功能的吸收性制品
- 下一篇:一种基于隐多粒度局部特征的中文分词方法