[发明专利]一种结合词向量多特征融合的新词发现方法在审
申请号: | 202111523723.6 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114298029A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 顾钊铨;梁栩健;杨举;王乐;韩伟红;唐可可;李默涵;仇晶;李树栋;张登辉 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06K9/62;G06N5/02 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 郑秋松 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 向量 特征 融合 新词 发现 方法 | ||
本发明公开了一种结合词向量多特征融合的新词发现方法,该方法步骤包括:对语料进行特征标注,计算属性对互信息矩阵和自信息矩阵,计算候选特征属性对得分;聚类词向量,找到对应的最近邻类中心向量,并找出该类中心向量对应的词作为词向量特征属性,遍历所有词向量特征属性对,计算词向量特征属性对自信息矩阵和互信息矩阵,计算所有词向量特征属性对得分;对所有候选特征属性对得分配置优化权重系数后求和计算总得分;总得分超过新词阈值时提取候选词对对应得分向量到样本集合;更新权重系数并迭代训练至损失函数收敛获得最终的权重系数;重新计算候选词对总得分,输出超过新词阈值的新词。本发明实现更合理的新词评价方法,更加有效地挖掘潜在的新词。
技术领域
本发明涉及新词挖掘与划分技术领域,具体涉及一种结合词向量多特征融合的新词发现方法。
背景技术
随着互联网的快速发展,各种新词(特别是网络用语)层出不穷。与拉丁系语言不同,汉语、日语、韩语等词语之间没有特定的分隔符,在进行下游任务(文本分类、信息抽取、语义搜索、机器翻译等)需要对其先进行分词处理,否则容易丢失大量实体、词性等信息而造成下游任务效果下降。而在分词处理中,未登录词(也称为新词)对分词的影响最大。
在现有技术中,最常用的是一种基于自信息与互信息的方法的无监督新词发现方法,通过两个方面去衡量两个子词(字)是否该组成新词:1、互信息:两个子词(字)的共现程度,2、自信息:两个子词(字)的左右词丰富程度;
除了以上基本的分词(字)特征的新词发现算法外,有相关的自然语言研究者提出了基于词性或者依存句法分析等多特征融合的改进方法;
随着深度学习和神经网络的研究,词向量作为自然语言处理的最基础元素获得了越来越多的关注。词向量作为大规模语料上训练出来的中间产物,对比one-hot具有维度更低、富含更多的语法语义信息等特点。现有技术还有从词向量特征角度出来,通过词向量之间的相似度得分计算n-gram的片段频繁模式,并且通过最后添加剪枝算法对候选新词进一步过滤,还有的提出一种基于条件随机场CRF与词向量相结合的识别方法。
在上述现有技术中,它们的共同想法是从单一(或者两个)简单特征出发,或者深挖掘该特征的其他潜在能够帮助提升挖掘效果的因子(例如通过TextRank算法获取种子词典或者后剪枝算法等),均没有从广度上去尽可能综合所有的特征例如词性、依存句法关系甚至有不少自然语言处理工具提供其他特征如命名实体识别等。同时,现有技术中,局限于一种特征,往往该特征的局限性决定着新词发现准确率的天花板,而它们的各种优化方法、调节参数方法,只能逼近这个理论上的天花板。
其次,目前所选择的特征例如词性与分词粒度大小相差较大。结合110kv,发电站的例子,虽然加入词性进行考虑可以挖掘出数字/字母,名词这种高频词性模式,从而50kv,发电站有更多的机会被判断为新词,但是词性特征权重过大,也可能存在如例子1993,年也可能被错误地划分为新词。出现以上的原因,除了比例的分配错误外,还有粒度的差距过大等。如词性,一般只有数十种属性如“名词”、“动词”、形容词等之类,而分词的粒度则可能成千上万,过于宽泛的特征往往也可能带来一定的噪音。
在另一个方面,尽管有些技术结合了一到两个特征,但是其比例分配依然依赖人工调节。随着特征的增加,调节参数的复杂度将呈几何级增加。
最后,当前的新词发现评价指标,大多数为Top K评价模式。具体是指,通过新词发现算法挖掘新词集合S后,人工判断前k个置信度或者分数最高的新词中合理的词的占比(不限于f1,召回或者精确度等指标)。这类评价方法往往包含很多分数很高但是已经普遍存在的词,例如词“非常”,该词虽然分数很高,但是对于新词发现并没有什么贡献。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111523723.6/2.html,转载请声明来源钻瓜专利网。