[发明专利]一种结合词向量多特征融合的新词发现方法在审
申请号: | 202111523723.6 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114298029A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 顾钊铨;梁栩健;杨举;王乐;韩伟红;唐可可;李默涵;仇晶;李树栋;张登辉 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06K9/62;G06N5/02 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 郑秋松 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 向量 特征 融合 新词 发现 方法 | ||
1.一种结合词向量多特征融合的新词发现方法,其特征在于,包括下述步骤:
统计自然语言特征得分计算:对语料进行特征标注,遍历所有属性对,计算属性对的互信息矩阵和自信息矩阵,计算所有候选特征的属性对得分;
基于词向量特征得分计算:对词向量进行k-means聚类,根据词向量对应的词典,对语料中所有分词找到对应的词向量,进而找到对应的最近邻类中心向量,并找出该类中心向量对应的词作为词向量特征属性,遍历所有词向量特征属性,计算词向量特征属性对的自信息矩阵和互信息矩阵,计算所有词向量特征属性对的得分;
对所有候选特征属性对的得分配置权重系数后求和,通过逻辑回归优化权重系数,计算总得分;
初始化权重系数并设置新词阈值,总得分超过新词阈值时,设定随机概率提取候选词对对应的得分向量到样本集合,对样本集合进行标记得到标签集合;
基于随机梯度下降SGD更新权重系数,迭代训练直至损失函数收敛,获得最终的权重系数;
重新计算所有候选词对的总得分,输出超过新词阈值的新词。
2.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述对语料进行特征标注,所述特征包括分词、词性和依存句法关系。
3.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述计算所有候选特征的属性对得分,具体表示为:
MSm[xi][xj]=αmMIm[xi][xj]+βmMHm[xi][xj]
其中,MSm[xi][xj]表示候选特征的属性对得分,MIm[xi][xj]表示属性对的互信息矩阵,MHm[xi][xj]表示属性对的自信息矩阵,αm表示第m个特征的互信息比例参数,βm第m个特征的自信息比例参数。
4.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述计算所有词向量特征属性对的得分,表示为:
MS[vi][vj]=αMI[vi][vj]+βMH[vi][vj]
其中,MS[vi][vj]表示候选词向量特征属性对的得分,MI[vi][vj]表示词向量特征属性对的互信息矩阵,MH[vi][vj]表示词向量特征属性对的自信息矩阵,α表示互信息比例参数,β表示自信息比例参数。
5.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述基于词向量特征得分计算的步骤在聚类时设置不同随机种子重复进行,获得多个得分矩阵。
6.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述计算总得分,具体计算公式表示为:其中,<xi,xj>表示候选词对,
Fm(x)表示分词x进行第m特征标注,M为统计自然语言特征数,C为聚类的次数,MSm表示候选特征的得分,λm表示权重系数,M+C表示特征个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111523723.6/1.html,转载请声明来源钻瓜专利网。