首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种结合词向量多特征融合的新词发现方法在审

申请号：	202111523723.6	申请日：	2021-12-14
公开（公告）号：	CN114298029A	公开（公告）日：	2022-04-08
发明（设计）人：	顾钊铨;梁栩健;杨举;王乐;韩伟红;唐可可;李默涵;仇晶;李树栋;张登辉	申请（专利权）人：	广州大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216;G06F40/30;G06K9/62;G06N5/02
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	郑秋松
地址：	510006 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合向量特征融合新词发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种结合词向量多特征融合的新词发现方法，其特征在于，包括下述步骤：

统计自然语言特征得分计算：对语料进行特征标注，遍历所有属性对，计算属性对的互信息矩阵和自信息矩阵，计算所有候选特征的属性对得分；

基于词向量特征得分计算：对词向量进行k-means聚类，根据词向量对应的词典，对语料中所有分词找到对应的词向量，进而找到对应的最近邻类中心向量，并找出该类中心向量对应的词作为词向量特征属性，遍历所有词向量特征属性，计算词向量特征属性对的自信息矩阵和互信息矩阵，计算所有词向量特征属性对的得分；

对所有候选特征属性对的得分配置权重系数后求和，通过逻辑回归优化权重系数，计算总得分；

初始化权重系数并设置新词阈值，总得分超过新词阈值时，设定随机概率提取候选词对对应的得分向量到样本集合，对样本集合进行标记得到标签集合；

基于随机梯度下降SGD更新权重系数，迭代训练直至损失函数收敛，获得最终的权重系数；

重新计算所有候选词对的总得分，输出超过新词阈值的新词。

2.根据权利要求1所述的结合词向量多特征融合的新词发现方法，其特征在于，所述对语料进行特征标注，所述特征包括分词、词性和依存句法关系。

3.根据权利要求1所述的结合词向量多特征融合的新词发现方法，其特征在于，所述计算所有候选特征的属性对得分，具体表示为：

MS_m[x_i][x_j]＝α_mMI_m[x_i][x_j]+β_mMH_m[x_i][x_j]

其中，MS_m[x_i][x_j]表示候选特征的属性对得分，MI_m[x_i][x_j]表示属性对的互信息矩阵，MH_m[x_i][x_j]表示属性对的自信息矩阵，α_m表示第m个特征的互信息比例参数，β_m第m个特征的自信息比例参数。

4.根据权利要求1所述的结合词向量多特征融合的新词发现方法，其特征在于，所述计算所有词向量特征属性对的得分，表示为：

MS[v_i][v_j]＝αMI[v_i][v_j]+βMH[v_i][v_j]

其中，MS[v_i][v_j]表示候选词向量特征属性对的得分，MI[v_i][v_j]表示词向量特征属性对的互信息矩阵，MH[v_i][v_j]表示词向量特征属性对的自信息矩阵，α表示互信息比例参数，β表示自信息比例参数。

5.根据权利要求1所述的结合词向量多特征融合的新词发现方法，其特征在于，所述基于词向量特征得分计算的步骤在聚类时设置不同随机种子重复进行，获得多个得分矩阵。

6.根据权利要求1所述的结合词向量多特征融合的新词发现方法，其特征在于，所述计算总得分，具体计算公式表示为：其中，＜x_i，x_j＞表示候选词对，

F_m(x)表示分词x进行第m特征标注，M为统计自然语言特征数，C为聚类的次数，MS_m表示候选特征的得分，λ_m表示权重系数，M+C表示特征个数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州大学，未经广州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111523723.6/1.html，转载请声明来源钻瓜专利网。

上一篇：结合数字印刷技术的医用说明书条码印刷装置与方法
下一篇：一种多模式浸没气体射流精细化测量系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top