[发明专利]中文词向量处理方法及其系统有效

申请号：	201910074889.0	申请日：	2019-01-25
公开（公告）号：	CN109902292B	公开（公告）日：	2023-05-09
发明（设计）人：	孟亚磊;刘继明;刘松;陈浮;金兰	申请（专利权）人：	网经科技（苏州）有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30
代理公司：	江苏圣典律师事务所 32237	代理人：	王玉国
地址：	215021 江苏省苏州市工***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了中文词向量处理方法及系统，首先，对训练语料分词，得到待训练向量的词列表；然后，对每个待训练词语，确定其对应的n元字根及其代号表示形式，n元字根是词包含的连续n个字根；再按照设定的维度参数，对各词以及各n元字根的语义向量进行初始化；根据分词后的语料、当前各词向量及n元字根向量，对词向量和字根向量进行训练，完成指定轮次训练后结束。结合汉字字形构成的特点，选择了字根作为基本单元，将词语表示为n元字根的形式；一方面字根本身具有较强的表意能力，另一方面中文词的平均字根数更接近英文单词的平均字母数，本发明能够在更合适的粒度层次上刻画词语的语义，并且能化解未登录词的表征难题。
搜索关键词：	文词向量处理方法及其系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.中文词向量处理方法，其特征在于：包括以下步骤：1)对训练语料分词，得到待训练向量的词列表；2)对每个待训练词语，确定其对应的n元字根及其代号表示形式，n元字根是词包含的连续n个字根；3)按照设定的维度参数，对各词以及各n元字根的语义向量进行初始化；4)根据分词后的语料、当前各词向量及n元字根向量，对词向量和字根向量进行训练，完成指定轮次训练后结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于网经科技（苏州）有限公司，未经网经科技（苏州）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910074889.0/，转载请声明来源钻瓜专利网。

上一篇：企业员工沟通的数据处理方法、装置、存储介质和设备
下一篇：一种基于局部与全局互注意力机制的文本分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]中文词向量处理方法及其系统有效

专利文献下载