[发明专利]一种基于语义计算的分类器构建方法、分类器有效
申请号: | 201810159255.0 | 申请日: | 2018-02-26 |
公开(公告)号: | CN108388914B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 宋俊平;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/774;G06F16/35 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 计算 分类 构建 方法 | ||
1.一种基于非监督学习的文本所属分类方法,其特征在于,所述基于非监督学习的文本所属分类方法利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;利用加权平均的方法获得文本的向量表示通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类;
非监督分类直接从类别的内在特征出发,进行分类类别的特征表示,通过特征词和预先训练的词向量,利用向量加权平均的方法计算出类向量,计算方法为:
其中Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量,M表示每个排斥特征词的数量;
文本正文的语义向量通过计算文章所含词的词向量的加权平均和得到,利用算法对文本中字符进行重要性排序,一个字符的权重计算公式为:
其中d为阻尼系数,In(Wi)为指向当前字符的字符集合,Out(Wj)为当前字符指向的字符集合,ωji为两个字符共现权重;通过加权平均和的方式获得文本语义向量,用公式表示为:
其中,Vector(s)表示标题或者正文的向量,Vi表示标题或正文中第i个字的向量,WS(Wi)是计算好的第i个字的重要性权重,n表示每个类别特征词的字的数量。
2.一种利用权利要求1所述的基于非监督学习的文本所属分类方法的基于语义计算的分类器构建方法,其特征在于,所述基于语义计算的分类器构建方法包括:
(1)半监督阶段,利用textrank算法从训练数据中自动提取出类别特征加入到非监督学习模型;
(2)监督学习阶段,引入了监督学习方法,训练好后将监督学习接口迁移到分类接口上,经过用户确认后替换原来非监督的分类方法;
非监督分类直接从类别的内在特征出发,进行分类类别的特征表示,通过特征词和预先训练的词向量,利用向量加权平均的方法计算出类向量,计算方法为:
其中Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量,M表示每个排斥特征词的数量;
文本正文的语义向量通过计算文章所含词的词向量的加权平均和得到,利用算法对文本中字符进行重要性排序,一个字符的权重计算公式为:
其中d为阻尼系数,In(Wi)为指向当前字符的字符集合,Out(Wj)为当前字符指向的字符集合,ωji为两个字符共现权重;通过加权平均和的方式获得文本语义向量,用公式表示为:
其中,Vector(s)表示标题或者正文的向量,Vi表示标题或正文中第i个字的向量,WS(Wi)是计算好的第i个字的重要性权重,n表示每个类别特征词的字的数量;
所述半监督阶段利用算法从类别下标注数据中提取特征词,将特征词加入到非监督分类中的类特征词池中,类向量计算方法更新为:
其中Vectorhw为非监督提取出特征词向量,ω4为非监督学习指导权重,WS(Wi)为非监督提取出特征词权重;Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量,M表示每个排斥特征词的数量,K表示每个非监督特征词的数量。
3.一种如权利要求2所述基于语义计算的分类器构建方法的基于语义计算的分类器构建系统,其特征在于,所述基于语义计算的分类器构建系统包括:
非监督学习模块,用于获得文本所属的最可能的分类;
半监督模块,用于从训练数据中自动提取出类别特征加入到非监督学习模型;
监督学习模块,用于训练好后将监督学习接口迁移到分类接口上,经过用户确认后替换原来非监督的分类方法;
非监督分类直接从类别的内在特征出发,进行分类类别的特征表示,通过特征词和预先训练的词向量,利用向量加权平均的方法计算出类向量,计算方法为:
其中Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量,M表示每个排斥特征词的数量;
文本正文的语义向量通过计算文章所含词的词向量的加权平均和得到,利用算法对文本中字符进行重要性排序,一个字符的权重计算公式为:
其中d为阻尼系数,In(Wi)为指向当前字符的字符集合,Out(Wj)为当前字符指向的字符集合,ωji为两个字符共现权重;通过加权平均和的方式获得文本语义向量,用公式表示为:
其中,Vector(s)表示标题或者正文的向量,Vi表示标题或正文中第i个字的向量,WS(Wi)是计算好的第i个字的重要性权重,n表示每个类别特征词的字的数量;
所述半监督阶段利用算法从类别下标注数据中提取特征词,将特征词加入到非监督分类中的类特征词池中,类向量计算方法更新为:
其中Vectorhw为非监督提取出特征词向量,ω4为非监督学习指导权重,WS(Wi)为非监督提取出特征词权重;Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量,M表示每个排斥特征词的数量,K表示每个非监督特征词的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810159255.0/1.html,转载请声明来源钻瓜专利网。