[发明专利]属性类别的表示方法、装置、终端设备和存储介质在审
申请号: | 202210724709.0 | 申请日: | 2022-06-24 |
公开(公告)号: | CN114970765A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 葛莉 | 申请(专利权)人: | 广州华多网络科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/284 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 彭东威 |
地址: | 511442 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性 类别 表示 方法 装置 终端设备 存储 介质 | ||
本申请提供了一种属性类别的表示方法、装置、终端设备和存储介质,获取待识别的属性类别数据,待识别的属性类型数据包括至少一个属性类别;从预先配置的属性类别编码表中查找出每一个属性类别的编码;将每一个属性类别的编码输入至预先建立的词向量表,以得到每一个属性类别的表示向量;词向量表是从词向量嵌入模型学习得到的,而词向量嵌入模型是采用经掩码处理的属性类别编码序列样本,并基于自注意力机制方法来对Embedding模块进行预先训练的。该方法采用预习建立的词向量表可以快速且有效的将输入的属性类别的编码转化成向量;且转化输出的向量是低维稠密的,能大大减少向量运算与存储空间。
技术领域
本申请涉及数据处理技术领域,具体涉及一种属性类别的表示方法、装置、终端设备和存储介质。
背景技术
随着科技不断地发展,互联网已深入到人们生活的各方面,因此也产生了海量的互联网数据,这些互联网数据中常常包含有大量类别型数据(即属性类别),例如性别,地区、爱好、颜色等。而这些类别型数据在使用到许多应用场景进行建模之前往往需要将其转换成数值型,例如将类别型数据转化成向量值,即用一组向量值来表示一个类别。
目前针对类别型数据进行向量化表示主要是采用独热编码方法,但是该方法转化形成的向量非常稀疏,会给模型训练和存储造成巨大的开销;且该方法转化成的向量无法表示相似属性类别的相似度关系。
发明内容
有鉴于此,本申请实施例中提供了一种属性类别的表示方法、装置、终端设备和存储介质,以克服现有技术中的类别型数据进行向量化表示方法转化形成的向量非常稀疏,会给模型训练和存储造成巨大的开销;且该方法转化成的向量无法表示相似类别属性的相似度关系的问题。
第一方面,本申请实施例提供了一种属性类别的表示方法,该方法包括:
获取待识别的属性类别数据,其中待识别的属性类型数据包括至少一个属性类别;
从预先配置的属性类别编码表中查找出每一个所述属性类别的编码;
从预先建立的词向量表查找出每一个所述属性类别的表示向量;其中,所述词向量表是从词向量嵌入模型学习得到的,而词向量嵌入模型是采用经掩码处理的属性类别编码序列样本,并基于自注意力机制方法来对Embedding模块进行训练的。
第二方面,本申请实施例提供了一种属性类别的表示装置,该装置包括:
待识别数据获取模块,用于获取待识别的属性类别数据,其中待识别的属性类型数据包括至少一个属性类别;
编码查找模块,用于从预先配置的属性类别编码表中查找出每一个所述属性类别的编码;
向量获得模块,用于从预先建立的词向量表查找出每一个所述属性类别的表示向量;其中,所述词向量表是从词向量嵌入模型学习得到的,而词向量嵌入模型是采用经掩码处理的属性类别编码序列样本,并基于自注意力机制方法来对Embedding模块进行训练的。
第三方面,本申请实施例提供了一种终端设备,包括:存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述第一方面提供的属性类别的表示方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述第一方面提供的属性类别的表示方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210724709.0/2.html,转载请声明来源钻瓜专利网。