[发明专利]语义标签生成方法及设备、计算机存储介质在审
申请号: | 201810344523.6 | 申请日: | 2018-04-17 |
公开(公告)号: | CN110399505A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 胡磊;张旭 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/48 | 分类号: | G06F16/48 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义标签 维度 计算机存储介质 相关信息 语义完整 预先设置 组合连接 有效地 申请 搜索 标签 清晰 应用 | ||
1.一种语义标签生成方法,其特征在于,所述方法包括:
获取媒体的相关信息、所述媒体的描述维度的组合要求,所述组合要求用于表示所述媒体的多个所述描述维度对应的描述维值的组合形式;
根据所述媒体的相关信息确定所述描述维度对应的描述维值,所述描述维值为从所述描述维度描述所述媒体的词汇;
根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签,包括:
从所述组合要求中获取各个描述维度对应的描述维值的连接关系;
根据所述连接关系,将各个描述维度的描述维值进行连接,得到所述语义标签。
3.根据权利要求1所述的方法,其特征在于,所述根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签,包括:
从所述组合要求中获取各个描述维度对应的描述维值的连接关系;
从所述组合要求中获取各个描述维度对应的描述维值在生成语义标签时被选取的最小概率;
根据各个所述描述维值在生成的语义标签中被选取的最小概率,选取若干个描述维值;
根据所述连接关系,将选取得到的描述维值进行连接,得到所述语义标签。
4.根据权利要求1至3任一项所述的方法,其特征在于,在得到所述语义标签之后,所述方法还包括:
统计每个所述语义标签所包括的描述维值的个数;
删除描述维值的个数小于第一预定值的语义标签;其中,所述组合要求还包括所述第一预定值。
5.根据权利要求1至3任一项所述的方法,其特征在于,在得到所述语义标签之后,所述方法还包括:
统计每个所述语义标签所包括的字符的个数;
删除字符个数大于第二预定值的语义标签;其中,所述组合要求包括所述第二预定值。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述媒体的相关信息确定所述描述维度对应的描述维值,包括:
从所述媒体的相关信息中提取所述描述维度对应的描述词汇;
确定所述描述词汇对应的标准词汇,所述标准词汇为预定的词汇;
确定每个所述标准词汇的权重;
选取权重最大的所述标准词汇,得到所述描述维值。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在得到的所述描述维度对应的描述维值大于1个的情况下,从每个描述维度对应的描述维值中提取任意一个描述维值,得到多个描述维值组,每个描述维值组均包括所有的描述维度对应的描述维值;
根据所述组合要求和每个所述描述维值组中的描述维值生成语义标签。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取所述语义标签中的每个描述维值对应的标准词汇的权重,得到所述语义标签中的每个描述维值的权重;
计算所述语义标签中的所有的描述维值的权重的和,得到所述语义标签的权重;
根据所述语义标签的权重,按照从大到小的顺序将所述语义标签进行排序;
选取前N个语义标签,得到最终的语义标签,其中N为大于或等于1的整数。
9.根据权利要求6所述的方法,其特征在于,确定所述标准词汇的权重,包括:
确定所述标准词汇对应的描述词汇的权重;
计算所述标准词汇对应的所有的描述词汇的权重的和,得到所述标准词汇的权重。
10.根据权利要求9所述的方法,其特征在于,确定所述描述词汇的权重,包括:
获取所述描述词汇所属的源字段的置信度;所述源字段为所述媒体的相关信息中的字段;
获取所述描述词汇在所述源字段中出现的次数,得到所述描述词汇的词频;
根据所述置信度和所述词频计算所述描述词汇的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810344523.6/1.html,转载请声明来源钻瓜专利网。