[发明专利]特征的生成方法、装置、电子设备和存储介质有效
| 申请号: | 202010070945.6 | 申请日: | 2020-01-21 |
| 公开(公告)号: | CN111260058B | 公开(公告)日: | 2023-09-26 |
| 发明(设计)人: | 王志清 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06N3/082 | 分类号: | G06N3/082;G06N5/02;G06F40/289 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征 生成 方法 装置 电子设备 存储 介质 | ||
1.一种特征的生成方法,其特征在于,包括:
接收用户输入的标签文本集,所述标签文本集中包括至少一个标签的描述文本;
根据每个所述标签的描述文本,生成每个所述标签的描述文本对应的特征的逻辑文本;
运行每个所述特征的逻辑文本,生成每个所述标签的描述文本对应的特征,以获取特征集;
所述根据每个所述标签的描述文本,生成每个所述标签的描述文本对应的特征的逻辑文本,包括:
将每个所述标签的描述文本进行分词,获取每个所述标签的描述文本的至少一个目标词语;
根据每个所述标签的描述文本的至少一个目标词语,获取每个所述标签的描述文本的有向无环图,每个所述标签的描述文本的有向无环图包括至少一个节点,每个节点对应该标签的描述文本的一个目标词语,每个所述标签的描述文本的有向无环图用于表征至少一个目标词语之间的关联关系;
根据每个所述标签的描述文本的有向无环图,生成每个所述标签的描述文本对应的特征的逻辑文本;
所述根据每个所述标签的描述文本的至少一个目标词语,获取每个所述标签的描述文本的有向无环图,包括:
将每个所述标签的描述文本的每个目标词语与元数据进行映射,以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级,所述元数据中包括至少一个属性、属性的优先级,以及属性中每个词语的优先级;
根据每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级,获取每个所述标签的描述文本的第一有向无环图,所述第一有向无环图为所述有向无环图。
2.根据权利要求1所述的方法,其特征在于,所述将每个所述标签的描述文本的每个目标词语与元数据进行映射,以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级,包括:
将所述元数据的属性中与目标词语相同的词语的属性作为目标词语的属性,且将与目标词语相同的词语的优先级作为目标词语的优先级,所述目标词语的优先级包括目标词语的属性的优先级,以及目标词语在所属的属性中的词语的优先级。
3.根据权利要求1所述的方法,其特征在于,每个所述标签的描述文本的有向无环图还包括至少一个第二有向无环图,所述方法还包括:
根据每个所述标签的描述文本的有向无环图中每个节点的目标词语的属性,在该属性中获取与目标词语的语义相似度大于所述相似度阈值的相似词语;
将每个所述标签的描述文本的有向无环图中每个节点的目标词语的相似词语,部分或全部替换对应的目标词语,以获取每个所述标签的描述文本的至少一个第二有向无环图。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述运行每个所述特征的逻辑文本,生成每个所述标签的描述文本的特征之后,还包括:
将每个所述标签的描述文本、每个所述标签的描述文本的特征存储在每个所述标签的描述文本的存储空间中。
5.根据权利要求3所述的方法,其特征在于,所述元数据包括多个meta表,每个所述meta表表征所述元数据的一个属性,每个所述meta表中包括多个词语;所述将每个所述标签的描述文本的每个目标词语与元数据进行映射为:将每个所述标签的描述文本的每个目标词语与每个所述meta表中的词语进行映射。
6.根据权利要求1所述的方法,其特征在于,所述将每个所述标签的描述文本的每个目标词语与元数据进行映射之前,还包括:
根据每个所述标签的描述文本的语义,对每个所述标签的描述文本的目标词语进行修正。
7.根据权利要求1所述的方法,其特征在于,所述获取特征集之后,还包括:
以所述特征集作为训练数据,训练神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010070945.6/1.html,转载请声明来源钻瓜专利网。





