[发明专利]特征的生成方法、装置、电子设备和存储介质有效
| 申请号: | 202010070945.6 | 申请日: | 2020-01-21 |
| 公开(公告)号: | CN111260058B | 公开(公告)日: | 2023-09-26 |
| 发明(设计)人: | 王志清 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06N3/082 | 分类号: | G06N3/082;G06N5/02;G06F40/289 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征 生成 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种特征的生成方法、装置、电子设备和存储介质,涉及机器学习领域。具体实现方案为:接收用户输入的标签文本集,标签文本集中包括至少一个标签的描述文本;根据每个标签的描述文本,生成每个标签的描述文本对应的特征的逻辑文本;运行每个特征的逻辑文本,生成每个标签的描述文本对应的特征,以获取特征集。本申请中能够根据标签的描述文本生成特征的逻辑文本,进而生成特征,调整特征可以通过调整输入的标签的描述文本实现,提高了特征生成的灵活性,且降低了技术要求。
技术领域
本申请涉及计算机技术领域,尤其涉及机器学习领域中的特征的生成方法、装置、电子设备和存储介质。
背景技术
在机器学习领域中,训练神经网络模型时,特征的生成是必经的过程。其中,特征为根据训练数据集生成的,用于表征训练数据集的属性。特征的生成较为复杂,且每个特征的生成逻辑也千差万别,因此如何快速准确地生成特征至关重要。
现有技术中,程序人员需要预先写好神经网络模型中生成所有的特征的逻辑。这样,在向神经网络模型中输入训练数据集后,可以采用特征的逻辑生成特征。
但现有技术的方法中生成特征的逻辑是程序人员采用代码的方式表征的。如果需要调整一个特征,则需要程序人员修改代码,过程不灵活,且技术要求较高。
发明内容
本申请提供一种特征的生成方法、装置、电子设备和存储介质,调整特征可以通过调整输入的标签的描述文本实现,提高了特征生成的灵活性,降低了技术要求。
本申请第一方面提供一种特征的生成方法,包括:接收用户输入的标签文本集,所述标签文本集中包括至少一个标签的描述文本;根据每个所述标签的描述文本,生成每个所述标签的描述文本对应的特征的逻辑文本;运行每个所述特征的逻辑文本,生成每个所述标签的描述文本对应的特征,以获取特征集。
本申请中能够根据标签的描述文本自动生成特征的逻辑文本,进而生成特征,降低了技术要求。若想要调整(增加或者减少)特征可以通过调整输入的标签的描述文本实现,提高了特征生成的灵活性。
在一种可能的设计中,所述根据每个所述标签的描述文本,生成每个所述标签的描述文本对应的特征的逻辑文本,包括:将每个所述标签的描述文本进行分词,获取每个所述标签的描述文本的至少一个目标词语;根据每个所述标签的描述文本的至少一个目标词语,获取每个所述标签的描述文本的有向无环图,每个所述标签的描述文本的有向无环图包括至少一个节点,每个节点对应该标签的描述文本的一个目标词语,每个所述标签的描述文本的有向无环图用于表征至少一个目标词语之间的关联关系;根据每个所述标签的描述文本的有向无环图,生成每个所述标签的描述文本对应的特征的逻辑文本。
在一种可能的设计中,所述根据每个所述标签的描述文本的至少一个目标词语,获取每个所述标签的描述文本的有向无环图,包括:将每个所述标签的描述文本的每个目标词语与元数据进行映射,以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级,所述元数据中包括至少一个属性、属性的优先级,以及属性中每个词语的优先级;根据每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级,获取每个所述标签的描述文本的第一有向无环图,所述第一有向无环图为所述有向无环图。
在一种可能的设计中,所述将每个所述标签的描述文本的每个目标词语与元数据进行映射,以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级,包括:将所述元数据的属性中与目标词语相同的词语的属性作为目标词语的属性,且将与目标词语相同的词语的优先级作为目标词语的优先级,所述目标词语的优先级包括目标词语的属性的优先级,以及目标词语在所属的属性中的词语的优先级。
在该设计中,采用用户输入标签的描述文本的方式生成特征,具体的是根据标签的描述文本的语义自动生成对应的底层逻辑,进而生成对应的特征,一方面避免了用户需要预先编写生成特征的逻辑的高技术要求,另一方面,对特征的调整只需增加或减少标签的描述文本即可。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010070945.6/2.html,转载请声明来源钻瓜专利网。





