[发明专利]场景分类方法、装置、存储介质及其电子设备在审
申请号: | 201810379722.0 | 申请日: | 2018-04-25 |
公开(公告)号: | CN110413769A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 王颖帅;李晓霞;苗诗雨 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F17/27;G06N3/04 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 阚梓瑄;王卫忠 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 场景分类 预处理 个性化需求 存储介质 文本 向量 语料 卷积神经网络 自然语言处理 方法和装置 电子设备 方案效率 分类效率 机器学习 网站用户 向量表示 用户体验 词库 分词 筛选 概率 转换 学习 | ||
1.一种场景分类方法,其特征在于,包括:
对用户输入的文本进行预处理;
基于扩展词库对经预处理的文本进行分词以生成语料,其中所述扩展词库包括扩展特征,所述扩展特征包括产品特征和品牌特征;
将所述语料转换为向量;
使用卷积神经网络模型对所述向量进行处理以获得与所述文本对应的场景分类的概率。
2.根据权利要求1所述的场景分类方法,其特征在于,所述卷积神经网络模型包括输入层、多个卷积层、全连接层和输出层,每个所述卷积层包括卷积级、激活级和池化级,使用卷积神经网络模型对所述向量进行处理以获得与所述文本对应的场景分类的概率包括:
将所述向量输入到所述输入层;
使用所述卷积层基于所述向量生成卷积输出,其中为每个所述卷积层的池化级设置不同的池化参数;
使用所述全连接层基于所述卷积输出生成向量输出;
使用所述输出层基于所述向量输出生成与所述文本对应的所述场景分类的概率。
3.根据权利要求2所述的场景分类方法,其特征在于,在使用卷积网络模型对所述向量进行处理之前,训练所述卷积神经网络模型。
4.根据权利要求3所述的场景分类方法,其特征在于,训练所述卷积神经网络模型包括:
使用标注数据创建训练数据集,其中所述标注数据通过对用户输入的文本标注扩展特征和对应的场景类别生成;
基于所述训练数据集训练所述卷积神经网络模型的输入层、多个卷积层、全连接层和输出层的参数;
调整所述卷积神经网络模型的学习率或控制所述卷积神经网络模型的过拟合。
5.根据权利要求4所述的场景分类方法,其特征在于,通过衰减所述卷积神经网络模型的每个卷积层的权重或在所述卷积神经网络模型的每个卷积层的隐含层中随机丢弃神经元来控制所述卷积神经网络的过拟合。
6.根据权利要求1所述的场景分类方法,其特征在于,将所述语料转换为向量包括:
基于训练语料将每个所述语料转换为向量,其中所述训练语料包括使用话术模板基于所述语料生成的语料数据,通过语音日志生成的语料数据,以及与所述扩展特征相关的语料数据;
基于每个向量生成一个最终向量。
7.根据权利要求1所述的场景分类方法,其特征在于,对用户输入的文本进行预处理包括:
从基于用户输入的文本生成的日志表中获取所述文本;
对所述文本进行筛选。
8.根据权利要求1所述的场景分类方法,其特征在于,在基于扩展词库对经预处理的文本进行分词以生成语料之前,该场景分类方法还包括:
将经预处理的文本与关键词表进行匹配,所述关键词表包括关键文本与对应的场景分类;
当所述经预处理的文本与所述关键词表中的关键文本相同或相似时,获取与所述关键文本对应的场景分类;
当所述经预处理的文本与所述关键词表中的关键文本不相同并且不相似时,基于扩展词库对经预处理的文本进行分词以生成语料。
9.根据权利要求1所述的场景分类方法,其特征在于,还包括:
验证所述卷积神经网络模型的场景分类结果。
10.一种场景分类装置,其特征在于,包括:
预处理单元,设置为对用户输入的文本进行预处理;
分词单元,设置为基于扩展词库对经预处理的文本进行分词以生成语料,其中所述扩展词库包括扩展特征,所述扩展特征包括产品特征和品牌特征;
向量转换单元,设置为将所述语料转换为向量;
卷积神经网络模型,设置为对所述向量进行处理以获得与所述文本对应的场景分类的概率。
11.根据权利要求10所述的场景分类装置,其特征在于,所述卷积神经网络模型包括输入层、多个卷积层、全连接层和输出层,每个所述卷积层包括卷积级、激活级和池化级,其中每个所述卷积层的池化级具有不同的池化参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810379722.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文章题目自动生成方法
- 下一篇:将群消息归类到群话题的方法及装置