[发明专利]场景分类方法、装置、存储介质及其电子设备在审
申请号: | 201810379722.0 | 申请日: | 2018-04-25 |
公开(公告)号: | CN110413769A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 王颖帅;李晓霞;苗诗雨 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F17/27;G06N3/04 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 阚梓瑄;王卫忠 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 场景分类 预处理 个性化需求 存储介质 文本 向量 语料 卷积神经网络 自然语言处理 方法和装置 电子设备 方案效率 分类效率 机器学习 网站用户 向量表示 用户体验 词库 分词 筛选 概率 转换 学习 | ||
本公开提出一种场景分类方法、装置以及存储介质。该场景分类方法包括对用户输入的文本进行预处理;基于扩展词库对经预处理的文本进行分词以生成语料;将语料转换为向量;以及使用卷积神经网络模型对向量进行处理以获得与文本对应的场景分类的概率。本公开的方法和装置可以解决现有技术中的NLP场景分类方案效率低下、无法满足用户个性化需求的问题,向量表示更准确,结合机器学习、深度学习、自然语言处理,提高了分类效率,可以准确满足用户的个性化需求,使电商网站用户能够更好地筛选自己喜欢的商品,获得更好的用户体验。
技术领域
本公开涉及计算机数据处理,特别地,涉及场景分类方法、装置、存储介质及其电子设备。
背景技术
如今,人工智能已经成为一个众多实际应用和活跃学术研究的领域。在电商网站购物时,用户可以通过在APP(应用程序)界面向智能助理程序使用语音或文本输入信息。智能助理程序自动回答用户的问题,进而把用户吸引到感兴趣的模块,智能地为用户做个性化推荐。通过语音识别和语义理解,可将语音转化为文字,并准确地把握用户意图。自然语言处理(Natural Language Processing,NLP)是进行语义理解的重要方法。当前的采用斯坦福CoreNLP处理工具,先做基础语言底层分词、词性标注等分析,然后写正则模板匹配,提取出特定话术中的特定词语。
但是,斯坦福CoreNLP正则匹配模板,在提取语义信息时比较死板,只有在正则指定的话术中才可以匹配。随着电商网站购物的业务场景的扩大,需要设定越来越多的正则模板,比较浪费人力,效果也不够灵活。
因此,存在对现有的基于NLP的场景分类方案进行改进的需求。
发明内容
本公开的目的在于提出一种基于卷积神经网络(Convolutional neuralnetwork,CNN)模型的NLP场景分类方法和装置,解决现有技术中的NLP场景分类方案效率低下、无法满足用户个性化需求的问题,以使智能助理的场景分类结果更准确以提升用户体验。
根据本公开的一方面,提出一种场景分类方法,包括:
对用户输入的文本进行预处理;
基于扩展词库对经预处理的文本进行分词以生成语料,其中所述扩展词库包括扩展特征,所述扩展特征包括产品特征和品牌特征;
将所述语料转换为向量;
使用卷积神经网络模型对所述向量进行处理以获得与所述文本对应的场景分类的概率。
根据本公开的实施例,所述卷积神经网络模型包括输入层、多个卷积层、全连接层和输出层,每个所述卷积层包括卷积级、激活级和池化级,使用卷积神经网络模型对所述向量进行处理以获得与所述文本对应的场景分类的概率包括:将所述向量输入到所述输入层;使用所述卷积层基于所述向量生成卷积输出,其中为每个所述卷积层的池化级设置不同的池化参数;使用所述全连接层基于所述卷积输出生成向量输出;使用所述输出层基于所述向量输出生成与所述文本对应的所述场景分类的概率。
根据本公开的实施例,在使用卷积网络模型对所述向量进行处理之前,训练所述卷积神经网络模型。
根据本公开的实施例,训练所述卷积神经网络模型包括:使用标注数据创建训练数据集,其中所述标注数据通过对用户输入的文本标注扩展特征和对应的场景类别生成;基于所述训练数据集训练所述卷积神经网络模型的输入层、多个卷积层、全连接层和输出层的参数;调整所述卷积神经网络模型的学习率或控制所述卷积神经网络模型的过拟合。
根据本公开的实施例,通过衰减所述卷积神经网络模型的每个卷积层的权重或在所述卷积神经网络模型的每个卷积层的隐含层中随机丢弃神经元来控制所述卷积神经网络的过拟合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810379722.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文章题目自动生成方法
- 下一篇:将群消息归类到群话题的方法及装置