[发明专利]领域信息分类模型生成方法、分类方法、设备及存储介质有效

专利信息
申请号: 201711462385.3 申请日: 2017-12-28
公开(公告)号: CN108363716B 公开(公告)日: 2020-04-24
发明(设计)人: 石忠民;徐叶强;雷力;林嘉亮;吴云标 申请(专利权)人: 广州索答信息科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06F40/247;G06F40/284
代理公司: 广州市越秀区哲力专利商标事务所(普通合伙) 44288 代理人: 邵穗娟;汤喜友
地址: 510000 广东省广州市高新技术*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 领域 信息 分类 模型 生成 方法 设备 存储 介质
【说明书】:

发明提供领域信息分类方法,步骤包括对用户输入的领域指令信息进行预处理,获得领域指令文本;采用领域分词字典对领域指令文本进行分词,获得领域分词集合;对领域分词集合进行专有词替换遍历,获得指令数组,专有词为领域的代表性词语;采用词向量模型将指令数组转换为词向量数组;采用领域分类模型对词向量数组进行分类;本发明涉及领域信息分类模型生成方法;本发明还涉及电子设备与可读存储介质,用于执行领域信息分类模型生成方法或领域信息分类方法;本发明通过大量领域相关文本语料数据训练word2vec词向量模型,实现在语义信息不足的情况下能够扩展出更多的语义关系;采用深度学习算法训练分类器,提高了分类模型的分类准确率。

技术领域

本发明涉及文本分类技术领域,尤其涉及领域信息分类模型生成方法、分类方法、设备及存储介质。

背景技术

随着人工智能技术的发展与应用,深度语义分析研究亟需完善,而针对指令信息的深度语义分析显得尤为迫切。指令信息指的是诸如命令、建议和请求类的短句,例如“请帮我打开播放列表”,“告诉我今天温度”。由于每个领域均存在各自的指令,只有先对指令进行准确的领域分类,才能提取出指令中的关键属性以及正确分析指令发出者的意图,从而准确地执行指令。

受限于指令信息的特点,多领域分类成为一大挑战。首先,指令信息长度一般在十二个词左右,通常不遵循严格的语法规则,缺少足够的信息进行分析推断,机器很难在有限的语境中进行准确的判定;同时,传统的文本分类技术,较难捕获到指令的信息特征。

发明内容

为了克服现有技术的不足,本发明的目的之一在于提供领域信息分类模型生成方法,实现在语义信息不足的情况下能够扩展出更多的语义,提高了分类模型的分类准确率。

本发明的目的之二在于提供领域信息分类方法,实现在语义信息不足的情况下能够扩展出更多的语义,提高了分类模型的分类准确率。

本发明的目的之三在于提供一种电子设备,实现在语义信息不足的情况下能够扩展出更多的语义,提高了分类模型的分类准确率。

本发明的目的之四在于提供一种计算机可读存储介质,实现在语义信息不足的情况下能够扩展出更多的语义,提高了分类模型的分类准确率。

本发明的目的之一采用如下技术方案实现:

领域信息分类模型生成方法,包括以下步骤:

构建领域知识库,对领域知识库模型进行知识本体构建,生成领域知识库;

生成词向量模型,采集若干领域的相关文本语料数据,采用所述领域知识库对所述相关文本语料数据进行分词,获得语料分词,采用word2vec训练所述语料分词,获得词向量模型;

生成词向量,标注领域语料库的领域指令信息,获得标注领域语料库,对所述标注领域语料库的领域指令信息进行专有词替换,采用所述领域知识库对专有词替换后的领域语料库进行分词,获得领域语料库分词集合,采用所述词向量模型将所述领域语料库分词集合转换为词向量,所述专有词为领域的代表性词语;

生成分类模型,选取若干所述词向量为深度学习算法的训练样本,调用所述深度学习算法训练分类器,获得分类模型。

进一步地,所述步骤生成词向量还包括分词处理和词向量替代,所述分词处理包括若所述领域语料库分词集合的词数量小于词数量阈值,则添加通用符号至所述领域语料库分词集合;若所述领域语料库分词集合的词数量大于词数量阈值,则裁切所述领域语料库分词集合末尾多余的词;所述词向量替代包括若所述领域语料库分词集合的词不在所述词向量模型中,则采用通用符号替代所述领域语料库分词集合的词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州索答信息科技有限公司,未经广州索答信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711462385.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top