[发明专利]一种基于机器学习和深度学习的中文自然语言处理工具系统在审

申请号：	201910867399.6	申请日：	2019-09-12
公开（公告）号：	CN110705296A	公开（公告）日：	2020-01-17
发明（设计）人：	魏巍;陈志毅;李恒;杨佳鑫;王赞博;徐晨维;热克甫;王振海	申请（专利权）人：	华中科技大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F40/289;G06F40/216;G06K9/62;G06N3/04;G06N3/08;G06N20/20
代理公司：	42102 湖北武汉永嘉专利代理有限公司	代理人：	李丹
地址：	430074 湖北省武***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自然语言处理数据处理模块任务类型算法模型中文文本调用中文自然语言处理自然语言处理工具调用接口统一计算机可读工具系统功能训练基于机器接口统一模型训练任务调用任务应用数据格式算法训练统一接口系统架构全流程保存算法统一学习转换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于机器学习和深度学习的中文自然语言处理工具系统，包括：数据处理模块，用于获取待处理中文文本和处理任务类型，并根据处理任务类型将接收的中文文本转换为计算机可读的数据格式；任务应用模块，用于根据数据处理模块获取的数据和自然语言处理需求，使用统一接口调用算法模型库，完成全流程模型训练；并根据保存的自然语言处理模型，对外提供规范统一的任务调用接口，以完成相应自然语言处理任务；算法模型库，用于保存自然语言处理任务的算法及根据算法训练得到的模型。本发明构造了合理的系统架构，通过所有功能训练接口统一、训练流程统一、调用接口统一、调用流程统一，作为自然语言处理工具使用更加简单高效。

技术领域

本发明涉及自然语言处理技术，尤其涉及一种基于机器学习和深度学习的中文自然语言处理工具系统。

背景技术

传统的自然语言处理工具通常基于经典机器学习算法，例如支持向量机(SVM)和条件随机场(CRF)等。随着深度学习的进步，许多基于深度神经网络模型的研究致力于改进现有自然语言处理算法，其通常将字符和单词信息以分布式表示形式编码用于输入，并且以端到端的训练方式学习自然语言处理任务。最近，越来越多的深度学习算法在自然语言处理任务中取得了优异的表现，一些使用采用最新技术、拥有良好性能的自然语言处理工具被提出。但目前基于机器学习和深度学习、覆盖多种自然语言处理任务且囊括主流算法模型的中文自然语言处理工具包系统还是十分稀少。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于机器学习和深度学习的中文自然语言处理工具系统。

本发明解决其技术问题所采用的技术方案是：一种基于机器学习和深度学习的中文自然语言处理工具系统，包括：

数据处理模块，用于获取待处理中文文本和处理任务类型，并根据处理任务类型将接收的中文文本转换为计算机可读的数据格式，为任务处理模块提供统一的数据处理接口；

任务应用模块，用于根据数据处理模块获取的数据和自然语言处理需求，使用统一接口调用算法模型库，完成全流程模型训练；并根据保存的最佳模型，对外提供规范统一的任务调用接口，以完成相应自然语言处理任务；使用训练所得的最后更新模型，完成自然语言处理任务；

算法模型库，用于保存自然语言处理任务的算法及根据算法训练得到的模型；

算法模型库包含的算法有基于深度学习的文本分类算法，基于机器学习的文本分类算法，基于机器学习的聚类算法，基于深度序列模型的分词、词性标注、命名实体识别算法，基于深度学习和图的句法依存解析和语义依存解析算法，基于概率统计和深度学习的相似度算法，基于规则解析的特殊词组提取算法，基于依存树和句子结构的句子解析算法，基于深度学习的语义槽与意图识别算法。

按上述方案，所述数据处理模块包括IO模块、数据管理模块、数据清洗模块和Token转换模块；

IO模块，用于读写各种类型的数据文件；所述数据文件包括：txt文件、json文件、xml文件、csv文件、Numpy数据文件、Pickle数据文件以及MySQL数据库文件；

数据管理模块，用于对不同任务的不同数据格式文件进行统一处理；所述处理包括文本数据获取，构建特征映射表，文本内容特征转换；

数据清洗模块，用于原始文本数据的清洗工作，包括去掉无效字符串、去掉停用词和繁简转换；

Token转换模块，用于通过构建对应词表，将文本字符(词或字)转换为对应的id。

按上述方案，所述任务应用模块包括分类应用模块、聚类应用模块、序列标注应用模块、依存解析应用模块、相似度应用模块、句子解析应用模块、语义槽应用模块；

分类应用模块，用于调用算法模型库中深度学习和机器学习分类算法，实现了对文本分类任务的训练和预测，训练后所得模型参数保存于算法模型库中；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910867399.6/2.html，转载请声明来源钻瓜专利网。