[发明专利]一种基于AI的对象化属性文本自动分类方法及系统在审

申请号：	202110295365.1	申请日：	2021-03-19
公开（公告）号：	CN112966111A	公开（公告）日：	2021-06-15
发明（设计）人：	王建伟	申请（专利权）人：	北京星汉博纳医药科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/951;G06F40/126;G06K9/62;G06N20/00
代理公司：	上海氦闪专利代理事务所(普通合伙) 31354	代理人：	李明;袁媛
地址：	101312 北京市顺***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 ai 对象属性文本自动分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于数据分析和数据挖掘技术领域，尤其是一种基于AI的对象化属性文本自动分类方法及系统，包括分类方法，所述分类方法的核心步骤如下：建立字符编码库，把历史做过入库的所有文本数据进行字符化分解，单个字符在库中做唯一数字编号，编号规则，使用整数做自增编号；标准属性数据预处理，提取已入库的标准数据，作为待训练数据，字符串长度限制为60个汉字字符，如：药品通用名、药品规格、药品生产企业、批准文号等，能清晰表达数据属性特征的字段。通过本发明可以快速判断一段数据描述的主体属性类别，然后判断属性类别是否与主体设计一致；另外，也可以通过对多个近邻数据进行属性分类判断，在网页中定位主体描述信息位置。

技术领域

本发明涉及数据分析和数据挖掘技术领域，尤其涉及一种基于AI的对象化属性文本自动分类方法及系统。

背景技术

在短短的五年内，使用互联网的人数增加了83%。以微博为例，2018年底的微博月活跃用户增至4.62亿，日均文字发布量高达1.3亿条。面对海量的数据，单纯的人工管理归纳不同类别的信息在时间上、经济上的成本都很大。越来越多的应用开始采取自动的文本分类技术，包括垃圾评论识别、黄反识别、新闻分类、情感分析等，文本分类技术在大数据背景下，正处于高速发展时期。

经检索，中国专利公开号为CN112115264A的专利，公开了一种面向数据分布变化的文本分类模型调整方法，能够根据数据分布情况的变化，先对在线文本数据流进行标签预测，而后通过相似度计算和价值筛选，分类进行人工标注，采用对抗的训练样本数据集分别迭代训练判别网络，动态地对已训练好的识别网络模型进行调整和更新，使得离线模型自适应在线系统数据特征发生变化的情况。

上述专利还存在有以下不足之处：在机器学习的大多数算法中，是不能直接使用文本做为特征值进行训练的，当前特征工程描述中，没有说明如何计算文本间的相似度和价值，这样就很难通过模型训练达到指定目标；算法中提到“手动标注后的真实标签数据”并将其做为正样本数据，进行训练，如果想让结果比较理想，必须经过大量的人工标注才可以，这样人工工作量巨大，想让算法落地需要很多时间，如果出现新的分类情况，还需要人工参与，还需要相同或更多时间标注标签，显然不是很现实；

算法中提到“带标签数据”和“预测类别”数据，这两部分数据如何初始化，和数据来源，文中没有说明，对于这部分数据的选择和前期处理。

发明内容

基于背景技术中提出的人工工作量巨大的技术问题，本发明提出了一种基于AI的对象化属性文本自动分类方法及系统。

本发明提出的一种基于AI的对象化属性文本自动分类方法，包括分类方法，所述分类方法的核心步骤如下：

1）建立字符编码库，把历史做过入库的所有文本数据进行字符化分解，单个字符在库中做唯一数字编号，编号规则，使用整数做自增编号；

2）标准属性数据预处理，提取已入库的标准数据，作为待训练数据，字符串长度限制为60个汉字字符，如：药品通用名、药品规格、药品生产企业、批准文号等，能清晰表达数据属性特征的字段；一般情况下，表名识别为对象分类，表的字段名称识别为属性分类，为了节省数据空间，属性分类需要做字段编码转换，值提取数值编码；

3）建立视窗特征编码库，创建一张62个字段的表，用于存储主键，字符串转码值和属性标签值；把步骤2）中处理好的字符串按步骤1）中的编码做转码，也就是把字符串中的字符都转换成整数，不足60位的用0补齐，最后把字段名称作为属性标签，标注到编码后字的符串上；该步骤的目的是让算可以通过数字去理解字符，建立60位视窗，这个动作很重要，是分类是否成功的关键，它把不定长的不规范字符串的变动问题，转化为定长数据和特征更明显的单一数据问题，换了一种角度去理解字符串；

4）模型训练与交叉比对，加载步骤3）中的数据，转码字符串数据作为特征集，属性标签作为目标集，然后对所有数据进行训练集和测试集才分，分别使用已知的所有机器学习算法进行训练和预测，计算预测效果，取训练效果最好的算法作为成果输出，并把模型做对象串行化存储，保存成文档；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京星汉博纳医药科技有限公司，未经北京星汉博纳医药科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110295365.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种带有监控功能的网络安全装置
下一篇：一种装配式旋进注浆锚杆结构及使用方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于AI的对象化属性文本自动分类方法及系统在审

专利文献下载