[发明专利]一种基于AI的对象化属性文本自动分类方法及系统在审
申请号: | 202110295365.1 | 申请日: | 2021-03-19 |
公开(公告)号: | CN112966111A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 王建伟 | 申请(专利权)人: | 北京星汉博纳医药科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F40/126;G06K9/62;G06N20/00 |
代理公司: | 上海氦闪专利代理事务所(普通合伙) 31354 | 代理人: | 李明;袁媛 |
地址: | 101312 北京市顺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ai 对象 属性 文本 自动 分类 方法 系统 | ||
1.一种基于AI的对象化属性文本自动分类方法,包括分类方法,其特征在于,所述分类方法的核心步骤如下:
建立字符编码库,把历史做过入库的所有文本数据进行字符化分解,单个字符在库中做唯一数字编号,编号规则,使用整数做自增编号;
2)标准属性数据预处理,提取已入库的标准数据,作为待训练数据,字符串长度限制为60个汉字字符,如:药品通用名、药品规格、药品生产企业、批准文号等,能清晰表达数据属性特征的字段;一般情况下,表名识别为对象分类,表的字段名称识别为属性分类,为了节省数据空间,属性分类需要做字段编码转换,值提取数值编码;
3)建立视窗特征编码库,创建一张62个字段的表,用于存储主键,字符串转码值和属性标签值;把步骤2)中处理好的字符串按步骤1)中的编码做转码,也就是把字符串中的字符都转换成整数,不足60位的用0补齐,最后把字段名称作为属性标签,标注到编码后字的符串上;该步骤的目的是让算可以通过数字去理解字符,建立60位视窗,这个动作很重要,是分类是否成功的关键,它把不定长的不规范字符串的变动问题,转化为定长数据和特征更明显的单一数据问题,换了一种角度去理解字符串;
4)模型训练与交叉比对,加载步骤3)中的数据,转码字符串数据作为特征集,属性标签作为目标集,然后对所有数据进行训练集和测试集才分,分别使用已知的所有机器学习算法进行训练和预测,计算预测效果,取训练效果最好的算法作为成果输出,并把模型做对象串行化存储,保存成文档;
5)属性文本分类预测,预测前需要把字符串按步骤3)中的方法把字符串转换为60位数字编码数组,多个字符串需要分开转换,一起识别;按照实验数据测试,准确率稳定在99.9%左右。
2.一种基于AI的对象化属性文本自动分类系统,包括分类系统,其特征在于,所述分类系统包括有系统管理模块、字符编码库管理模块、视窗特征编码库管理模块、数据模型训练管理模块、数据治理清洗管理模块、数据探索管理模块、任务管理模块、分类信息管理模块和统计分类与验证模块,所述系统管理模块:负责系统核心参数配置,链接外部数据库数据链接管理,通用数据etl抽取工具配置管理,用户基本信息管理,系统日志等。
3.根据权利要求2所述的一种基于AI的对象化属性文本自动分类系统,其特征在于,所述字符编码库管理模块:编码的目的,是让机器学习算法,可以理解字符串;主要负责对字符的编码,同时记录字符编码统计数量,提供公共接口,实时接收外部字符串进行转码,如果字符在编码库不存在,自动入库,并编码;提供已入库字符基础添加、修改、查询和删除功能。
4.根据权利要求2所述的一种基于AI的对象化属性文本自动分类系统,其特征在于,所述视窗特征编码库管理模块:视窗的目的是让所有字符串在同一长度,同一个视角被分析,学习,它与字符编码操作一起构成整个系统的算法核心基础;提供基础视窗基本维护功能,可对数据进行人工微调;根据不同分类特征,创建不同大小不同视窗,用于提高数据存储效率,减少算法运行时间;如:姓名属性可以用20个长度的视窗,颜色用10个够了;提供字符串加窗编码接口,实现属性标签编码转换。
5.根据权利要求2所述的一种基于AI的对象化属性文本自动分类系统,其特征在于,所述数据模型训练管理模块:实现使用视窗数据进行模型训练数据配置,不同算法加训练数据,获得的模型的预测效果会有很大出入;提供模型训练的执行情况监控;实现模型训练结果可视化交叉验证比对;提供模型训练结果串行化保存导出,并支持重命名管理;提供模型使用情况监控,有效性控制;提供模型修正情况统计,主要由统计模块或人工修正模块控制。
6.根据权利要求5所述的一种基于AI的对象化属性文本自动分类系统,其特征在于,所述数据治理清洗管理模块:在做erp数据抽取,或爬虫数据入库的过程中,经常会遇到数据错位的情况;同对属性分类预测,可以提取出与当前分类差异化比较大的数据,交给统计分类接口去二次判断,同时发出数据问题预警,交由人工研判;研判后的结果会增加到机器学习训练数据中,每日定时重构属性分类预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京星汉博纳医药科技有限公司,未经北京星汉博纳医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110295365.1/1.html,转载请声明来源钻瓜专利网。