[发明专利]一种基于AI的对象化属性文本自动分类方法及系统在审

专利信息
申请号: 202110295365.1 申请日: 2021-03-19
公开(公告)号: CN112966111A 公开(公告)日: 2021-06-15
发明(设计)人: 王建伟 申请(专利权)人: 北京星汉博纳医药科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/951;G06F40/126;G06K9/62;G06N20/00
代理公司: 上海氦闪专利代理事务所(普通合伙) 31354 代理人: 李明;袁媛
地址: 101312 北京市顺*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ai 对象 属性 文本 自动 分类 方法 系统
【权利要求书】:

1.一种基于AI的对象化属性文本自动分类方法,包括分类方法,其特征在于,所述分类方法的核心步骤如下:

建立字符编码库,把历史做过入库的所有文本数据进行字符化分解,单个字符在库中做唯一数字编号,编号规则,使用整数做自增编号;

2)标准属性数据预处理,提取已入库的标准数据,作为待训练数据,字符串长度限制为60个汉字字符,如:药品通用名、药品规格、药品生产企业、批准文号等,能清晰表达数据属性特征的字段;一般情况下,表名识别为对象分类,表的字段名称识别为属性分类,为了节省数据空间,属性分类需要做字段编码转换,值提取数值编码;

3)建立视窗特征编码库,创建一张62个字段的表,用于存储主键,字符串转码值和属性标签值;把步骤2)中处理好的字符串按步骤1)中的编码做转码,也就是把字符串中的字符都转换成整数,不足60位的用0补齐,最后把字段名称作为属性标签,标注到编码后字的符串上;该步骤的目的是让算可以通过数字去理解字符,建立60位视窗,这个动作很重要,是分类是否成功的关键,它把不定长的不规范字符串的变动问题,转化为定长数据和特征更明显的单一数据问题,换了一种角度去理解字符串;

4)模型训练与交叉比对,加载步骤3)中的数据,转码字符串数据作为特征集,属性标签作为目标集,然后对所有数据进行训练集和测试集才分,分别使用已知的所有机器学习算法进行训练和预测,计算预测效果,取训练效果最好的算法作为成果输出,并把模型做对象串行化存储,保存成文档;

5)属性文本分类预测,预测前需要把字符串按步骤3)中的方法把字符串转换为60位数字编码数组,多个字符串需要分开转换,一起识别;按照实验数据测试,准确率稳定在99.9%左右。

2.一种基于AI的对象化属性文本自动分类系统,包括分类系统,其特征在于,所述分类系统包括有系统管理模块、字符编码库管理模块、视窗特征编码库管理模块、数据模型训练管理模块、数据治理清洗管理模块、数据探索管理模块、任务管理模块、分类信息管理模块和统计分类与验证模块,所述系统管理模块:负责系统核心参数配置,链接外部数据库数据链接管理,通用数据etl抽取工具配置管理,用户基本信息管理,系统日志等。

3.根据权利要求2所述的一种基于AI的对象化属性文本自动分类系统,其特征在于,所述字符编码库管理模块:编码的目的,是让机器学习算法,可以理解字符串;主要负责对字符的编码,同时记录字符编码统计数量,提供公共接口,实时接收外部字符串进行转码,如果字符在编码库不存在,自动入库,并编码;提供已入库字符基础添加、修改、查询和删除功能。

4.根据权利要求2所述的一种基于AI的对象化属性文本自动分类系统,其特征在于,所述视窗特征编码库管理模块:视窗的目的是让所有字符串在同一长度,同一个视角被分析,学习,它与字符编码操作一起构成整个系统的算法核心基础;提供基础视窗基本维护功能,可对数据进行人工微调;根据不同分类特征,创建不同大小不同视窗,用于提高数据存储效率,减少算法运行时间;如:姓名属性可以用20个长度的视窗,颜色用10个够了;提供字符串加窗编码接口,实现属性标签编码转换。

5.根据权利要求2所述的一种基于AI的对象化属性文本自动分类系统,其特征在于,所述数据模型训练管理模块:实现使用视窗数据进行模型训练数据配置,不同算法加训练数据,获得的模型的预测效果会有很大出入;提供模型训练的执行情况监控;实现模型训练结果可视化交叉验证比对;提供模型训练结果串行化保存导出,并支持重命名管理;提供模型使用情况监控,有效性控制;提供模型修正情况统计,主要由统计模块或人工修正模块控制。

6.根据权利要求5所述的一种基于AI的对象化属性文本自动分类系统,其特征在于,所述数据治理清洗管理模块:在做erp数据抽取,或爬虫数据入库的过程中,经常会遇到数据错位的情况;同对属性分类预测,可以提取出与当前分类差异化比较大的数据,交给统计分类接口去二次判断,同时发出数据问题预警,交由人工研判;研判后的结果会增加到机器学习训练数据中,每日定时重构属性分类预测模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京星汉博纳医药科技有限公司,未经北京星汉博纳医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110295365.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top