[发明专利]一种基于AI的对象化属性文本自动分类方法及系统在审

专利信息
申请号: 202110295365.1 申请日: 2021-03-19
公开(公告)号: CN112966111A 公开(公告)日: 2021-06-15
发明(设计)人: 王建伟 申请(专利权)人: 北京星汉博纳医药科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/951;G06F40/126;G06K9/62;G06N20/00
代理公司: 上海氦闪专利代理事务所(普通合伙) 31354 代理人: 李明;袁媛
地址: 101312 北京市顺*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ai 对象 属性 文本 自动 分类 方法 系统
【说明书】:

本发明属于数据分析和数据挖掘技术领域,尤其是一种基于AI的对象化属性文本自动分类方法及系统,包括分类方法,所述分类方法的核心步骤如下:建立字符编码库,把历史做过入库的所有文本数据进行字符化分解,单个字符在库中做唯一数字编号,编号规则,使用整数做自增编号;标准属性数据预处理,提取已入库的标准数据,作为待训练数据,字符串长度限制为60个汉字字符,如:药品通用名、药品规格、药品生产企业、批准文号等,能清晰表达数据属性特征的字段。通过本发明可以快速判断一段数据描述的主体属性类别,然后判断属性类别是否与主体设计一致;另外,也可以通过对多个近邻数据进行属性分类判断,在网页中定位主体描述信息位置。

技术领域

本发明涉及数据分析和数据挖掘技术领域,尤其涉及一种基于AI的对象化属性文本自动分类方法及系统。

背景技术

在短短的五年内,使用互联网的人数增加了83%。以微博为例,2018年底的微博月活跃用户增至4.62亿,日均文字发布量高达1.3亿条。面对海量的数据,单纯的人工管理归纳不同类别的信息在时间上、经济上的成本都很大。越来越多的应用开始采取自动的文本分类技术,包括垃圾评论识别、黄反识别、新闻分类、情感分析等,文本分类技术在大数据背景下,正处于高速发展时期。

经检索,中国专利公开号为CN112115264A的专利,公开了一种面向数据分布变化的文本分类模型调整方法,能够根据数据分布情况的变化,先对在线文本数据流进行标签预测,而后通过相似度计算和价值筛选,分类进行人工标注,采用对抗的训练样本数据集分别迭代训练判别网络,动态地对已训练好的识别网络模型进行调整和更新,使得离线模型自适应在线系统数据特征发生变化的情况。

上述专利还存在有以下不足之处:在机器学习的大多数算法中,是不能直接使用文本做为特征值进行训练的,当前特征工程描述中,没有说明如何计算文本间的相似度和价值,这样就很难通过模型训练达到指定目标;算法中提到“手动标注后的真实标签数据”并将其做为正样本数据,进行训练,如果想让结果比较理想,必须经过大量的人工标注才可以,这样人工工作量巨大,想让算法落地需要很多时间,如果出现新的分类情况,还需要人工参与,还需要相同或更多时间标注标签,显然不是很现实;

算法中提到“带标签数据”和“预测类别”数据,这两部分数据如何初始化,和数据来源,文中没有说明,对于这部分数据的选择和前期处理。

发明内容

基于背景技术中提出的人工工作量巨大的技术问题,本发明提出了一种基于AI的对象化属性文本自动分类方法及系统。

本发明提出的一种基于AI的对象化属性文本自动分类方法,包括分类方法,所述分类方法的核心步骤如下:

1)建立字符编码库,把历史做过入库的所有文本数据进行字符化分解,单个字符在库中做唯一数字编号,编号规则,使用整数做自增编号;

2)标准属性数据预处理,提取已入库的标准数据,作为待训练数据,字符串长度限制为60个汉字字符,如:药品通用名、药品规格、药品生产企业、批准文号等,能清晰表达数据属性特征的字段;一般情况下,表名识别为对象分类,表的字段名称识别为属性分类,为了节省数据空间,属性分类需要做字段编码转换,值提取数值编码;

3)建立视窗特征编码库,创建一张62个字段的表,用于存储主键,字符串转码值和属性标签值;把步骤2)中处理好的字符串按步骤1)中的编码做转码,也就是把字符串中的字符都转换成整数,不足60位的用0补齐,最后把字段名称作为属性标签,标注到编码后字的符串上;该步骤的目的是让算可以通过数字去理解字符,建立60位视窗,这个动作很重要,是分类是否成功的关键,它把不定长的不规范字符串的变动问题,转化为定长数据和特征更明显的单一数据问题,换了一种角度去理解字符串;

4)模型训练与交叉比对,加载步骤3)中的数据,转码字符串数据作为特征集,属性标签作为目标集,然后对所有数据进行训练集和测试集才分,分别使用已知的所有机器学习算法进行训练和预测,计算预测效果,取训练效果最好的算法作为成果输出,并把模型做对象串行化存储,保存成文档;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京星汉博纳医药科技有限公司,未经北京星汉博纳医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110295365.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top