[发明专利]一种基于AI的对象化属性文本自动分类方法及系统在审
申请号: | 202110295365.1 | 申请日: | 2021-03-19 |
公开(公告)号: | CN112966111A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 王建伟 | 申请(专利权)人: | 北京星汉博纳医药科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F40/126;G06K9/62;G06N20/00 |
代理公司: | 上海氦闪专利代理事务所(普通合伙) 31354 | 代理人: | 李明;袁媛 |
地址: | 101312 北京市顺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ai 对象 属性 文本 自动 分类 方法 系统 | ||
本发明属于数据分析和数据挖掘技术领域,尤其是一种基于AI的对象化属性文本自动分类方法及系统,包括分类方法,所述分类方法的核心步骤如下:建立字符编码库,把历史做过入库的所有文本数据进行字符化分解,单个字符在库中做唯一数字编号,编号规则,使用整数做自增编号;标准属性数据预处理,提取已入库的标准数据,作为待训练数据,字符串长度限制为60个汉字字符,如:药品通用名、药品规格、药品生产企业、批准文号等,能清晰表达数据属性特征的字段。通过本发明可以快速判断一段数据描述的主体属性类别,然后判断属性类别是否与主体设计一致;另外,也可以通过对多个近邻数据进行属性分类判断,在网页中定位主体描述信息位置。
技术领域
本发明涉及数据分析和数据挖掘技术领域,尤其涉及一种基于AI的对象化属性文本自动分类方法及系统。
背景技术
在短短的五年内,使用互联网的人数增加了83%。以微博为例,2018年底的微博月活跃用户增至4.62亿,日均文字发布量高达1.3亿条。面对海量的数据,单纯的人工管理归纳不同类别的信息在时间上、经济上的成本都很大。越来越多的应用开始采取自动的文本分类技术,包括垃圾评论识别、黄反识别、新闻分类、情感分析等,文本分类技术在大数据背景下,正处于高速发展时期。
经检索,中国专利公开号为CN112115264A的专利,公开了一种面向数据分布变化的文本分类模型调整方法,能够根据数据分布情况的变化,先对在线文本数据流进行标签预测,而后通过相似度计算和价值筛选,分类进行人工标注,采用对抗的训练样本数据集分别迭代训练判别网络,动态地对已训练好的识别网络模型进行调整和更新,使得离线模型自适应在线系统数据特征发生变化的情况。
上述专利还存在有以下不足之处:在机器学习的大多数算法中,是不能直接使用文本做为特征值进行训练的,当前特征工程描述中,没有说明如何计算文本间的相似度和价值,这样就很难通过模型训练达到指定目标;算法中提到“手动标注后的真实标签数据”并将其做为正样本数据,进行训练,如果想让结果比较理想,必须经过大量的人工标注才可以,这样人工工作量巨大,想让算法落地需要很多时间,如果出现新的分类情况,还需要人工参与,还需要相同或更多时间标注标签,显然不是很现实;
算法中提到“带标签数据”和“预测类别”数据,这两部分数据如何初始化,和数据来源,文中没有说明,对于这部分数据的选择和前期处理。
发明内容
基于背景技术中提出的人工工作量巨大的技术问题,本发明提出了一种基于AI的对象化属性文本自动分类方法及系统。
本发明提出的一种基于AI的对象化属性文本自动分类方法,包括分类方法,所述分类方法的核心步骤如下:
1)建立字符编码库,把历史做过入库的所有文本数据进行字符化分解,单个字符在库中做唯一数字编号,编号规则,使用整数做自增编号;
2)标准属性数据预处理,提取已入库的标准数据,作为待训练数据,字符串长度限制为60个汉字字符,如:药品通用名、药品规格、药品生产企业、批准文号等,能清晰表达数据属性特征的字段;一般情况下,表名识别为对象分类,表的字段名称识别为属性分类,为了节省数据空间,属性分类需要做字段编码转换,值提取数值编码;
3)建立视窗特征编码库,创建一张62个字段的表,用于存储主键,字符串转码值和属性标签值;把步骤2)中处理好的字符串按步骤1)中的编码做转码,也就是把字符串中的字符都转换成整数,不足60位的用0补齐,最后把字段名称作为属性标签,标注到编码后字的符串上;该步骤的目的是让算可以通过数字去理解字符,建立60位视窗,这个动作很重要,是分类是否成功的关键,它把不定长的不规范字符串的变动问题,转化为定长数据和特征更明显的单一数据问题,换了一种角度去理解字符串;
4)模型训练与交叉比对,加载步骤3)中的数据,转码字符串数据作为特征集,属性标签作为目标集,然后对所有数据进行训练集和测试集才分,分别使用已知的所有机器学习算法进行训练和预测,计算预测效果,取训练效果最好的算法作为成果输出,并把模型做对象串行化存储,保存成文档;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京星汉博纳医药科技有限公司,未经北京星汉博纳医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110295365.1/2.html,转载请声明来源钻瓜专利网。