[发明专利]基于Attention神经网络的多元特征融合中文文本分类方法有效

专利信息
申请号: 201810063815.2 申请日: 2018-01-23
公开(公告)号: CN108460089B 公开(公告)日: 2022-03-01
发明(设计)人: 谢金宝;侯永进;殷楠楠;谢桂芬;王玉静;梁新涛 申请(专利权)人: 海南师范大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司: 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 代理人: 陈润明
地址: 570000 海*** 国省代码: 海南;46
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明方案公开了基于Attention神经网络的多元特征融合中文文本分类方法,属于自然语言处理领域。为了进一步提高中文文本分类的准确性,本发明通过融合3条CNN通路充分挖掘文本数据在3种不同尺寸卷积核粒度下的特征;通过融合LSTM通路来体现文本数据之间的相互联系;特别地,通过融合所提出的Attention算法模型使相对重要的数据特征在中文文本类别识别过程中发挥更大的作用,从而提高模型对中文文本类别的识别能力。实验结果表明,同等实验条件下,相比于CNN模型,LSTM结构模型及其两者的组合模型,本发明提出的模型的中文文本分类准确率明显提高,能够更好的应用于对分类准确率要求高的中文文本分类领域。
搜索关键词: 基于 attention 神经网络 多元 特征 融合 中文 文本 分类 方法
【主权项】:
1.基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,包括以下阶段:阶段1:对中文文本语料进行预处理;阶段2:构建Attention算法神经网络模型;阶段3:构建多元特征融合神经网络模型,所述多元特征融合的神经网络由三条CNN通路,一条LSTM通路和一条Attention算法通路并联组成;阶段4:模型训练,将训练集的词向量构成的嵌入层输入到多元特征融合的神经网络,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行训练并得到训练参数;阶段5:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南师范大学,未经海南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810063815.2/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于主题词语义相似度的话题聚类方法-202011576986.9
  • 姜卫平;白冰;赵崟江;郭忠武;冯慧 - 北京市博汇科技股份有限公司
  • 2020-12-28 - 2022-07-01 - G06F16/35
  • 本申请公开了一种基于主题词语义相似度的话题聚类方法,该方法对每个原始标题进行预处理,获取待聚类标题集合,然后提取目标待聚类标题对应的多个主题词,根据预设的排除词集合及每个待聚类标题对应的多个主题词,生成主题集合,对主题集合中的任一主题对象进行文本数字化处理,获取主题向量化集合,针对目标主题向量化对象,从主题向量化集合中筛选出相似的主题向量化对象,并将目标主题向量化对象与相似的主题向量化对象作为同种话题实现聚类。上述方法在针对大量网络文本数据时,不需要指定K值,通过提取主题词,然后计算相似度,便可以实现话题聚类,且能够保证聚类的主题相似,话题相近,具有覆盖范围大,计算复杂度低的优点。
  • 文本处理方法、模型训练方法、装置、设备和存储介质-202011581136.8
  • 宋凯嵩;孙常龙;康杨杨;刘晓钟;林君 - 阿里巴巴集团控股有限公司
  • 2020-12-28 - 2022-07-01 - G06F16/35
  • 本发明实施例提供一种文本处理方法、模型训练方法、装置、设备和存储介质,该方法包括:先获取包含多个语句的待检测文本,再提取出多个语句各自对应的语句特征向量。先根据每个语句对应的语句特征向量确定此语句的类型,再根据每个语句的类型确定整个待检测文本的类型。可见,在上述分类过程实现了不同级别的分类,即在确定出整篇文本是否涉及敏感内容的同时,还可以具体确定出文本中具体是哪些语句涉及敏感内容,从而细化了文本的分类粒度。在实际应用中,语句级别以及文档级别的分类结果都可以输出给用户,以便用户根据不同级别的分类结果对整篇文本或者文本中的某些语句进行处理,也实现了细化对长文本数据的处理粒度的效果。
  • 信息处理方法、装置、设备和票据处理方法-202011581219.7
  • 张月;王睿;章波 - 阿里巴巴集团控股有限公司
  • 2020-12-28 - 2022-07-01 - G06F16/35
  • 本申请公开了一种信息处理方法,包括:获得包含布局信息的目标文本,所述布局信息包括一个或多个单元格;根据所述单元格中的坐标信息和文本信息,获得所述坐标信息对应的向量特征信息和所述文本信息对应的向量特征信息;将所述坐标信息对应的向量特征信息、所述文本信息对应的向量特征信息进行编码,得到编码后的单元格的向量表示;根据所述单元格的向量表示确定所述单元格的键向量表示和值向量表示;根据所述单元格的键向量表示和值向量表示,确定所述布局信息中的第一单元格与所述布局信息中的第二单元格之间的修饰关系。采用上述方法,以解决现有技术存在的在从包含布局信息的文本抽取出信息的方法不能在不同领域进行迁移的问题。
  • 一种意图识别故障的方法、装置、电子设备及存储介质-202210306912.6
  • 易存道 - 北京宝兰德软件股份有限公司
  • 2022-03-25 - 2022-07-01 - G06F16/35
  • 本发明提供一种意图识别故障的方法、装置、电子设备及介质,所述方法包括:获取目标故障数据,将所述目标故障数据对应的目标文本数据输入到预先训练的意图识别模型,获取多个意图识别结果;根据所述多个意图识别结果与所述目标故障数据的关键信息,确定出多个故障解决方案,其中,所述意图识别模型是基于Borderline smote算法获取的合成样本数据集以及所述合成样本数据集所对应的标签数据进行训练得到的。本发明提供的意图识别故障的方法能够减少训练数据的数量,提高模型的准确率,减少人力和时间成本,返回多种故障解决方案,提升用户体验。
  • 医疗文献的标识方法、检索方法及系统、存储介质、设备-202210322896.X
  • 刘帅;王尧 - 医渡云(北京)技术有限公司
  • 2022-03-29 - 2022-07-01 - G06F16/35
  • 本公开是关于一种医疗文献的标识方法及装置、检索方法、存储介质、设备,涉及医疗大数据处理技术领域,该方法包括:获取待标识医疗文献,并基于预设的医疗实体提取模型,提取所述待标识医疗文献中包括的当前医疗实体对;基于预设的分类模型对所述当前医疗实体对进行分类,得到所述治疗实体对所述疾病实体的效果类别,并在预设的医疗知识图谱中匹配与所述治疗实体中包括的药物实体对应的治疗类别;根据所述待标识医疗文献所属的当前文献研究类型、当前医疗实体对、效果类别以及治疗类别,生成与待标识医疗文献对应的当前标识文本。该方法提高了标识结果的精确度。
  • 文本分类模型的训练方法、装置、电子设备及存储介质-202011560064.9
  • 尚航;吕廷迅;杨森;高建煌;李江东;班鑫;聂旺文 - 北京达佳互联信息技术有限公司
  • 2020-12-25 - 2022-07-01 - G06F16/35
  • 本公开提供了一种文本分类模型的训练方法、装置、电子设备及存储介质,属于机器学习技术领域。方法包括:基于本次迭代过程对应的文本分类模型对样本标题文本进行分类,得到样本标题文本的概率向量;确定第一类别标签的目标标签权重,第一类别标签为样本标题文本所属的类别标签,目标标签权重的大小与属于第一类别标签的样本标题文本的数量成反比;根据概率向量和目标标签权重,确定本次迭代过程的第一损失值;响应于第一损失值符合目标条件,将文本分类模型作为训练完毕的文本分类模型。上述方法,使训练得到的文本分类模型能够对数据量较少的类别标签的特征进行有效的学习,从而提高文本分类模型的准确率。
  • 一种文本分类的方法、装置、设备和可读存储介质-202210399231.9
  • 熊涛;杜新凯;吕超;王建辉;刘广鹏 - 阳光保险集团股份有限公司
  • 2022-04-15 - 2022-07-01 - G06F16/35
  • 本申请提供一种文本分类的方法、装置、设备和可读存储介质,该方法包括,计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值;基于多个差值和多个词语对应的多个向量,确定待分类文本对应的向量矩阵;基于向量矩阵,确定待分类文本对应的多个类别和每一类别对应的置信度;基于待分类文本对应的多个类别和每一类别对应的置信度,将置信度最高的对应的类别作为待分类文本的所属类别。通过该方法可以达到对复杂文本进行准确的分类处理的效果。
  • 自动驾驶日志数据的语义化处理方法、装置及存储介质-202210366434.8
  • 王亚亮;林恣;罗泽为;谭伟华;韩旭 - 广州文远知行科技有限公司
  • 2022-04-08 - 2022-07-01 - G06F16/35
  • 本申请提供了一种自动驾驶日志数据的语义化处理方法、装置及存储介质,所述方法包括:获取自动驾驶日志数据,所述自动驾驶日志数据包括多类待渲染日志数据;将多类所述待渲染日志数据分为至少两个数据组别,并根据每一类所述待渲染日志数据所属的数据组别,生成多个渲染数据生成任务;其中,所属数据组别不同的待渲染日志数据对应不同的渲染数据生成任务;处理各所述渲染数据生成任务,以得到语义化处理结果。采用本申请的方法能够降低处理设备的性能要求,并降低成本。同时,本申请的方法还可应用于多种不同部署方式的计算系统中,具备高可拓展性。
  • 面向多级标签的文本分类方法、装置、设备及存储介质-202210225366.3
  • 王婧宜;禹宁;冯昊;孔庆超;王宇琪;许刚刚;曹家;罗引 - 航空工业信息中心;北京中科闻歌科技股份有限公司;中国科学院自动化研究所
  • 2022-03-09 - 2022-07-01 - G06F16/35
  • 本公开实施例涉及一种面向多级标签的文本分类方法、装置、设备及存储介质。本公开实施例通过获取文本以及文本中关键词对应的标签;基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;分别计算文本的特征向量与每个标签的向量之间的余弦相似度;将余弦相似度大于预设阈值的标签确定为文本的标签。通过对文本和现有类别标签进行编码处理和余弦相似度计算处理,选择出文本内容相匹配的标签,可减轻对人工标注标签的依赖,降低人工标注和标签体系的维护成本,提高标签标注的准确率,使文本分类结果更准确。
  • 一种内容分类方法、装置、系统及存储介质-202210232919.8
  • 陈梓阳 - 电子科技大学
  • 2022-03-09 - 2022-07-01 - G06F16/35
  • 本发明实施例公开了一种内容分类方法、装置、系统及存储介质,方法包括:构建与设定类型对应的关键词字典;获取待分类内容的标题,对所述待分类内容的标题进行预处理;根据所述关键词字典,将预处理后的标题转化为输入特征向量;根据所述输入特征向量计算所述待分类内容的正文为设定类型的概率;根据所述概率确定所述待分类内容的内容类型。实施本申请提供的方法,可以准确、快速地对互联网上的文字内容进行分类,滤除互联网上无意义的文章或不实新闻等内容,为广大渴望获取有意义资讯的互联网用户提供了一个更加良好的内容获取环境,同时也能极大净化互联网风气,提升用户内容资讯浏览体验。
  • 文本聚类方法、装置及电子设备-202210260416.1
  • 范淑君 - 中国工商银行股份有限公司
  • 2022-03-16 - 2022-07-01 - G06F16/35
  • 本发明公开了一种文本聚类方法、装置及电子设备。涉及金融科技领域或其它领域,该方法包括:获取待处理文本的多个数字向量,其中,每个数字向量与待处理文本中的部分文本相对应;基于多个数字向量确定第一距离阈值和第二距离阈值,其中,第一距离阈值为聚类范围的最大限值,第二距离阈值为聚类范围的最小限值;基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,得到聚类结果;获取聚类结果中的簇的数量;基于簇的数量对多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,目标质心向量表征与目标质心向量所对应的簇的特征。本发明解决了由于现有技术中簇的数量无法准确确定造成的文本聚类效果差的技术问题。
  • 一种用户标签生成方法和系统-202210277838.X
  • 韩亮;张渴;杨韦庚 - 前锦网络信息技术(上海)有限公司
  • 2022-03-16 - 2022-07-01 - G06F16/35
  • 本发明涉及一种用户标签生成方法和系统,其中,所述方法包括:获取求职用户与招聘用户在招聘平台的在线聊天信息;分别基于求职用户和招聘用户对所述在线聊天信息分类,分别获得求职用户的聊天信息群和招聘用户的聊天信息群;基于目标用户的类别对其聊天信息群进行本文分析,从所述聊天信息群中确定出目标用户的关注信息,其中,所述目标用户为求职用户和/或招聘用户;以及基于所述关注信息生成目标用户的补充标签。本发明从新的信息源中得到用户关注的、原简历或招聘信息中没有体现的深层次信息,使得在进行职位/人才推荐时使用的信息更加全面、更能体现出用户的真实意图,从而能够有效地提高推荐的成功率。
  • 一种基金产品的审核方法、装置以及设备-202210204597.6
  • 金鑫;苏豫陇;孙麒清;潘科;伍潇;胡童欣;刘永磊;田初东;张洁;王伟;廖凌波 - 支付宝(杭州)信息技术有限公司;博时基金管理有限公司
  • 2022-03-03 - 2022-07-01 - G06F16/35
  • 本说明书实施例公开了一种基金产品的审核方法、装置以及设备。所述方法包括:获取基金产品的基金产品的营销内容,所述基金产品的营销内容为所述基金产品的营销内容;对所述基金产品的营销内容进行模块划分,获得所述基金产品的营销内容的若干子模块;对所述若干子模块进行文本分类,获得所述若干子模块的文本分类结果,所述文本分类结果是基于所述基金产品的营销内容的文本分类类型获得的结果,所述基金产品的营销内容的文本分类类型包括:产品推广内容、基金经理相关内容、基金公司相关内容、行业现状相关内容、其它内容中的一种或多种;基于所述若干子模块的文本分类结果及预设的规则库,对所述若干子模块进行审核,获得所述若干子模块的审核结果。
  • 文本分类模型训练方法及装置、文本分类方法及装置-202011640609.7
  • 刘畅;李长亮;郭馨泽 - 北京金山数字娱乐科技有限公司
  • 2020-12-31 - 2022-07-01 - G06F16/35
  • 本申请提供文本分类模型训练方法及装置、文本分类方法及装置,其中所述文本分类模型训练方法包括:基于初始关键词和初始语料构建训练样本集;从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,mx;利用所述第一训练样本训练获得类别识别模型;利用所述第二训练样本对所述类别识别模型进行验证,并重复执行上述步骤直至确定所述类别识别模型满足验证条件。本申请提供的文本分类模型训练方法,只需少量准确的标注数据即可训练文本分类模型。
  • 对文本中的事件论元进行抽取的方法和电子设备-202210238820.9
  • 陶建华;杨国花;马文杰;张大伟;何佳毅 - 中国科学院自动化研究所
  • 2022-03-11 - 2022-07-01 - G06F16/35
  • 本公开涉及一种对文本中的事件论元进行抽取的方法和电子设备,该方法包括:对待处理文本中包含的事件类型进行检测,得到目标事件类型;根据该目标事件类型及对应的目标论元角色的先验关联信息,构造得到论元抽取问题;将待处理文本和论元抽取问题进行拼接,得到目标文本;将该目标文本的表示向量输入至机器阅读理解模型中,该模型包括两层依序设置的分类器,第一层分类器同步对该目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;根据该答案预测结果和对应的标签,输出事件论元。
  • 基于多模态模式的中文写作智能分析方法、系统及介质-202210314409.5
  • 王兰忠 - 山东大学
  • 2022-03-29 - 2022-07-01 - G06F16/35
  • 本发明公开了一种基于多模态模式的中文写作智能分析方法、系统及介质,涉及智能文本分析技术领域,包括:获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;获取所述中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;根据所述匹配程度及流畅程度生成中文写作原文的分析结果。本发明通过对中文写作中的多模态资源及多模态特征进行提取及评价并识别判断文章中的语法错误,提高了多模态模式下中文写作的分析效率及准确度。
  • 一种基于深度神经网络特定目标情感分类方法-201910249992.4
  • 谢金宝;王振东;马骏杰;战岭;吕世伟 - 哈尔滨理工大学
  • 2019-03-29 - 2022-07-01 - G06F16/35
  • 本发明提供一种基于深度神经网络特定目标情感分类方法。属于自然语言处理的文本情感分类领域。首先对数据集进行中文分词、去除停用词、去除标点的操作,接着采用word2vec算法对处理后的语料进行训练来得到相应的词向量,然后,将训练集输入到基于目标注意力机制的长短期记忆网络模型结构中,在实现注意力权重训练的过程中,将特定目标和特定方面嵌入进去,用特定方面嵌入的加权求和来表示特定目标,使模型对特定目标和特定方面给与更多正确的关注,实现更好地捕捉目标的真实语义,最终提高了特定目标情感分类的准确度。
  • 文本聚类的方法、设备和存储介质-201910753636.6
  • 龚朝辉;陈汝龙;陈誉;段成阁 - 企查查科技有限公司
  • 2019-08-15 - 2022-07-01 - G06F16/35
  • 本发明揭示了一种文本聚类的方法、设备和存储介质,所述方法包括:获取待聚类的文本标题列表;以所述文本标题为顶点,以所述文本标题向量化后的距离为边,构建所述文本标题之间的初始连通图;移除所述初始连通图的大于初始距离阈值的边,得到一个或者多个子连通图;计算每个所述子连通图的聚集程度,若一个所述子连通图的聚集程度大于或等于分簇阈值,所述子连通图对应的文本集合即为一个文本簇。与现有技术相比,本发明能够对文本进行快速、稳定地聚类,同样的文本数据每次聚类的结果是一致的。同时,使用此方法对企业相关的新闻进行聚类,能够快速的实现对企业热点新闻的稳定提取,对于企业相关的新闻热点提取有较好的效果。
  • 基于容错粗糙集的词袋模型文本表示方法、系统及介质-201911023328.4
  • 邱东;江海欢;闫睿腾 - 重庆邮电大学
  • 2019-10-25 - 2022-07-01 - G06F16/35
  • 本发明请求保护一种基于容错粗糙集的词袋模型文本表示方法,包括:101、计算机获取语料库,并对语料库进行预处理操作;102、计算机确定语料库的基词集合;103、计算机获取每个基词的不确定性函数(容错类),构建不确定性函数矩阵;104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵。本发明主要是通过应用容错粗糙集模型,计算语料库中词语对于每篇文档的模糊隶属度,获得文档的上近似和下近似,构建相应的权重计算方法进行文档表示,切实结合当下的技术发展需求。
  • 用于口语交互的文本分类模型的训练方法及系统-201911066202.5
  • 方艳;徐华;初敏 - 思必驰科技股份有限公司
  • 2019-11-04 - 2022-07-01 - G06F16/35
  • 本发明实施例提供一种用于口语交互的文本分类模型的训练方法。该方法包括:获取口语文本语料训练集以及对话历史语境信息;通过对话历史语境信息对口语文本语料训练集进行语料扩充,丰富口语文本语料训练集;基于双向长短时记忆网络建立文本分类模型,通过对话历史语境信息以及语料扩充后的口语文本语料训练集,对文本分类模型进行训练,使文本分类模型通过对话历史语境信息学习到口语文本的领域分类。本发明实施例还提供一种用于口语交互的文本分类模型的训练系统。本发明实施例确定对话历史语境信息,构造大量的虚拟对话文本,弥补了语料不足;将对话历史语境信息作为训练模型输入的一部分,对话历史语境信息帮助模型提升领域分类的准确率。
  • 一种微博文本分类系统-201911197204.8
  • 吴渝;赵珍妮;李红波 - 重庆邮电大学
  • 2019-11-29 - 2022-07-01 - G06F16/35
  • 本发明请求保护一种微博文本分类系统,具体包括以下模块:数据预处理模块,用python爬虫软件爬取微博博文信息和微博用户信息,清洗缺失的数据,并根据情感极性进行人工打标;词向量词性增强模块:通过word2vec构造微博博文信息的词向量,在原始词向量的基础上,根据情感词词典和程度副词词典增强词性信息;新特征构造模块:用于对微博用户信息进行特征提取工作,在原始特征的基础上构造出新的特征;分类模块:利用改进的textCNN模型,先通过卷积层和池化层学习词向量信息,再通过全连接层融入用户信息,最后用softmax函数激活,将微博文本分为积极、消极和中性三种类型。
  • 一种短文本分类方法、终端设备及存储介质-201911366859.3
  • 邓叶勋;赵建强;黄剑;陈诚;刘晓芳;郑伟斌 - 厦门市美亚柏科信息股份有限公司
  • 2019-12-26 - 2022-07-01 - G06F16/35
  • 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。
  • 一种基于情感识别与瞳孔大小计算的Deepfake检测方法-202011532434.8
  • 刘毅;王鹏程;陈晋音 - 浙江工业大学
  • 2020-12-22 - 2022-07-01 - G06F16/35
  • 本发明公开了一种基于情感识别与瞳孔大小计算的Deepfake检测方法,包括:(1)将语音数据划分为训练集X和测试集Q后进行数据处理,并对训练语音识别模型Y进行训练和测试;(2)将文本数据划分为训练集N和测试集P后进行数据处理,并对训练文本情感分类模型M进行训练和测试;(3)对于待检测的Deepfake视频,提取音频后输入到语音识别模型Y中,再将输出的文本输入到文本情感分类模型M,得到与文本对应的情感;(4)将待测的Deepfake视频转换为图片帧,检测人眼瞳孔的大小;(5)将检测到的人眼瞳孔大小与文本情感分类模型M得到的情感进行匹配,如果不匹配,则判定是假视频。本发明对不同的Deepfake方法生成的假视频都能够较好的检测,泛化能力强。
  • 分类模型确定方法、装置、设备及存储介质-202210253330.6
  • 刘建国;王迪;朱毅 - 青岛海尔科技有限公司;海尔智家股份有限公司
  • 2022-03-15 - 2022-06-28 - G06F16/35
  • 本申请提供的一种分类模型确定方法、装置、设备及存储介质,通过获取至少两个类别以及类别下的文本数据信息,得到原始训练集文本数据信息;对原始训练集文本数据信息进行特征处理,得到待添加的特征向量;其中,待添加的特征向量表征原始训练集文本数据信息的特征;将待添加的特征向量添加至基准分类模型中,得到校准分类模型;其中,基准分类模型是由原始训练集文本数据信息训练得到的。采用本技术方案,能够提升文本分类的精准度。
  • 一种基于空时网络聚类约简集成的极端多标签学习方法-202210260959.3
  • 夏跃龙;杨云 - 云南大学
  • 2022-03-16 - 2022-06-28 - G06F16/35
  • 本发明公开了多标签文本挖掘技术领域的一种基于空时网络聚类约简集成的极端多标签学习方法,包括以下步骤:空时网络注意力集成表征;自适应标签关系增强和聚类约简学习;加权的约简标签集不平衡学习;本发明集成了多标签文本中词、短语、标签三者之间交互注意力,探索了词、短语、标签之间的依赖关系,有效提升了极端多标签文本表征能力;提出自适应标签关系增强和聚类约简学习机制,通过自适应标签关系增强,能有效挖掘标签之间的依赖关系,提升模型的泛化性,通过聚类约简学习,能有效将不同量级标签适应现有模型进行训练;提出加权的约简标签集不平衡学习机制,解决了标签稀疏和不平衡带来的模型泛化性、可扩展性差等问题。
  • 一种基于机器学习算法的元数据分级分类方法-202210300625.4
  • 吴明光;郭慧茹;刘琼;周官皓 - 上海电力大学;上海海事大学
  • 2022-03-25 - 2022-06-28 - G06F16/35
  • 本发明提供一种基于机器学习算法的元数据分级分类方法,包括以下步骤:首先根据原始元数据集创建了频繁项词库;然后创新的基于频繁项词库将原始元数据集中复杂且无统一规则的类文本字段的特征转化为数值型特征,从而解决现有文本分类方法无法针对无统一命名规则的元数据字段进行准确分类的问题;其次,构建了两阶段分类模型,并对该模型进行了训练和优化,通过该模型的二分类器对待测元数据先进行敏感级别分类,最后由多分类器进一步对敏感类元数据进行细分类,输出更为准确的分级分类结果。该方法解决了目前金融领域敏感数据依靠人力进行分类分级耗费巨大的问题,实现了精准分类,有效保护了数据隐私,满足了业务需求,提高了分类工作效率。
  • 基于主题感知的分层多注意网络的文本分类方法及系统-202210301878.3
  • 姜也;王宜敏 - 青岛科技大学
  • 2022-03-25 - 2022-06-28 - G06F16/35
  • 本发明提供了一种基于主题感知的分层多注意网络的文本分类方法及系统,包括:获取待分类的文本信息;依据获取的文本信息,以及预设的文本分类模型,得到分类结果;其中,所述文本分类模型以分层结构的形式构建了多个注意机制,将句子级和文档级的输入分别转换为句子和文档编码器;本发明以自注意作为神经网络的主要构建块,不仅提高了对距离关系的建模能力,而且由于前馈结构,自注意网络的训练速度也更快;引入了层次神经结构,它将句子级和文档级的输入分别转换为句子和文档编码器,实现了最先进的分类精度。
  • 结合RPA及AI的结构化信息获取方法、装置及存储介质-202210191379.3
  • 王杰;白龙飞;张海雷 - 来也科技(北京)有限公司
  • 2022-03-01 - 2022-06-28 - G06F16/35
  • 本申请涉及计算机技术领域,尤其涉及一种结合RPA及AI的结构化信息获取方法、装置及存储介质。其中,一种结合RPA及AI的结构化信息获取方法,包括:采用文本块分类模型,获取文档对应的文本块集合中至少一个文本块的标签信息;对至少一个文本块进行行首判定处理和同行判定处理,获取至少一个文本块对应的判定结果;基于标签信息和判定结果,获取文档对应的结构化信息。采用本申请,通过深度学习模型对文档处理时,无需采用大量的标注训练样本对深度学习模型进行训练,可以减少模型训练成本以及数据标注成本,同时基于行行首判定处理和同行判定处理对应的判定结果,构建结构化信息可以提高结构化信息获取的准确性,提高用户的使用体验。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

tel code back_top