[发明专利]基于梯度改进的元学习少样本文本分类方法有效

申请号：	202210101017.0	申请日：	2022-01-27
公开（公告）号：	CN114491039B	公开（公告）日：	2023-10-03
发明（设计）人：	彭德中;胡洪辉;吕建成;彭玺;桑永胜;胡鹏;孙亚楠;王旭;陈杰;王骞	申请（专利权）人：	四川大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F18/214;G06N3/0464;G06N3/084
代理公司：	北京深川专利代理事务所(普通合伙) 16058	代理人：	谢雪梅
地址：	610000 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于梯度改进学习样本文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于梯度改进的元学习少样本文本分类方法，包括以下具体步骤：元学习训练数据划分，构建基于少样本文本框架下的元数据集，并将元数据集划分为训练任务集、验证任务集和测试任务集；构建元学习模型；训练元学习模型，通过构建训练任务集，每次将一批次的元任务送入到内层基础学习器，元任务对应的训练将外层元学习器的参数作为内层基础学习器的初始化参数，内层基础学习器在元任务的支持集上进行训练，得到在支持集上的误差和梯度，再在查询集上检验内层基础学习器训练的效果，得到查询集上的误差和梯度；将学习到的元学习模型应用于少样本文本分类。

技术领域

本发明涉及一种计算机自然语言处理方法，特别涉及一种基于梯度改进的元学习少样本文本分类方法。

背景技术

近年来随着互联网的普及和发展，大量文本数据的积累为深度学习提供了有力的训练支撑，从而促进了深度学习技术的快速发展。然而在许多少样本文本分类任务场景中，可供训练的数据样本量不足以支撑复杂的深度神经网络，更重要的是，特定任务下学习到的深度神经网络模型难以泛化到新的文本分类任务之中，即传统的深度学习网络学习新类别的能力有限。而元学习是解决这个问题的一种方法，它使网络能够学习如何学习。其关键思想是随着模型学习过任务的增多，模型能够从不同任务之间学到一些可以泛化的通用知识，从而在遇到新的分类任务时，能够利用模型的学习能力，在仅有少量样本的场景下，出色地完成模型从未见过的分类任务。元学习的训练过程涉及内部层面和外部层面；在内部层面，模型每次都会遇到新的分类任务，其类别是之前未学习过的类别，模型试图通过从前学习到的通用知识，在该新的分类任务中快速完成学习和适应，内层的学习误差将会传递给外部层面，外部层面根据误差来修改模型的通用知识，从而具备越来越完善的学习能力。尽管元学习很大程度上提升了少样本文本分类任务的表现，但它也存在着若干待解决的问题，其中一个显著的问题是网络容易在训练集上过拟合，导致模型在新任务上的泛化表现不好。

发明内容

本发明要解决的技术问题在于提供一种基于梯度改进的元学习少样本文本分类方法，该方法针对元学习内部和外部层次的梯度算法进行改进，改善了元学习存在的过拟合问题。

为了解决上述技术问题，本发明通过以下方式来实现：

基于梯度改进的元学习少样本文本分类方法，包括以下具体步骤：

1)元学习训练数据划分，构建基于少样本文本框架下的元数据集，并将元数据集划分为训练任务集、验证任务集和测试任务集；

2)构建元学习模型；

3)训练元学习模型，通过构建训练任务集，每次将一批次的元任务送入到内层基础学习器，元任务对应的训练将外层元学习器的参数作为内层基础学习器的初始化参数，内层基础学习器在元任务的支持集上进行训练，得到在支持集上的误差和梯度，再在查询集上检验内层基础学习器训练的效果，得到查询集上的误差和梯度；

4)将学习到的元学习模型应用于少样本文本分类。

进一步的，所述步骤1)中元数据集的划分过程包括：元学习根据分类任务包括元学习的外部层次和元学习的内部层次，其中元学习的外部层次划分为训练任务集、验证任务集和测试任务集，元学习的内部层次划分为支持集和查询集，并保证各个集合类别互斥；构建对应的N-way K-shot任务，从元数据集抽取N个不同类别，每类别中抽取出K+Q个样本，其中K个样本划分到支持集，Q个样本划分到查询集。

进一步的，所述步骤3)中训练元学习模型的具体步骤如下：

31)通过对元学习的内层梯度改进模块，计算出内层基础学习器传递给外层元学习器的梯度；

首先元学习模型在支持集上利用元知识学习，得到适用于解决新任务的模型参数，其公式如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川大学，未经四川大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210101017.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种检测食品中花生衣红素含量的方法及其应用
下一篇：终端定位方法、装置、基站、定位系统、介质和产品

同类专利

一种基于大语言模型的对话系统意图识别方法及工具-202310915669.2
发明人：李志芸;冯落落;李晓瑜;李沛;尹青山 -专利权人：山东新一代信息产业技术研究院有限公司
申请日： 2023-07-25 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明公开一种基于大语言模型的对话系统意图识别方法及工具，涉及意图识别技术领域。意图识别方法包括：S1、根据需求，定义意图；S2、接收用户输入的信息；S3、根据定义的意图设计prompt，将接收信息和设计的prompt输入大语言模型，大语言模型对用户意图进行识别；S4、大语言模型根据意图识别结果调用对话系统中相应的意图模块，被调用的意图模块对意图进行处理，生成答案展示给用户。本发明能够提供更准确、更灵活、更全面的意图理解能力，提升对话系统的交互性能和用户体验。

一种适用于旅游舆情的监测方法-202310941972.X
发明人：苏婕;郑德生;钱伟中;邬劭轶 -专利权人：电子科技大学
申请日： 2023-07-28 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明提供了一种适用于旅游舆情的监测方法，包括以下步骤：确定需要监测的目标和需要采集的数据来源；利用网络爬虫技术抓取数据源中与监测目标相关的文本数据，并对抓取到的数据进行过滤与预处理，去除无关信息；对预处理后的文本数据进行数据挖掘和舆情分析，提取其中的关键信息，并对关键信息进行分类和归纳，标记文本的情感；将分析结果进行可视化展示，并生成相应的报告和分析结果。本发明使用了爬虫技术来确保了数据来源的及时性和全面性，并针对旅游舆情对各大OTA平台也实施了监控，能够更加客观全面地反映出游客对于景点的评价。

一种威胁实体识别方法、装置、电子设备及存储介质-202310957381.1
发明人：孙雄韬;刘干;李怡然;李娇 -专利权人：孙雄韬;北京天融信网络安全技术有限公司
申请日： 2023-07-28 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请提供一种威胁实体识别方法、装置、电子设备及存储介质，其中，威胁实体识别方法包括：对威胁情报文本进行切分，获取威胁情报语句；提取威胁情报语句的第一语句特征；根据第一语句特征对威胁情报语句进行分类，获取威胁情报语句的分类结果；根据威胁情报语句的分类结果，获取含有威胁信息的目标威胁情报语句；在目标威胁情报语句中识别威胁实体。上述方案通过在含有威胁信息的目标威胁情报语句中识别威胁实体，有利于改善威胁实体的识别准确率。

文本的识别方法、装置、处理器以及电子设备-202310961165.4
发明人：迟爽;高建华;李保昌;张骞 -专利权人：中国工商银行股份有限公司
申请日： 2023-08-01 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请公开了一种文本的识别方法、装置、处理器以及电子设备。涉及人工智能领域，该方法包括：获取待检测文本，对待检测文本进行文本处理，得到文本数据；获取文本数据包含的多个单词的文本概率，根据文本概率计算文本数据的文本指标，其中，文本概率用于表征每个单词的单词类型为机器生成单词的概率，文本指标至少包括第一类数据以及第二类数据，第一类数据用于表征待检测文本的用词随机性，第二类数据用于表征待检测文本的用词合理度；根据文本指标确定待检测文本的文本类型，输出文本类型，其中，文本类型包括机器生成类型以及人工生成类型。通过本申请，解决了相关技术中难以准确识别机器生成的待检测文本的问题。

文本识别方法、装置、电子设备及存储介质-202310930788.5
发明人：娄潇;李祯;吴晨霞;郭蒙 -专利权人：中国工商银行股份有限公司
申请日： 2023-07-27 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本公开提供了一种文本识别方法、装置、电子设备及存储介质，可以应用于人工智能技术领域和金融科技领域。该方法包括：识别目标文本的文本内容，得到目标产品的推荐信息；根据推荐信息，通过调用第三方平台，查询到与目标产品相对应的关联信息；在关联信息满足第一预定条件的情况下，从目标文本中提取目标字段，其中，目标字段表征推荐信息的属性类型；根据目标字段占文本内容的字段比例，生成目标文本的属性识别结果。

对象特征生成方法、装置、设备和存储介质-202310129264.6
发明人：余亭浩;陈少华;王赟豪;刘浩 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-01-31 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请提供了一种对象特征生成方法、装置、设备和存储介质，涉及人工智能技术领域，可以应用于云技术、人工智能等各种场景，方法包括：获取目标对象关联的待处理文本，以及待处理文本的内容类别信息和文本标签；基于文本标签从预设知识库中确定待处理文本的多个候选实体；对文本标签、文本标签的文本上下文信息和候选实体的实体描述信息进行语义特征提取，得到第一语义特征；根据第一语义特征、内容类别信息和候选实体的实体统计特征，从多个候选实体中筛选出待处理文本的目标实体；基于目标实体、文本标签、目标实体的实体描述信息和目标实体的实体统计特征生成目标对象的对象特征信息。本申请能够显著提高对象特征信息的信息维度和表达准确性。

一种基于研报数据和大语言模型生成产品概念的方法-202310689284.9
发明人：苏淦;黄凯文;张骏 -专利权人：广州数说故事信息科技有限公司
申请日： 2023-06-12 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请提供一种基于研报数据和大语言模型生成产品概念的方法，包括：获取研报数据的主题、来源和发布时间，对研报内容进行分类，构建行业知识库，并进行知识库向量化；根据行业知识库对研报知识进行提取，对需要进行生成的产品概念进行分类；根据需要进行生成的产品的功能特点，对每个产品功能特点分类下的产品属性进行prompt生成；根据产品设计师使用习惯、技能和知识背景，针对不同产品的功能特点，自动推荐适合不同产品的prompt的结构化参数；根据不同的用户需求，对参数列表中的结构化参数进行调整，生成准确描述产品的Prompt内容。

意图识别方法、装置、设备、介质及程序产品-202310758056.2
发明人：张倩汶;饶孟良 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-06-26 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请公开了一种意图识别方法、装置、设备、介质及程序产品，涉及人工智能领域。该方法包括：提取第一对话文本和多个候选意图类型对应的第一特征表示；提取第一对话文本和多个第二对话文本对应的第二特征表示；基于第一特征表示和第二特征表示进行意图类型预测，从多个候选意图类型中确定第一对话文本对应的第一意图类型。在少样本场景下训练得到的意图识别模型中，当某个意图类型不在意图识别模型的训练样本中，意图识别模型可通过将第一对话文本的相似文本作为补充信息预测第一对话文本属于该意图类型的概率，从而提高了对对话文本进行意图类型预测的准确度。

一种实体标签标注方法、装置、设备及存储介质-202211527597.6
发明人：王明 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-11-30 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请公开了一种实体标签标注方法、装置、设备及存储介质。该方法包括：获取待标注实体信息对应的搜索引擎搜索结果，搜索引擎搜索结果包括多个搜索网页各自对应的网页内容和网址信息；基于网址信息，从预设网站特征集合中确定多个搜索网页各自对应的网站特征信息，网站特征信息表征对应搜索网页的网站类型特征、网页文案风格特征和常用词特征；将网页内容和网站特征信息输入第一实体类型识别网络进行实体类型识别，得到待标注实体信息对应的第一类别指示信息；基于第一类别指示信息对应的目标实体类别标签，对待标注实体信息进行标签标注。利用本申请提供的方案，可以在提升第一类别指示信息的精准性的基础上，提升实体标签标注的准确性和效率。

账户状态信息获取方法、装置、电子设备和可读介质-202310090407.7
发明人：苏文龙 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-01-17 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请提供一种账户状态信息获取方法、装置、电子设备和可读介质。该方法包括：分别对待处理账户的M个文本类别的文本数据进行卷积，得到M个文本类别的文本向量；根据预设的目标文本，分别对文本数据中的目标文本进行匹配，得到M个文本统计向量；将M个文本向量与M个文本统计向量进行向量拼接，得到拼接向量；根据拼接向量进行账户状态分析，得到待处理账户的账户状态信息。该方法通过语义分类与专家经验确定的目标文本相结合，将专家经验引入到分类模型中，同时保留分类模型对通用语义的拟合能力，使得专家经验覆盖新案例、传统文本分类模型覆盖常见案例，从而提升账户状态管理的覆盖范围和准确性。

基于人工智能的谣言检测方法、装置、设备及存储介质-202310668012.0
发明人：陈雪娇 -专利权人：中国平安财产保险股份有限公司
申请日： 2023-06-06 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请实施例属于人工智能领域与金融科技领域，涉及一种基于人工智能的谣言检测方法，包括：将预先采集的主题信息训练数据集输入至预设的图卷积神经网络进行训练，得到训练好的图卷积神经网络；将所述训练好的图卷积神经网络作为谣言检测模型，并通过所述谣言检测模型对待检测的主题信息进行谣言预测处理。本申请还提供一种基于人工智能的谣言检测装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，谣言检测装置可存储于区块链中。本申请可应用于金融领域的谣言检测场景，通过使用基于图卷积神经网络与连边估计策略构建的谣言检测模型来对待检测的主题信息进行谣言预测处理，可以实现快速准确地生成与待检测的主题信息对应的预测结果。

一种文本分类方法及电子设备-202310792167.5
发明人：袁岩;张宁;张淯易 -专利权人：海信集团控股股份有限公司
申请日： 2023-06-29 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请公开了一种文本分类方法及电子设备，获取到待分类的文本并得到对应的第一词向量矩阵之后，基于词过滤模型可以确定出第一词向量矩阵中多个第一词向量各自的类别贡献度，根据多个第一词向量各自的类别贡献度，对多个第一词向量进行筛选，得到第二词向量矩阵。基于词过滤模型可以滤除掉口语词的词向量、语气词的词向量等，进而得到的第二词向量矩阵。最后将第二词向量矩阵输入文本分类模型确定文本的目标类别，这样避免了口语词、语气词等对于文本分类模型的干扰，提高了文本分类的准确性。本申请所保护的方案具有准确率高、推理速度快的特点，具备鲁棒性、可解释性和可靠性，符合可信赖性特点。

一种日志检测模型的训练方法、检测方法、装置-202211523490.4
发明人：商韵怡;郑若琳;谢宗兴;宋光;韦家益 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-11-30 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请提供了一种日志检测模型的训练方法、检测方法、装置；可应用于云技术、人工智能等各种场景；方法包括：获取多个日志样本以及对应的标签数据；识别每个日志样本中的日志等级信息并替换为掩码标记；提取日志样本中的多个关键词；基于日志样本中的掩码标记和多个关键词进行词嵌入处理，得到日志样本的嵌入向量表示后调用编码器进行编码处理，得到语义特征向量；基于语义特征向量调用分类器进行分类处理，得到业务的预测状态；将预测状态与日志样本表征的业务的实际状态代入损失函数，以通过反向传播的方式更新分类器和编码器的参数。通过本申请，能够不通过日志等级就能对日志业务状态是否异常进行准确的预测。

一种文本数据的处理方法、装置以及存储介质-202310480024.0
发明人：胡勇 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-04-27 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请公开了一种文本数据的处理方法、装置以及存储介质。通过获取输入的待处理文本；然后对待处理文本中满足预设条件的词语进行提取，以得到提取词语；并基于提取词语进行例句召回；进而将待处理文本和参考例句输入预训练语言模型，以使得预训练语言模型参考参考例句对待处理文本进行异常识别，并对异常识别所得的异常信息进行处理。从而实现基于例句的异常文本处理过程，由于采用易错或低频的词语进行例句的实时召回，并基于召回的例句进行参考识别，提高了语言模型对于易错或低频词语的识别能力，提高了对于文本数据异常处理的准确性。

一种文本观点提取方法、装置、设备及存储介质-202311113006.5
发明人：邱昱杰;谢素丹 -专利权人：杭州数梦工场科技有限公司
申请日： 2023-08-30 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本说明书实施例公开了一种文本观点提取方法、装置、设备及存储介质。在该方法中，预先训练情感分类模型和至少两个观点提取模型；所述情感分类模型用于从至少两种预设情感类别中预测文本情感类别；不同观点提取模型对应于所述至少两种预设情感类别中的不同情感类别；所述方法包括：将目标文本输入所述情感分类模型，得到所述情感分类模型预测的目标情感类别；将所述目标文本输入所述目标情感类别对应的目标观点提取模型，以使所述目标观点提取模型，从所述目标情感类别对应的观点标签集合中，选择所述目标文本中的观点。

一种类目确定的方法、相关装置、设备以及存储介质-202210366431.4
发明人：黄剑辉 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-04-08 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请公开了可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景的类目确定方法，包括：通过层级分类模型的编码器获取文本编码向量；基于文本编码向量，通过层级分类模型的第一分类器获取第一分布向量；根据文本编码向量和N个二级类目语义向量，生成文本融合向量，二级类目语义向量为基于与对应二级类目关联的至少两个关键词生成的；通过层级分类模型的第二分类器获取第二分布向量；根据第一分布向量确定目标一级类目，根据第二分布向量确定目标二级类目。本申请还提供了装置、设备及介质。本申请通过二级类目语义向量引入了一些额外的知识，因此，能够达到增强模型分类能力的目的，从而有利于提升类目分类的准确率。

语句分类模型的训练方法、装置、电子设备及存储介质-202211537457.7
发明人：黄伟鹏;蔡哲;刘宇豪;万文强 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-12-02 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请公开了一种语句分类模型的训练方法、装置、电子设备及存储介质，在模型训练阶段，获取用于训练第一编码器的第一样本语句，使用和第一编码器结构相同的第二编码器提取第一样本语句的第二特征数据作为负样本，并使用第一编码器提取到的第一样本语句的第三特征数据、以及对第三特征数据添加随机扰动得到的第四特征数据作为正样本，通过无监督对比学习的方式来确定训练的损失值，从而更新第一编码器的第一参数。本申请可提高训练效率和模型的鲁棒性、泛化性，进而有利于提高语句分类的准确率。本申请可广泛应用于云技术、人工智能、智慧交通、辅助驾驶等技术领域。

一种基于深度学习的纺织品关系抽取方法-202310913092.1
发明人：徐明亮;刘允;姜晓恒;卢洋;崔丽莎 -专利权人：郑州大学
申请日： 2023-07-20 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明公开了一种基于深度学习的纺织品关系抽取方法，包括步骤：第一步，获取纺织品领域非结构化文本数据，对文本数据进行预处理形成数据集，关系分类器利用神经网络对数据集进行特征提取，计算反向交叉熵；第二步，利用反向交叉熵计算对称交叉熵，并作为关系分类器的损失函数；第三步，使用两个相互独立、结构相同的关系分类器，并分别运用各自的损失函数进行训练，计算各自的损失后再计算两者的总分类损失；第四步，计算关于两个关系分类器预测概率之间的总对称交叉熵，将其作为共正则项与总分类损失组成联合损失，并运用联合损失分别对两个关系分类器进行训练。该方法不仅能降低噪声标签的影响，还能提高分类精确度，具有良好的关系抽取性能。

互联网数据分析系统及其方法-202310989164.0
发明人：赖起敬 -专利权人：江西中唐产业互联网有限公司
申请日： 2023-08-08 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请涉及智能分析领域，其具体公开了一种互联网数据分析系统及其方法，其使用基于深度神经网络模型的人工智能技术来智能地对社交媒体上的用户评论、话题讨论的文本数据进行特征编码与提取，以得到更为精准的用于表示用户情绪的分类标签。这样，构建互联网数据分析方案，通过实时监测社交媒体上的用户情绪，可以及时发现并应对潜在的负面舆情，保护品牌声誉和形象。

一种投诉事件分类方法、装置、计算机设备及存储介质-202310992676.2
发明人：陈嘉维;黄志远;苏红梅;郭远威;袁戟 -专利权人：武汉市万睿数字运营有限公司;深圳市万物云科技有限公司
申请日： 2023-08-08 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明公开了一种投诉事件分类方法、装置、计算机设备及存储介质，其方法包括：利用GPT‑3模型对包含若干条历史物业投诉事件的原始数据集进行摘要提取，得到关键数据集；采用AEDA技术对关键数据集进行数据增强，得到增强数据集；使用Blending融合算法对增强数据集进行训练，生成集成学习模型；其中Blending融合算法包括两个阶段，第一阶段为两个基模型，第二阶段为BERT模型；对集成学习模型进行部署并对当前输入的物业投诉事件进行分类。该方法利用GPT‑3模型对物业投诉事件进行文本摘要，使用Blending融合算法对数据进行训练、验证和测试，生成集成学习模型，最后将集成学习模型进行部署并对当前输入的物业投诉事件进行分类，减轻了物业员工的工作压力，提高工作效率。

基于人工智能的病案文书识别方法、装置、设备及介质-202310744426.7
发明人：付桂振 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-20 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明实施例涉及人工智能及智慧医疗技术领域，公开了一种基于人工智能的病案文书识别方法、装置、设备及介质，方法包括：获取不同类型的目标病案文书，并记录目标病案文书的类型，对目标病案文书进行标注，得到目标病案文书的病案信息；根据目标病案文书的类型和目标病案文书的病案信息构建输入示例；获取待识别病案文书，并将输入示例和待识别病案文书进行拼接，得到输入数据；将所述输入数据输入预设模型，得到待识别病案文书的识别结果数据。通过构建输入示例，将目标病案文书的类型和病案信息进行关联，通过将输入示例和待识别病案文书进行拼接，使得得到的所述待识别病案文书的结果数据也具有类型和病案信息的关联。

相关问题推荐方法、设备和存储介质-202310960442.X
发明人：聂笑盈;刘宝川 -专利权人：苏州云上看科技有限公司
申请日： 2023-08-01 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请提供一种相关问题推荐方法、设备和存储介质，该方法包括：获取第一项目中的第一问题；构建与第一问题对应的跨项目候选问题集合，跨项目候选问题集合中包括与第一问题可能相关的多个第二问题，多个第二问题来自于多个第二项目；将第一问题分别与多个第二问题组合，以形成多个待检测问题对；确定多个待检测问题对各自的文本特征和项目特征，根据多个待检测问题对各自的文本特征和项目特征以及预先训练的分类模型，从多个第二问题中确定与第一问题相关的目标第二问题，通过该方法，及时准确地推荐与问题相关的跨项目问题，提升问题的修复效率。

文本分类方法、装置、电子设备及存储介质-202310984816.1
发明人：刘吉 -专利权人：南京文易科技有限公司
申请日： 2023-08-06 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请实施例提供了一种文本分类的方法、装置、电子设备及存储介质，其中方法包括：利用待分类文本的模型分类概率值与模型分类预设阈值的比较结果来调节待分类文本的关键词提取阈值，从而动态控制待分类文本的关键词的提取范围，进而调节待分类文本的关键词分类概率值的精度。然后再根据待分类文本的模型分类概率值和关键词分类概率值与各自预设阈值的比较结果来调节综合概率权重。最后根据模型分类概率值、关键词分类概率值和综合概率权重确定待分类文本的综合分类概率值。本发明综合利用了模型分类结果和关键词分类结果来推导待分类文本的类型，避免了由单一分类方法造成误判和漏判的情况，提高了文本分类的准确率和客观性。

文本处理方法、装置及电子设备-202211375629.5
发明人：刘杰;高珊 -专利权人：中国移动通信有限公司研究院;中国移动通信集团有限公司
申请日： 2022-11-04 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明提供一种文本处理方法、装置及电子设备。该方法包括获得第一场景下标注的文本数据的关键词特征和实体特征；根据所述关键词特征和所述实体特征，对所述文本数据进行聚类处理，确定所述第一场景中的初步子场景；对所述初步子场景进行修正，确定最终子场景；基于所述最终子场景中的文本数据进行数据集划分，获得训练集和测试集。本发明能够使场景类别内部数据分布平衡，进而使得基于该数据分布训练得到的智能化服务能够覆盖到较为低频的查询，达到提升用户的整体体验和对智能化系统的使用频率的效果。

基于深度学习的短信分类方法-202310669352.5
发明人：靳晓鹏;林古山;苏雷;张建建;龚诚 -专利权人：北京微呼科技有限公司
申请日： 2023-06-07 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明提出基于深度学习的短信分类方法，包括：构建权重评估知识图谱模型，权重评估知识图谱模型通过知识图谱调用用户点击短信的行为权值库进行权重训练；构建智能匹配分类模型，将第二信息数据与预设数据库中的分类信息进行阈值匹配获取第一信息数据；将第一信息数据进行文字初步识别分类，得到第二信息数据；调用第二信息数据进入权重评估知识图谱模型，输出第二信息数据的注意力；输入第二信息数据与注意力至智能匹配分类模型中，输出分类结果，根据不同的分类结果发出对应的消息提示音，对信息数据进行逐层读取与分类，层层递进最终得到分类结果，增强分类结果的准确性。

基于超图的标签聚类方法-202310929444.2
发明人：范强;周晓磊;严浩;张骁雄;王芳潇;陆斌;华悦琳 -专利权人：中国人民解放军国防科技大学
申请日： 2023-07-26 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明公开了基于超图的标签聚类方法，属于标签聚类技术领域。本发明将标签视为超图中的顶点，定义超图G＝(V,ε,W)，基于标签数据集，构建标签统计超图，基于先验知识，构建标签知识超图；将标签统计超图和标签知识超图进行叠加得到叠加超图；基于标签数据集，采用Bert预训练语言模型生产标签初始特征向量；利用叠加超图对标签初始特征向量进行卷积运算获得新的标签特征表示，将新的特征表示作为聚类算法的输入，从而完成标签聚类。本发明引入超图结构来建模高阶标签关系，考虑了标签间的复杂关系，使得相关标签的特征表示趋于相似，能够对标签数据进行更加精确的划分，提升标签的聚类效果。

一种基于图注意力网络的假新闻短文本检测方法-202310990307.X
发明人：孙志杰;何光明;付佳 -专利权人：济南大学
申请日： 2023-08-08 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明涉及文本分类领域，尤其涉及一种基于图注意力网络的假新闻短文本检测方法。本发明构建了一种包含多种文本附加特征的新闻信息异构网。该网络打破图神经网络中只有文本自身特征连接的方式，从新闻中提取多种外部知识和文本特征信息构建为图网络，并为新闻不同特征建立联系，增强文本语义。此外，构建嵌入节点级和模式级双注意力机制的图注意力网络模型，捕获不同相邻节点的重要性，降低有噪声节点的权重，准确识别新闻有效信息。

工单聚类方法、装置、电子设备、及存储介质-202210398228.5
发明人：刘智;陈宇阳;欧阳民;俞新华 -专利权人：中国移动通信集团江苏有限公司;中国移动通信集团有限公司
申请日： 2022-04-15 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请提供工单聚类方法、装置、电子设备、及存储介质。所述方法包括：获取系统故障工单和系统组件实体；将所述系统故障工单中的关键词和所述系统组件实体进行排列组合，得到若干关键词组；对所述系统故障工单的词语进行有限个数滤除；将滤除后的系统故障工单与若干所述关键词组进行匹配，得到所述滤除后的系统故障工单对应的故障工单组；对所述故障工单组内若干滤除后的系统故障工单进行聚类。本申请实施例提供的工单聚类方法，能够对系统故障工单预先进行分组处理，再对故障工单组内若干滤除后的系统故障工单进行精确聚类，能够有效提高处理系统故障工单的精度，以提高工单聚类准确性。

多模态的情感识别方法和装置-202210403649.2
发明人：焦振田 -专利权人：中移雄安信息通信科技有限公司;中移系统集成有限公司;中国移动通信集团有限公司
申请日： 2022-04-18 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本申请涉及人工智能领域，提供一种多模态的情感识别方法和装置。所述方法包括：确定目标用户的微表情知识图谱、微动作知识图谱以及文本情感分析向量；将微表情知识图谱与微动作知识图谱进行融合，并根据融合结果确定预设情感向量；根据预设情感向量以及文本情感分析向量确定情感分析结果；根据情感分析结果确定目标用户的情感。本申请实施例提供的多模态的情感识别方法通过构建基于视觉、语音、文本多种模态实体的知识图谱，综合了多种模态数据得到情感识别结果，提供更多的情感判断的可能性，从而提高情感识别的准确性。

问答模型训练方法、装置、设备、程序以及存储介质-202211448483.2
发明人：杨韬 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-11-18 - 公布日： 2023-10-27 - 主分类号： G06F16/35
摘要：本发明提供了一种问答模型训练方法、装置、电子设备，方法包括：通过所述问答模型中的答案抽取网络对所述训练样本进行预测，得到所述问题语句的候选答复语句，通过所述答案验证网络，对所述问题语句和所述候选答复语句进行池化处理，得到池化特征向量；获取所述候选答复语句段落的浅层特征向量；根据所述池化特征向量和所述浅层特征向量的拼接向量进行分类，得到分类结果，获取所述分类结果及所述训练样本的分类标签之间的差异，并基于所述差异更新所述问答模型的模型参数，本发明能够提升问答模型的准确率和鲁棒性。本发明实施例还可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于梯度改进的元学习少样本文本分类方法有效

专利文献下载