[发明专利]一种数据处理方法、装置和用于数据处理的装置在审

专利信息
申请号: 201910365352.X 申请日: 2019-04-30
公开(公告)号: CN111950266A 公开(公告)日: 2020-11-17
发明(设计)人: 黎明超;韩秦;李茜;李瑞星;郑亚鑫;葛晓娟 申请(专利权)人: 北京搜狗科技发展有限公司
主分类号: G06F40/279 分类号: G06F40/279;G10L15/26;G10L19/00;G10L19/02;G06F40/284
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 莎日娜
地址: 100084 北京市海淀区中关*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:针对第一音频数据对应的文本,确定所述文本对应的分词、以及分词的属性;所述属性包括:时间属性、位置属性和语言属性;依据所述分词的属性,对所述分词在所述第一音频数据中对应的第一音频单元进行处理,以得到所述分词对应的第二音频单元;所述第一音频单元的处理包括:重复处理、拉伸处理、频率处理和声道处理中的至少一种;依据所述分词的位置属性和所述分词对应的第二音频单元,得到第二音频数据。本发明实施例可以改变文本中分词的表达形式,进而增强音频数据的娱乐效果。
搜索关键词: 一种 数据处理 方法 装置 用于
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910365352.X/,转载请声明来源钻瓜专利网。

同类专利
  • 对象识别方法、装置和存储介质及电子设备-202211521306.2
  • 王明 - 腾讯科技(深圳)有限公司
  • 2022-11-30 - 2023-10-27 - G06F40/279
  • 本申请公开了一种对象识别方法、装置和存储介质及电子设备。其中,该方法包括:在获取与第一识别对象匹配的至少一个第一候选对象的情况下,基于第一编辑距离确定第一识别对象的第一识别数据;以及,在获取到第二识别对象、和与第二识别对象匹配的至少一个第二候选对象的情况下,基于第二编辑距离确定第二识别对象的第二识别数据;对第一识别数据与第二识别数据进行整合处理,得到目标识别数据,并基于目标识别数据从至少一个第一候选对象中确定出目标对象对应的目标识别对象,还可应用在人工智能场景中,可涉及图像识别、三维物体重建等技术。本申请解决了对象识别效率较低的技术问题。
  • 一种面向多语言大模型的词语表示学习方法-202310622720.0
  • 曹海龙;杨沐昀;朱聪慧;赵铁军;徐冰;傅畅 - 哈尔滨工业大学
  • 2023-05-30 - 2023-10-27 - G06F40/279
  • 本发明提出一种面向多语言大模型的词语表示学习方法。所述方法在表示能力上能够显著高于主流的静态和动态词向量模型。本发明突破性地将单语词的向量表示改进为多点的流形表示。这种新的框架有望增加词向量空间的整体容量,更好地应对一词多义与细微上下文含义变化的场景。从流形学习与模式匹配的这一观点出发,充分利用现有的语言模型,挖掘词的空间表征能力,提高词语表示空间的完整性,使语言空间和词空间具有形式统一的表示。
  • 一种基于数据增强和特征融合的电影评论情感分析方法-202311112045.3
  • 陈行健;徐荣青;赵江 - 南京邮电大学
  • 2023-08-31 - 2023-10-27 - G06F40/279
  • 本发明公开了一种基于数据增强和特征融合的电影评论情感分析方法,包括:将电影评论文本通过结合TF‑IDF算法和情感词典改进的EDA数据增强并进行预处理,经过Word2Vec模型得到文本的分布式表示,分别输入到带有分段最大池化的TextCNN模型和结合注意力机制的BiLSTM模型中,拼接后输入到softmax层完成情感分类。本发明有效地降低了因在数据增强时选取到关键词和情感词改变文本的原意和情感对分类准度的影响;此外提取了文本的局部特征信息和上下文信息,保留了部分位置信息,具备了获取多次出现强特征的特征信息的能力,注意力机制还可以将注意力放在一些关键词上,提高了电影评论文本情感分类准确率。
  • 信息抽取方法、信息抽取装置、电子设备及可读存储介质-202310936249.2
  • 卢健 - 中国工商银行股份有限公司
  • 2023-07-27 - 2023-10-27 - G06F40/279
  • 本公开提供了一种信息抽取方法、信息抽取装置、电子设备及可读存储介质,可以应用于信息提取和金融技术领域。该方法包括获取待抽取的目标文本信息和待抽取的多个关键信息;在目标文本信息满足预设长度的情况下,基于预设分割规则对目标文本信息进行重叠式分割处理,得到多个文本信息片段;针对每个关键信息,根据多个文本信息片段和与关键信息对应的类型特征,生成与关键信息对应的输入特征;将输入特征输入关键信息预测模型,输出与关键信息对应的位置信息;基于位置信息,从输入特征中提取与关键信息对应的文本内容。
  • 一种面向在轨资源的统一命名空间构建方法及装置-202310941905.8
  • 嵩天;张嘉然 - 北京理工大学
  • 2023-07-28 - 2023-10-27 - G06F40/279
  • 本发明提出一种面向在轨资源的统一命名空间构建方法及装置,以解决空天地网络中在轨资源异构、命名不统一的问题。方法包括:获取目标资源项的在轨资源描述清单;利用在轨资源描述清单构造目标资源项的在轨资源名称层次链;利用在轨资源名称层次链生成目标资源项的在轨资源名称;利用在轨资源名称维护在轨资源命名空间;应用在轨资源命名空间查找目标资源项检索路径,沿检索路径执行目标操作。上述方法能全面、准确和唯一地表示在轨资源静态类型及动态功能,更好地整合空天地网络中的在轨资源,从而支持在轨资源统一应用,提高在轨资源利用率和业务处理能力。
  • 意图识别方法、装置、设备、存储介质和程序产品-202310876392.7
  • 刘涛;白杰;刘华杰;尚天顺 - 中国工商银行股份有限公司
  • 2023-07-17 - 2023-10-27 - G06F40/279
  • 本申请涉及一种意图识别方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域。所述方法包括:获取初始话务文本数据,然后,根据初始话务文本数据以及文本意图识别网络,获取初始话务文本数据对应的多个候选意图,文本意图识别网络是利用多个样本话务文本数据对预训练网络进行微调训练得到的,各样本话务文本数据的意图标签是利用标签幂集的方式添加的,再根据多个候选意图,确定初始话务文本数据对应的多个目标意图。采用本方法能够提高意图识别的识别效率与可靠性。
  • 商品词识别模型的训练方法、装置、设备及存储介质-202211522354.3
  • 康战辉 - 腾讯科技(深圳)有限公司
  • 2022-11-30 - 2023-10-27 - G06F40/279
  • 本申请公开了一种商品词识别模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:获取商品词识别模型的多个训练样本;依据多个训练样本的头尾分布和难易分布,将多个样本文本划分为头部难样本集合、头部易样本集合、尾部难样本集合和尾部易样本集合;根据头部难样本集合、头部易样本集合、尾部难样本集合和尾部易样本集合分别对应的权重值,对各个集合分别对应的损失函数值进行加权求和,得到商品词识别模型的总损失函数值;根据总损失函数值对商品词识别模型的参数进行调整,得到完成训练的商品词识别模型。本申请能够使得商品词识别模型输出的商品词识别结果更加准确。
  • 一种文本信息处理方法、装置、设备及存储介质-202310372631.5
  • 江旺杰;黄予 - 腾讯科技(深圳)有限公司
  • 2023-03-29 - 2023-10-27 - G06F40/279
  • 本申请公开了一种文本信息处理方法、装置、设备及存储介质。该方法包括:获取待处理文本;将待处理文本输入错误类型识别模型进行错误类型识别,得到待处理文本中多个文字对应的错误类型识别信息,错误类型识别信息表征多个文字对应的音近错误识别情况和形近错误识别情况;将待处理文本和错误类型识别信息输入错别字纠错模型,基于目标文本语义特征,对待处理文本进行纠错处理,得到待处理文本对应的纠错文本,目标文本语义特征是在对待处理文本进行语义特征提取的过程中,基于错误类型识别信息对多个文字各自对应的文字语义特征进行层归一化处理得到的。利用本申请提供的技术方案可以进行针对性、精准化地纠错解码,提升纠错文本的准确性。
  • 信息抽取方法、装置、电子设备及存储介质-202110912810.4
  • 魏谨谦;施鹏;姚后清;吴广发 - 北京百度网讯科技有限公司
  • 2021-08-10 - 2023-10-27 - G06F40/279
  • 本公开提供了一种信息抽取方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及文本处理技术领域。具体实现方案为:获取待处理的数据内容;将该数据内容输入至预先训练完成的目标网络模型,得到输出结果;其中,所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型;所述样本集包括多个正样本和多个负样本,所述正样本为设置有标注信息的样本语句,所述负样本为未设置有所述标注信息的样本语句,所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述;基于所述输出结果,确定所述数据内容中的目标实体和所述目标实体的实体描述。
  • 一种意图获取方法及系统-201910186086.4
  • 魏誉荧 - 广东小天才科技有限公司
  • 2019-03-12 - 2023-10-24 - G06F40/279
  • 本发明属于数据处理领域,公开了一种意图获取方法及系统,其方法包括:获取语料集,所述语料集包括多条语料;根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;根据所述语料集中的语料生成意图知识图谱;获取用户输入的当前信息;根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图。本发明根据之前建立的意图知识图谱和当前意图获取到与当前意图相关的意图,从而更全面的为用户推荐相关的内容,方便用户获取更多信息,简化用户的搜索过程,进而提高用户的使用体验。
  • 一种基于自然语言处理技术的离散文本识别方法-202311164234.5
  • 赵志庆;侯玉柱;王印强;董席峰;张雨铭威;张昊 - 戎行技术有限公司
  • 2023-09-11 - 2023-10-20 - G06F40/279
  • 本发明涉及离散文本识别领域,具体涉及一种基于自然语言处理技术的离散文本识别方法,包括:S1、获取待识别文本数据进行初始筛选处理得到待识别筛选文本数据;S2、利用所述待识别筛选文本数据基于自然语言处理技术得到待识别筛选文本数据的分类处理结果;S3、利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果,将现有数据与历史数据相互结合验证各模型的输出准确性,在神经网络的基础上考虑实际应用环境,方案整体逻辑自洽,在模型训练的过程中也实现了内部循环,保证结果的输出,采用了适用范围更广的神经网络算法,显著减少特征提取维度和计算复杂度,提高识别效率。
  • 政务领域大模型可信文本生成方法、装置及存储介质-202311176752.9
  • 蔡惠民;曹扬;董厚泽;支婷;洒科进;闫盈盈 - 中电科大数据研究院有限公司
  • 2023-09-13 - 2023-10-20 - G06F40/279
  • 本申请公开了一种政务领域大模型可信文本生成方法、装置及存储介质。本申请方法包括:构建问题数据以及对应的知识数据;将问题数据以及知识数据构建成可控Prompt模板;将问题数据插入至预先配置的空白Prompt模板中,得到语义近似Prompt模板;将语义近似Prompt模板输入至目标大模型中,得到语义近似问题数据,语义近似问题数据与问题数据语义近似;将可控Prompt模板、问题数据、知识数据以及语义近似问题数据按照不同的组合方式构建映射数据集;以映射数据集作为目标大模型的输入,对目标大模型进行微调;在使用微调后的目标大模型时,将目标大模型输出的实时答案输入至预先构建的判别过滤器中执行负面判别,并将判别后的内容向用户输出。
  • 用于模型训练的样本筛选方法、装置、设备及存储介质-202011407811.5
  • 计云杰;戴岱;肖欣延 - 北京百度网讯科技有限公司
  • 2020-12-04 - 2023-10-20 - G06F40/279
  • 本申请公开了一种用于模型训练的样本筛选方法、装置、设备及存储介质,涉及自然语言处理领域。其中,模型用于识别各样本中包含的预测实体词,以及识别预测实体词分别属于各实体类别的概率,具体实现方案为:通过获取实体词的集合,对集合中的实体词,根据模型输出的对应实体词属于各实体类别的概率,以根据实体词属于预测类别的第一概率与属于标注类别的第二概率之间的差值,从集合中确定噪声词,以删除噪声词所属的样本,由此,基于模型输出的实体词属于预测类别的第一概率和属于标注类别的第二概率,筛选出集合中的噪声词,以筛选出包含有噪声词的样本,从而有利于提高了模型训练的准确度。
  • 一种基于双向树型标注方法的实体关系联合抽取方法-202311022054.3
  • 杨莉;王平;周颖;郑茜子;陈超阳;罗旭坤 - 北京大学第一医院;北京大学
  • 2023-08-15 - 2023-10-20 - G06F40/279
  • 本发明涉及智能医疗领域的知识图谱的自动化构建,更具体地,涉及一种基于双向树型标注方法的实体关系联合抽取方法。包括:获取待预测文本;将所述待预测文本中的关系与预定义关系类型集合匹配;当匹配结果为是时,将所述待预测文本输入全监督模块中,得到待预测文本中的每个词的标注序列;当匹配结果为否时,将所述待预测文本和少量对应关系的标注样本分别输入小样本模块中,得到待预测文本中的每个词的标注序列;基于所述待预测文本中的每个词的标注序列还原出待预测文本的关系结构图,并抽取关系结构图中的三元组集合。本申请在不增加过多标注数量和时间开销的情况下,提高抽取的准确率和召回率。
  • 基于自然语言处理的物品应用分析方法及系统-202010518566.9
  • 崔亿萍 - 北京启云数联科技有限公司
  • 2020-06-09 - 2023-10-17 - G06F40/279
  • 本发明涉及数据处理技术领域,具体提供了一种基于自然语言处理的物品应用分析方法及系统,旨在解决如何准确且高效地对海量繁杂的用户交流数据进行物品应用分析,以确定目标物品的应用状态的技术问题。为此目的,根据本发明一个实施例的方法,首先对交流数据中的每句对话信息进行对话序号以及唯一标识符设置;然后对每句对话信息进行数据清洗,随后根据对话序号与唯一标识符将数据清洗后的对话信息重新组合还原成交流数据;最后根据神经网络分类模型对还原后的交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。通过上述步骤,能够从关于物品的交流数据中准确且快速地识别出当前物品的推荐类别,进而得出物品的应用状态。
  • 策略确定方法和装置-201910093990.0
  • 李超;姚廉;陈帅;王维强;黄宇寰 - 创新先进技术有限公司
  • 2019-01-30 - 2023-10-17 - G06F40/279
  • 本申请实施例提供了一种策略确定方法和装置,其中方法包括:获取商户的签约文本信息;其中,所述签约文本信息包括商户名称、经营的商品名称、商户工商信息、商户地址信息中的至少一项;根据所述签约文本信息和各个行业类别对应的关键文本库,确定所述商户所属的第一行业类别;获取所述商户的交易数据,根据所述交易数据和训练的行业识别模型,确定所述商户所属的第二行业类别;基于所述第一行业类别和所述第二行业类别,确定所述商户对应的风险监控策略。
  • 一种实现文本信息标准化的方法、装置及设备-201911229971.2
  • 冯仓龙 - 东软集团股份有限公司
  • 2019-12-04 - 2023-10-13 - G06F40/279
  • 本申请实施例公开了一种实现文本信息标准化的方法、装置及系统,对于短文本信息(待识别文本信息),提取该待识别文本信息的各个文本特征,为进一步获取待识别文本更多的特征信息,计算每个文本特征对应的关联关系特征,从而获得可以表征待识别文本信息的多项特征,以利用多项特征组成待识别文本的特征表示,进而利用预先训练的深度学习模型对待识别文本的特征表示进行识别,从而获得待识别文本的文本标准表示,提高文本标准化的准确性。
  • 实体识别方法和模型训练方法、装置、电子设备及介质-202310769294.3
  • 李宇;郑嘉炜;路新江;谢红伟;林雪娇;周景博 - 北京百度网讯科技有限公司
  • 2023-06-27 - 2023-10-10 - G06F40/279
  • 本公开提供了一种实体识别方法和模型训练方法、装置、电子设备及介质,涉及人工智能技术领域,尤其涉及信息获取技术领域。具体实现方案包括:从待识别网页的源文件包括的文本中,提取多个指定实体,并获取每个指定实体的文本编码结果,然后确定每个指定实体在待识别网页中形成的文本块,对每两个文本块之间的相对布局信息进行编码,得到位置编码结果。之后将每两个文本块的位置编码结果和各自的指定实体的文本编码结果,构建为一个三元组,对各三元组进行图卷积,得到对待识别网页的关系识别结果,其中关系识别结果用于表示待识别网页包括的每两个文本块之间是否存在关联关系。从而实现在抽取实体的同时,得到实体之间是否存在关联关系。
  • 一种情感识别方法及相关装置-202310725952.9
  • 吴寅延 - 深圳市思为软件技术有限公司
  • 2023-06-16 - 2023-10-10 - G06F40/279
  • 本申请实施例提供一种情感识别方法及相关装置。该方法包括:获取待识别文本;将待识别文本输入第一标注模型,获取多个属性实体中的属性实体和与属性实体相对应的评价信息;将属性实体和与属性实体相对应的评价信息输入第二分析模型,获取第二分析模型中的每一层输出的语义信息;对每一层输出的语义信息进行融合处理,得到待识别文本的情感识别结果。采用本申请实施例,可以将用户提到的关于房地产项目相关的属性实体以及对应的评价信息提取出来,并针对评价信息进行情感识别分析,可以得到更为准确的用户对属性实体所表现出来的情感,便于销售人员有针对性地开展营销工作。
  • 地址识别方法、装置、存储介质及电子设备-202210291233.6
  • 邱子詹;杜方潇;高久翀;赵杰;李嘉伟;魏国兴;张婷;宁越强;连旭;何威;胡燕 - 北京三快在线科技有限公司
  • 2022-03-23 - 2023-10-10 - G06F40/279
  • 本公开涉及一种地址识别方法、装置、存储介质及电子设备。该方法包括:获取用户的地址文本;根据所述地址文本中的地址组分和/或与所述地址文本相关的历史交付数据,识别所述地址文本是否表征可交付的配送地址;其中,在根据所述地址文本中的地址组分识别所述地址文本是否表征可交付的配送地址的情况下,若基于识别到的各所述地址组分确定所述地址文本中存在唯一预设地址结构,和/或,确定各所述地址组分之间不矛盾,则确定所述地址文本表征可交付的配送地址;在所述地址文本表征不可交付的配送地址的情况下,提示和/或引导所述用户修改所述地址文本。采用本公开这种方式可以提升识别配送地址的准确性。
  • 语义识别方法、装置、电子设备及存储介质-202210293772.3
  • 吴开宇 - 北京罗克维尔斯科技有限公司
  • 2022-03-23 - 2023-10-10 - G06F40/279
  • 本公开提出一种语义识别方法、装置、电子设备及存储介质,属于自然语言处理技术领域。该语义识别方法包括:获取待识别文本;基于共享词向量,对待识别文本进行分类识别,获取待识别文本所属的目标垂类;基于目标垂类和共享词向量,对待识别文本进行语义识别,生成待识别文本的识别结果。本公开在语义识别的过程中对词向量进行共享,降低了数据量,从而节省了存储空间,在车辆存储空间较少的情况下,能够满足更多的业务需求,具有较强的扩展性。
  • 基于知识驱动的人物信息抽取和检查方法及装置-202310214306.6
  • 李罗政;靳国庆;张凤珍;陈勇;郭俊波;柴成茁;张勇东 - 人民网股份有限公司;人民网信息技术有限公司
  • 2023-02-28 - 2023-10-10 - G06F40/279
  • 本发明实施例公开了一种基于知识驱动的人物信息抽取和检查方法及装置,方法包括:基于预设知识库对文本进行粗粒度提取,得到第一文本子集合;对第一文本子集合进行实体识别及标注处理,得到包含实体标签的第二文本子集合;根据实体标签对第二文本子集合进行实体细粒度抽取,得到对应的人物结构化信息集合;根据预设知识库对人物结构化信息集合进行匹配,基于匹配内容生成人物结构化信息集合的修改信息,以供对人物结构化信息集合进行修改,得到修改后的人物结构化信息集合。通过对文本进行粗粒度提取、实体识别及标注、实体细粒度抽取,可以准确地聚焦于文本中的人物信息,对文本中关于人物的描述文字进行定位并抽取得到各个结构化信息。
  • 一种信息提取方法、装置、设备、介质及产品-202310737711.6
  • 聂海峰;卢凌云;王婷玉;张晨 - 建信金融科技有限责任公司
  • 2023-06-20 - 2023-10-03 - G06F40/279
  • 本申请公开了一种信息提取方法、装置、设备、介质及产品,涉及文本处理技术领域。本申请实施例对结构化文本进行文本识别,得到结构化文本的非结构化数据后,可以进一步判断非结构化数据中各分块文本数据是否存在文本粘连的情况,如果存在文本粘连,则会根据结构化文本的空间布局信息和结构化文本所属领域的成词规则,对存在文本粘连的分块文本数据进行拆分,得到多个子分块文本数据,从而有效解决了文本识别结果粘连的问题,如此在后续基于拆分后的文本数据提取结构化文本的目标关键信息时,可以提高目标关键信息的提取质量。
  • 一种搜索意图识别方法及装置-202010315818.8
  • 张新展;王文博;费浩峻 - 度小满科技(北京)有限公司
  • 2020-04-21 - 2023-10-03 - G06F40/279
  • 本申请提供了一种搜索意图识别方法及装置,该方案首先利用规则模型对待识别搜索文本进行意图识别得到相应的第一识别结果;对于准确率低于第一预设值的待识别搜索文本,利用深度学习模型重新进行意图识别得到对应的意图类别。利用规则模型识别得到的准确率高于第一预设值的待识别搜索文本,直接确定对应的第一识别结果为该待识别搜索文本对应的意图类别。由上述内容可知,该方案利用多个模型对待识别搜索文本进行多层次识别,使用规则模型保证识别准确率,对于规则模型识别不准确或无法识别的数据,再使用深度学习模型进行识别,从而保证识别结果的召回率,因此,最终得到的搜索意图识别结果准确率和召回率都很高。
  • 一种基于双层注意力机制与双向GRU的文本关系抽取方法-201910710075.1
  • 王鑫鹏;李晓冬;吴蔚;徐建平 - 中国电子科技集团公司第二十八研究所
  • 2019-08-02 - 2023-10-03 - G06F40/279
  • 本发明公开了一种基于双层注意力机制与双向GRU的文本关系抽取方法,包括如下步骤:对文本语料进行实体标注和关系标注;对标注数据进行预处理,生成实体抽取模型和关系抽取模型的训练集和测试集;构建关系抽取网络;分别进行实体抽取模型训练和关系抽取模型训练;将测试集数据首先输入实体抽取模型,得到实体识别结果;实体识别结果和测试集数据输入关系抽取模型,得到关系抽取结果。本发明利用实体位置信息和实体标签信息扩充字向量特征,实现文本信息的向量化,为关系识别提供更多的特征信息,提高了双向GRU模型输入信息与输出信息间的相关性,增强关键字对输出的影响力并提高抗噪声能力,并且能够有效地提高中文文本关系抽取的准确率。
  • 多意图识别方法、装置、设备及存储介质-202011481328.1
  • 桑海岩;孙雅琳;李苗苗 - 中国联合网络通信集团有限公司;联通大数据有限公司
  • 2020-12-15 - 2023-10-03 - G06F40/279
  • 本申请提供一种多意图识别方法、装置、设备及存储介质。首先根据预设意图分类模型确定待识别文本的掩码向量,预设意图分类模型通过预设数据格式表征不同的意图类别。然后根据预设相似度模型确定每个句子对中的目标向量与参考向量之间的相似度,基于相似度得到包括候选参考文本的掩码向量。再对候选参考文本的掩码向量与待识别文本的掩码向量进行预设与运算,根据运算结果确定待识别文本对应的目标意图。从而在实际应用场景中对待识别文本可能包含的多个意图进行有效识别,克服了现有技术中无法对多个意图进行识别的技术缺陷,且无需单独训练分类器,节约了计算资源和时间,有利于被广泛使用。
  • 一种基于自然语言处理分类技术的岗位职能识别方法-202310566855.X
  • 陈聪;蔡宗山;朱晓海 - 广东职教桥数据科技有限公司
  • 2023-05-19 - 2023-10-03 - G06F40/279
  • 本发明提供一种基于自然语言处理分类技术的岗位职能识别方法,利用人工智能自然语言处理技术有效解决筛选方式简单、人力成本高、准确度低等问题;利用长短期记忆解决长序列训练过程中的梯度消失和梯度爆炸问题,通过对文本序列的不断迭代有选择继承历史信息以获得当前更好的语义表征,所以其能够在更长的序列中有更好的表现;采用attention机制的作用是给不同的词或字分配不同的注意力,解决重要词的信息会被抑制,关键的语义特征丢失,造成信息损失的问题;因此基于自然语言处理分类技术的岗位职能识别的AI匹配技术具有全面科学客观性、快速高效、精准度高的优点。
  • 一种针对多文档实体相关情况下的关系抽取方法-202310184865.7
  • 李灯熬;赵菊敏;高波 - 太原理工大学
  • 2023-03-01 - 2023-09-29 - G06F40/279
  • 本发明涉及文档抽取技术领域,具体涉及一种针对多文档实体相关情况下的关系抽取方法,包括对初始语料库进行预处理获得训练集;通过神经网络得到训练集内的单词的上下文表示;通过单词形成构建文档图,包括构建节点与构建边,节点包括实体节点;通过构建文档图构建实体节点与实体节点的边,聚合构建边与实体节点与实体节点的边,并重复N次该步骤直至满足预设要求;对聚合后的边进行训练,进而预测实体关系;本发明通过本申请的抽取方法,能够从大规模数据集中发掘出实体间的相互关系,挖掘实体隐含联系,提高数据的利用效率;用户可根据需求,根据实体间相互关系快速找到数据库中自己所需内容,大大提升了提取效率。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top