[发明专利]一种基于注意力机制的金融事件修饰时态的分析方法有效

专利信息
申请号: 201910643489.7 申请日: 2019-07-17
公开(公告)号: CN110427615B 公开(公告)日: 2022-11-22
发明(设计)人: 柴志伟;陶村春 申请(专利权)人: 宁波深擎信息科技有限公司;上海深擎信息科技有限公司
主分类号: G06F40/284 分类号: G06F40/284
代理公司: 长沙国科天河知识产权代理有限公司 43225 代理人: 邱轶
地址: 315000 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于注意力机制的金融事件修饰时态的分析方法,属于数据处理技术领域;本分析方法的核心思想为:将输入文本向量化后,应用深度学习神经网络技术,结合注意力机制技术,对输入的文本向量做高维度的特征学习,目标是学习到时态最相关的高维度特征,最后依据学习到的特征做输出判断时态;本发明旨在解决现有技术中更多依赖人为编辑规则的缺陷,从而提高效率,增强可扩展性;应用注意力机制做时态分析可以获得更加丰富的文本特征,提高了输出结果的精度,大大减少了误差并提高了效率。
搜索关键词: 一种 基于 注意力 机制 金融 事件 修饰 时态 分析 方法
【主权项】:
1.一种基于注意力机制的金融事件修饰时态的分析方法,其特征在于,包括以下步骤:步骤a:整理并输入原始文本,将所述原始文本作分词处理形成词汇;步骤b:将所述词汇输入到深度神经网络后转为词向量,每个所述词向量后面拼接对应词汇的词性向量和位置序号,生成新向量,记作Vec_Input;步骤c:将各个所述Vec_Input向量组合后,生成文本矩阵,记作Text_Matrix,以此代表文本信息;步骤d:将所述Text_Matrix输入到N个线性空间映射函数,输出N个新文本矩阵,记作New_Text_Matrix;步骤e:将N个所述New_Text_Matrix输入注意力机制模块,输出注意力系数矩阵,记作Mat_Attention,即每个词汇两两之间都有注意力系数;步骤f:将Mat_Attention和Text_Matrix做矩阵相乘,然后输入到归一化模块进行归一化处理并输出结果矩阵,记作Mat_Result,即每个词汇两两之间的修饰相关度值;步骤g:在所述Mat_Result中找到金融事件词汇的位置,并查看与所述金融事件词汇相关度高的词汇,在所述词汇中查看和时态修饰有关的词,以此来判断该金融事件的时态;步骤h:根据结果的精度判断,当精度达到阈值时输出最终结果,当精度达不到阈值时,再经过反馈训练模块返回到步骤c,重新训练神经网络结构。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波深擎信息科技有限公司;上海深擎信息科技有限公司,未经宁波深擎信息科技有限公司;上海深擎信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910643489.7/,转载请声明来源钻瓜专利网。

同类专利
  • 基于人工智能的文本分析方法、系统、电子设备及介质-202310972661.X
  • 陈飞;卢林 - 深圳特为科创信息技术有限公司
  • 2023-08-03 - 2023-10-27 - G06F40/284
  • 本申请涉及数据分析技术领域,提供了一种基于人工智能的文本分析方法、系统、电子设备及介质。本申请在对目标文本进行分析时,通过获取与目标文本相关的原始文本,并对原始文本进行数据增强处理,保证了训练模型的数据质量,且扩充了训练模型的数据量,避免模型过拟合,提高了对目标文本的分析效果;通过从预设模型库中获取与目标文本的应用领域对应的多个模型框架,能够有针对性的训练模型,提高模型了的性能,在使用多个模型框架基于原始文本及增强文本进行训练得到多个文本分析模型后,基于多个评价指标选取目标文本分析模型对所述目标文本进行数据分析,进一步提高了对目标文本的分析效果。
  • 数据分类分级方法及装置-202211538121.2
  • 黄君瑶;咸洁敏;吴佳 - 中国移动通信集团上海有限公司;中国移动通信集团有限公司
  • 2022-12-01 - 2023-10-27 - G06F40/284
  • 本申请涉及计算机领域,提供一种数据分类分级方法及装置。所述方法包括:获取敏感文本的特征;所述敏感文本为包括敏感数据的文本;根据预设分类分级标准确定所述特征的分类值;根据所述敏感文本中各词的敏感情况确定所述敏感文本的敏感值;根据所述分类值和所述敏感值确定所述敏感文本的分类分级标签。本申请实施例提供的数据分类分级方法及装置可以将敏感文本进行准确地分类分级,使得企业能够快速准确地对不同地敏感文本进行识别,并对不同分类分级的敏感文本进行针对性保护,降低数据泄露风险。
  • 隐性广告处理方法、装置、计算机设备及存储介质-202311213345.0
  • 冷万;贵照众;聂萼辉;刘刚健 - 湖南财信数字科技有限公司
  • 2023-09-20 - 2023-10-27 - G06F40/284
  • 本申请实施例属于自然语言处理技术领域,涉及一种隐性广告处理方法、装置、计算机设备及存储介质,方法包括:获取各待处理文本,并获取敏感词集合和关键词集合;将与敏感词集合实现文本匹配的待处理文本作为第一文本;将与关键词集合未实现文本匹配的第一文本作为第二文本;根据各第二文本的文本长度确定隐性广告识别方式,从而对第二文本进行广告识别得到识别结果;当根据识别结果确定第二文本为隐性广告文本时,通过行业分类模型识别第二文本中隐性广告的行业类型;选取与行业类型相对应的规则引擎,并根据规则引擎对第二文本进行违规判别,得到违规判别结果。本申请提高了隐性广告的识别和违规判别效率,并实现了违规判别的可解释性。
  • 负样本采样方法、文本处理方法、装置、设备及介质-201910490384.2
  • 叶宇潇;邱立坤;付彬;邓拯宇;李杨 - 阿里巴巴集团控股有限公司
  • 2019-06-06 - 2023-10-27 - G06F40/284
  • 本发明公开了一种负样本采样方法、文本处理方法、装置、设备及介质,所述的负样本采样方法包括:获取文本语料;对所述文本语料进行分词,得到所述文本语料的分词结果;从所述文本语料中获取多个文本片段,作为所述文本语料的负样本;其中,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段;所述多个文本片段中的每个文本片段与所述分词结果中的每个词均不相同。根据本发明实施例,采样的负样本可以适用于文本语料所属的领域。
  • 企业产品词排序方法、装置、存储介质及电子设备-202310875331.9
  • 周杰 - 企知道科技有限公司
  • 2023-07-14 - 2023-10-24 - G06F40/284
  • 本申请涉及一种企业产品词排序方法、装置、存储介质及电子设备,其中方法包括:获取目标企业的企业产品词集合,所述企业产品词集合中包括至少一个企业产品词;确定所述企业产品词集合中各所述企业产品词对应的产品词特征;基于各所述企业产品词的产品词特征,确定所述企业产品词集合中每个所述企业产品词与剩余企业产品词之间的对比特征;将各所述对比特征输入至训练后的产品词重要性区分模型,确定各所述企业产品词的重要优先级,并根据各所述重要优先级,对各所述企业产品词进行排序。本申请具有区分企业产品词的重要性,对各个企业产品词进行准确地的重要性排序的效果。
  • 保单地址识别方法、装置、电子设备及可读存储介质-202311010352.0
  • 黄学亮 - 中国平安财产保险股份有限公司
  • 2023-08-10 - 2023-10-24 - G06F40/284
  • 本发明涉及人工智能领域,揭露一种保单地址识别方法、装置、电子设备及存储介质,可用于对保险保单中不清楚的地址信息进行识别,所述方法包括:获取保单的地址文本,对所述地址文本进行分词处理,得到地址分词文本;对所述地址分词文本中的词语进行词性标注,得到地址词语词性;根据所述地址词语词性,对所述地址分词文本中的词语进行命名实体识别,筛选出具有地名含义的地名词语;根据所述地名词语,利用预设朴素贝叶斯模型预测所述地名词语的类别标签;根据所述类别标签,对所述地名词语进行结构标准化处理,得到所述保单的标准地址文本。本发明可以提高保单地址识别的效率及准确率。
  • 一种评论内容审核方法、装置、设备及存储介质-202310764520.9
  • 侯盈安;江魁栋;李尚真;谢潇宇 - 中国建设银行股份有限公司;建信金融科技有限责任公司
  • 2023-06-27 - 2023-10-24 - G06F40/284
  • 本发明涉及数据处理技术领域,尤其涉及一种评论内容审核方法、装置、设备及存储介质,包括识别待审核评论中多行的文本内容的文字,并按照文字在待审核评论中的位置对文字进行排布,得到待审核文字矩阵;识别待审核评论中所述文字的文字属性,将文字属性标记在所述待审核文字矩阵中的文字上;按照所述待审核文字矩阵的行和列分别对具有相同文字属性的所述文字进行分词,得到所述行和列分别对应的待审核分词;根据预定违规词库对所述待审核分词进行审核。通过本发明实施例的方法,实现了将待审核评论中的文字排布成待审核文字矩阵,并从待审核文字矩阵的行和列上分别进行分词,对分词进行审核,从而实现了识别评论文本中的藏头诗形式的违规内容。
  • 站点确定方法及相关设备-202210370083.8
  • 李志朋 - 北京京东振世信息技术有限公司
  • 2022-04-08 - 2023-10-24 - G06F40/284
  • 本公开提供了一种站点确定方法、装置、电子设备及存储介质。该方法包括:获取收件地址,所述收件地址包括英文字符;对所述收件地址进行拆分,获得地址关键词集合,所述地址关键词集合中包括一个或多个地址关键词;根据所述地址关键词查询键值表,获得查询结果,其中所述键值表中以一个预设关键词或多个预设关键词组合作为键、以一个或多个预设关键词或者站点标识作为值;若所述查询结果包含所述预设关键词,则根据所述地址关键词和所述查询结果更新所述地址关键词;根据更新后的地址关键词查询所述键值表,以确定所述收件地址对应的目标站点。该方法可以自动、快速、准确地确定出收件地址对应的目标站点。
  • 敏感词识别方法、装置、电子设备及存储介质-202210086774.5
  • 马兆铭;王铮;任华;杨迪;汪少敏 - 中国电信股份有限公司
  • 2022-01-25 - 2023-10-24 - G06F40/284
  • 本公开提供了一种敏感词识别方法、装置、电子设备及存储介质,其中,敏感词识别方法包括:从预设编码库中分别获取待识别词对应的第一字符串和敏感样本词对应的第二字符串;对第一字符串和第二字符串分别进行预处理,得到待识别词的第一字符向量和敏感样本词的第二字符向量;计算第一字符向量和第二字符向量的余弦相似度;根据计算结果,确定待识别词是否为敏感词。本公开通过获取与待识别词和敏感样本词有映射关系的第一字符串和第二字符串,对第一字符串和第二字符串向量化处理,计算第一字符向量和第二字符向量的余弦相似度,根据得到的余弦相似度确定待识别词是否为敏感词,提高了敏感词识别的准确率和效率。
  • 基于机器阅读理解的关键科技实体抽取方法及系统-202310828068.8
  • 周易之;罗勇 - 武汉大学
  • 2023-07-06 - 2023-10-20 - G06F40/284
  • 本申请公开了基于机器阅读理解的关键科技实体抽取方法及系统,所述方法包括如下步骤:对摘要文本进行预处理和极简化处理,获取预处理后的摘要数据集;将预处理后的摘要数据集进行关键科技实体的标注,获取标注后的摘要数据集;将标注后的摘要数据集转化为基于机器阅读理解的实体抽取任务格式的摘要数据集;将转换后的基于机器阅读理解的实体抽取任务格式的摘要数据集输入关键科技实体抽取模型中进行训练,获取语义表征;对获取的语义表征进行每个实体开始和结束的下标的预测,获取最终抽取得到的关键科技实体。本申请将学术论文摘要进行了极简化处理,提高了数据集的构建效率并提高了学术论文摘要中关键科技实体识别的准确度。
  • 一种电子文档涉密等级自动检测系统-202310856953.7
  • 陶金龙;范瑞娟;胡雅頔;李浩宇;张凤萍;杨波 - 北京计算机技术及应用研究所
  • 2023-07-13 - 2023-10-20 - G06F40/284
  • 本发明涉及一种电子文档涉密等级自动检测系统,属于信息安全技术领域。本发明支持多种电子文档涉密等级自动检测。通过电子文档转换,能够将MSOffice电子文档、OpenOffice电子文档、WPS电子文档等多种类型电子文档转换成PDF文档,然后提取自动提取PDF文档文本内容进行涉密词检测和溯源,实现了多种电子文档涉密等级自动检测;支持密级检测结果追溯和确认。通过分页提取电子文档文本进行密级检测,实现了涉密词按文档页号,以及起始字符和结束字符序号定位,支持电子文档密级检测结果的追溯和确认;具备较高的涉密词检测效率。通过构建涉密词前缀树,并基于涉密词前缀树进行涉密词匹配,可以有效减少涉密词比对次数,从而提高电子文档涉密词检测效率。
  • 一种船舶灯光管制信息反馈优化方法及系统-202010175089.0
  • 曾淑云;程华;王毓蓉;李世哲 - 中国舰船研究设计中心
  • 2020-03-13 - 2023-10-20 - G06F40/284
  • 本发明公开了一种船舶灯光管制信息反馈优化方法及系统,属于舰船电力系统中照明系统设计领域,该方法包括:由灯光管制显控台通过以太网实时采集区域控制器的门开关状态、灯开关状态、灯光管制状态及位于区域控制器中的测点标签,测点标签包括:设置有灯光管制功能的舱室号、门开关状态对应的标签信息、灯开关状态对应的标签信息及灯光管制状态对应的标签信息;灯光管制显控台将灯光管制信息转换成灯光管制显控台最终显示的目标灯光管制信息,目标灯光管制信息包括:设置有灯光管制功能的舱室号、舱室号对应的门的开关状态、灯的开关状态及灯光的管制状态。通过本发明可以使灯光管制显控台根据区域控制器实际情况实时更新灯光管制信息。
  • 一种基于缺陷报告摘要中词性信息的严重程度预测方法-202110341218.3
  • 田丹;陈雪娇;林浩;陈翔;贾焱鑫;葛骅 - 南通大学
  • 2021-03-30 - 2023-10-20 - G06F40/284
  • 本发明提供了一种基于缺陷报告摘要中词性信息的严重程度预测方法,通过使用较少数据量实现相近或更优的预测性能,并进一步地利用软件缺陷报告跟踪系统平台上存放的大型项目所含缺陷报告,进行快速且高准确性的软件缺陷报告严重程度的预测。本发明的有益效果为:本发明预测方法首先对缺陷报告中的摘要属性进行文本预处理,得到词根形式的分词;基于大规模文本语料库使用卷积神经网络模型训练,获得包含所属各分词词性和单词间相似度邻接矩阵的Spacy模型,进一步对分词进行筛选,随机抽取并生成相似数据扩充数据集,最终实现对缺陷报告严重程度的预测,相比于其他预测方法使用较少数据实现了更优性能。
  • 语言模型训练方法、装置、设备及计算机可读存储介质-202110517845.8
  • 高文捷 - 平安国际智慧城市科技股份有限公司
  • 2021-05-12 - 2023-10-20 - G06F40/284
  • 本发明涉及人工智能技术,揭露一种语言模型训练方法,包括:对训练数据集中的文本分别进行字层面掩码、短语层面掩码、实体层面掩码和词性层面掩码处理,得到待用预训练数据集;将待用预训练数据集中的文本进行句向量表示处理,得到以句向量表示的预训练数据集;将以句向量表示的预训练数据集输入语言模型中,对语言模型进行模型推理迭代训练,当满足预设模型训练完成条件时,完成对所述语言模型的训练。本发明还涉及区块链技术,训练数据集存储于区块链中。本发明能够解决现有技术中,目前的模型训练方式得到的模型不能学习到中文语义层面的信息以及中文实体关系的信息,模型对名词的敏感度以及精确度低等问题。
  • 预测问答内容的评分的装置、方法及存储介质-201910185054.2
  • 程磊 - 平安科技(深圳)有限公司
  • 2019-03-12 - 2023-10-20 - G06F40/284
  • 本发明涉及一种大数据技术,揭露了一种预测问答内容的评分的装置、方法及存储介质,该方法包括:收集笔试环节历史的问答内容及对每一问答内容对应的实际评分;基于该问答内容构造分词库、语料库、词频逆文本频率指数模型及隐含狄利克雷分布模型并保存至数据库中;导入该数据库中的分词库、语料库、词频逆文本频率指数模型及隐含狄利克雷分布模型,进行分词、分词统计词频后,输入至词频逆文本频率指数模型及隐含狄利克雷分布模型中,获取输出的与该待评分的问答内容同属于一个主题的历史的问答内容概率最大的队列;基于该概率最大的队列对应的实际评分计算该待评分的问答内容的预测评分。本发明能够保障评分的客观公正性。
  • 一种缩略词展开式的识别方法及装置-201911147676.2
  • 林建明;胡聪豪 - 深圳无域科技技术有限公司
  • 2019-11-21 - 2023-10-17 - G06F40/284
  • 本发明公开了一种缩略词展开式的识别方法及装置,其中该识别方法包括:根据第一预设规则,确定待识别展开式的目标缩略词;根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词;若是,则按照识别所述显性缩略词展开式的方法去识别所述目标缩略词对应的展开式,否则按照识别隐性缩略词展开式的方法去识别所述目标缩略词对应的展开式。本发明可以迅速地确定英文文章中待识别的缩略词,并识别出缩略词的完整展开式。
  • 基于One2MultiSeq训练范式和预训练模型BART的关键词生成方法和系统-202310855144.4
  • 余本功;高春阳;张强;罗贺;杨颖;杨善林 - 合肥工业大学
  • 2023-07-12 - 2023-10-13 - G06F40/284
  • 本发明提供一种基于One2MultiSeq训练范式和预训练模型BART的关键词生成方法、系统、存储介质和电子设备,涉及自然语言处理技术领域。本发明提出One2MultiSeq范式,兼顾存在的关键词和缺失的关键词,构建两条关键词顺序完全相反的关键词序列,并用于模型训练;能够减轻关键词顺序对模型的影响,提升模型对缺失关键词的关注度,从而提升模型效果。此外,为了解决现有模型文本建模能力较差的问题,以预训练模型BART来作为基础架构,并为BART引入了复制机制,组成CopyBART,进一步提升了模型效果。对于多模态的信息,本发明实施例采用了一种简单而有效的方法进行模态之间的对齐,实验证明所提出的模态对齐非常有效。
  • 一种融合多信息的问题生成方法及装置-202310255049.0
  • 张引;刘流 - 浙江大学
  • 2023-03-16 - 2023-10-13 - G06F40/284
  • 本发明公开了一种融合多信息的问题生成方法及装置,首先对段落上下文和答案所在句单独编码,并基于门控注意力有效融合段落上下文和答案所在句的信息,生成与上下文和答案更相关的问题。本发明针对命名实体识别任务和词性标签识别任务分别训练识别网络,得到语言学特征信息的表示并应用到编码器中,帮助问题生成模型更有效地利用语言学特征信息。本发明方法通过在预训练语言模型中结合答案实体类别信息实现问题类型预测,并将预测的问题类型信息应用到解码阶段,让生成问题的问题类型更准确。本发明方法缓解了现有方法生成的问题与给定的上下文和答案相关性不高的情况,更加有效地利用上下文中的关键信息以及深度联系,从而更好地生成问题。
  • 文本处理方法、装置、设备及计算机可读存储介质-202010944900.7
  • 王兴光 - 腾讯科技(深圳)有限公司
  • 2020-09-10 - 2023-10-13 - G06F40/284
  • 本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质,涉及人工智能技术领域,其中,方法包括:对待处理文本中的每一词的词向量进行划分,至少形成所述词向量的全局信息子向量和局部信息子向量;通过每一词的所述全局信息子向量,对对应词进行注意力计算,得到所述对应词的注意力值;对所述对应词的局部信息子向量和所述注意力值进行累加处理,得到所述对应词的加权词向量,并进一步形成合并向量;将所述合并向量确定为所述待处理文本的特征向量,并采用所述特征向量对所述待处理文本进行文本处理。通过本申请实施例,能够准确的得到待处理文本的特征向量,进而提高后续文本处理过程中处理结果的准确性。
  • 敏感词检测方法及装置-201910945463.8
  • 禹庆华;叶盛;李虎;李国辉 - 奇安信科技集团股份有限公司;奇安信网神信息技术(北京)股份有限公司
  • 2019-09-30 - 2023-10-13 - G06F40/284
  • 本发明实施例提供一种敏感词检测方法及装置,其中,方法包括:获取目标文本,对目标文本进行分词处理;将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;若文本分类模型输出的目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。本发明实施例能提高检测敏感词的效率,节省人工成本,时效性高。
  • 样本数据处理方法、装置、设备及介质-202310795162.8
  • 陈浩 - 平安科技(深圳)有限公司
  • 2023-06-30 - 2023-10-10 - G06F40/284
  • 本发明涉及数据处理、医疗健康技术领域,公开了一种样本数据处理方法、装置、设备及介质,包括:获取待处理样本数据;对待处理样本数据进行分词处理,以得到第一词语集合,第一词语集合中包括有K个第一词语;获取K个第一词语分别在待处理样本数据所在的待处理样本数据集合中的权重值,以得到K个第一词语分别对应的第一权重值;根据K个第一词语分别对应的第一权重值从K个第一词语中确定出第一目标词语;根据待处理样本数据集合确定与第一目标词语对应的第二目标词语;将待处理样本数据中的第一目标词语替换为第二目标词语,以得到第一目标样本数据。提升了获取的扩容的样本数据的准确性。
  • 一种基于循环注意力的联想动词生成方法-202310497546.1
  • 曹肖攀;马国祖;陈超;张喜强 - 中电万维信息技术有限责任公司
  • 2023-05-05 - 2023-10-10 - G06F40/284
  • 本发明属于自然语言处理技术领域,具体为一种基于循环注意力的联想动词生成方法,包括步骤有建立动词词库映射词典、训练集制作、构建循环注意力网络模型结构、模型训练和模型预测,本发明构建了循环注意力网络模型,将GRU的每个细胞单元替换为每个字的表示和隐藏状态拼接后的向量的自注意力运算,然后将具有强大拟合功能的前馈神经网络融入到每个细胞单元中,提高了模型拟合能力,采用基于循环注意力的模型进行动词生成,通过深度学习的dropout、以及采样等技术,可以针对用户输入的动词,每次联想出不同的相关动词序列,联想生成速度快。
  • 基于Transformer-CRF的藏文分词方法-202111520289.6
  • 于永斌;陆瑞军;群诺;头旦才让;唐倩;彭辰辉;王昊 - 电子科技大学
  • 2021-12-13 - 2023-10-10 - G06F40/284
  • 本发明公开了一种基于Transformer‑CRF的藏文分词方法,该方法包括:输入数据集、数据预处理、音节扩展、构建基于Transformer‑CRF的藏文分词模型、训练并保存模型及其参数以及输入待分词语料,输出分词结果。本发明以当前音节为中心向左向右扩展两个单元,使用unigram和bigram相结合的方法,可以提取到更多的特征向量。同时,本发明克服了传统分词方法中存在的运算速度、准确率低等缺点。另外,基于Transformer‑CRF的藏文分词模型采用并行计算,大大增加了计算效率,而且模型中的自注意力机制的特征抽取能力比LSTM的特征抽取能力要好。
  • 基于最小信息熵的神经网络分词系统及训练方法-201810724646.2
  • 张鹏 - 普天信息技术有限公司
  • 2018-07-04 - 2023-10-10 - G06F40/284
  • 本发明实施例提供一种基于最小信息熵的神经网络分词系统及训练方法。所述系统包括:卷积神经网络、双向长短期记忆神经网络、第一词库预测层和最小信息熵词库预测层,其中:卷积神经网络用于提取输入文本的特征向量并输出至双向长短期记忆神经网络;双向长短期记忆神经网络用于对特征向量进行前后文信息的读取之后输出至第一词库预测层和最小信息熵词库预测层;第一词库预测层用于根据第一词库计算并输出每个字的标签;最小信息熵词库预测层用于根据最小信息熵词库计算并输出每个字的标签。本发明实施例通过在神经网络分词系统中添加最小信息熵词库预测层,使分词系统提高未登录词的识别能力,进而提高分词准确率。
  • 地址信息的处理方法、装置、电子设备和存储介质-202210299688.2
  • 李志朋 - 北京京东振世信息技术有限公司
  • 2022-03-25 - 2023-10-03 - G06F40/284
  • 本发明公开了地址信息的处理方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法的一具体实施方式包括:基于预设格式的字符拆分地址信息得到多个分词,基于分词在地址信息中的排列顺序,组合各分词得出第一字符串集合,将第一字符串集合与预设的地址库匹配,以确定出匹配成功的第一地址集合,确定地址信息对应的处理结果;和/或基于地址信息中每个字符依次为起始字符,分别从地址信息中截取字符串,得到第二字符串集合,将第二字符串集合与预设的地址库匹配,以确定出匹配成功的第二地址集合,确定地址信息对应的处理结果;发送地址信息对应的处理结。该实施方式能够解决订单中地址的定位不准确,从而降低订单生产和配送效率的问题。
  • 数据处理方法、装置及电子设备-202310807204.5
  • 李彤;符博;李让 - 联想诺谛(北京)智能科技有限公司
  • 2023-06-30 - 2023-10-03 - G06F40/284
  • 本公开提供了一种数据处理方法、装置及电子设备,所述方法包括:利用第一处理模型对从第一数据集中获得的第一数据子集进行条件生成处理,得到第二数据集,所述第一数据子集通过第二处理模型对所述第一数据集进行关键数据提取得到;将所述第二数据集和第三数据集输入所述第一处理模型进行处理,得到第一标签信息,所述第一标签信息与指定标签信息不同,所述第三数据集与所述第一数据集的数据类型不同;利用所述第一标签信息更新所述第二处理模型。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top