[发明专利]一种数据编码的方法、系统、电子装置和存储介质在审

专利信息
申请号: 202210784845.9 申请日: 2022-06-29
公开(公告)号: CN115310409A 公开(公告)日: 2022-11-08
发明(设计)人: 冯驿;张朋 申请(专利权)人: 杭州似然数据有限公司
主分类号: G06F40/126 分类号: G06F40/126
代理公司: 杭州创智卓英知识产权代理事务所(普通合伙) 33324 代理人: 刘宏全
地址: 310000 浙江省杭州市西湖区三墩镇*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请涉及一种数据编码的方法、系统、电子装置和存储介质,其中,该方法包括:获取待处理文本数据,对待处理文本数据中的符号根据出现频率的大小进行由高到低排序;根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在分割点前的符号为高频符号,其余为低频符号;根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值;将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。通过本申请,解决了对符号进行概率分布预测估计时,计算量大,内存消耗严重的问题,加快计算速度、降低内存消耗。
搜索关键词: 一种 数据 编码 方法 系统 电子 装置 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州似然数据有限公司,未经杭州似然数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202210784845.9/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于大语言模型技术的创业类商业计划数据采集系统-202310850160.4
  • 叶小云;林惠君;廖应川;魏富彬;李谦 - 北京清创汇智科技发展有限公司
  • 2023-07-12 - 2023-10-27 - G06F40/126
  • 本发明公开了一种基于大语言模型技术的创业类商业计划数据采集系统,属于数据采集技术领域。本发明系统包括文档数据采集模块、线下数据采集模块、信息提炼模块以及存储模块;所述文档数据采集模块用于将从项目团队的用户移动终端里的各种格式的文档收集并传输到预装有大语言模型的工作站中;所述线下数据采集模块用于在线下场景中使用带有数据传输功能的拍照设备和录音设备采集的图片和音频整合成文档;所述信息提取模块用于将采集的信息提炼成用户需要的结构化信息;所述存储模块用于将采集到的文档数据、线下采集的图片和音频以及提取的结构化信息存储起来。
  • 一种文本编码方法和系统-202310942782.X
  • 张光辉 - 宿迁学院
  • 2023-07-28 - 2023-10-27 - G06F40/126
  • 本发明适用于文本编码技术领域,提供了一种文本编码方法和系统,包括以下步骤:接收用户输入的产品数据语料,对产品数据语料进行学习分析,确定产品参数词汇,每个产品参数词汇对应有使用度;确定编码符种类,以及每个产品参数词汇对应的最少编码符数量,根据编码符种类、最少编码符数量以及使用度得到编码字典,编码字典包括所有的产品参数词汇,每个产品参数词汇对应有编码字符串;接收用户输入的待编码文本,根据所述编码字典对待编码文本进行编码处理,记录编码字符串的调用情况;每隔设定时间段,根据编码字典中编码字符串的调用情况对编码字典进行更新。如此产品相关信息被加密,外部人员无法得到编码字典,无法进行解码,安全性高。
  • 一种业务编码生成方法、系统、电子设备及存储介质-202310733195.X
  • 万超 - 深圳联友科技有限公司
  • 2023-06-20 - 2023-10-27 - G06F40/126
  • 本申请提供了一种业务编码生成方法、系统、电子设备及存储介质,属于业务编码技术领域。该方法包括:获取当前编码规则类型;根据当前编码规则类型从预先配置好的编码规则中获取对应的配置项;根据配置项中的匹配信息进行匹配,得到匹配结果;根据配置项中的最后流水号,生成目标流水号;合并匹配结果与目标流水号,得到目标业务编码。本发明提供一种业务编码生成方法、系统、电子设备及存储介质,用户选取当前编码规则类型即可获取编码规则中的配置项,从而根据编码规则中的配置项自动得到目标业务编码,以解决现有业务编码生成效率低下、时间成本和人力成本较高的技术问题。
  • 文本素材的处理方法、装置、电子设备以及存储介质-202211564278.2
  • 姚波怀 - 腾讯科技(深圳)有限公司
  • 2022-12-07 - 2023-10-27 - G06F40/126
  • 本申请提供了一种文本素材的处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质;涉及人工智能,方法包括:获取文本素材;对文本素材进行编码处理,得到文本素材对应的语义编码序列;基于语义编码序列进行词汇解码处理,得到词汇解码序列,其中,词汇解码序列包括至少一个词汇;将词汇解码序列中的每个词汇组合,得到文本素材表征的写作主题信息;获取写作主题信息分别与文本素材库中多个参考素材的匹配程度;基于每个参考素材对应的匹配程度,从多个参考素材中选定至少一个参考素材作为写作素材。通过本申请,能够提升获取推荐的写作素材的准确性。
  • 精简化信息编码实现方法、装置、计算机设备及存储介质-202310992532.7
  • 徐栋 - 平安银行股份有限公司
  • 2023-08-08 - 2023-10-27 - G06F40/126
  • 本发明公开了精简化信息编码实现方法、装置、计算机设备及存储介质,涉及信息处理技术领域,其中,所述方法包括:确定目标应用系统的自定义进制以及所述自定义进制所使用的可见字符序列;根据所述目标应用系统在其存储与传输的特定环境下预先设置的十进制编码的第一最大长度,计算得到所述自定义进制下编码的第二最大长度;执行所述目标应用系统中十进制的目标编码到所述自定义进制的转换,得到转换后编码;将所述转换后编码的编码长度与所述第二最大长度进行比对;根据比对结果,实现对于所述目标应用系统的精简化信息编码。通过本发明的方法可实现对于十进制数字的精简化编码,让目标应用系统在有限的存储和传输环境中,传输更多的信息。
  • 一种快速识别网线路由的设备及工作方法-202310835389.0
  • 何斌;郭振君;杨鹏;熊裕涛 - 浪潮通信信息系统有限公司
  • 2023-07-10 - 2023-10-24 - G06F40/126
  • 本发明涉及网线布线技术领域,具体为一种快速识别网线路由的设备及工作方法,包括前端和后端,所述前端根据图纸对点位编号进行设置,后端设备识别前端设备编号,进而识别网线路由,用于进行下一步配线架施工;有益效果为:本发明提出的快速识别网线路由的设备及工作方法,采用前后端配合的小装置,做为综合布线放线过程中忘记在网线上标记记号的一种路由识别装置,做为网线标记完成后一种网线信息点位后期核对的一种校验设备,甚至改变原有的标记、放线、识别、打配线架的综合布线网线施工的工作方式,放线的时候只需要放线,不需要做任何标记,在放线结束后,在各个信息点位面板打完后,在弱电间进行网线打配线架时候,再做网线路由识别。
  • 一种文本输入展示方法、装置、设备及其存储介质-202310978427.8
  • 高福东 - 中国平安财产保险股份有限公司
  • 2023-08-03 - 2023-10-24 - G06F40/126
  • 本申请实施例属于金融科技技术领域,应用于金融业务下客户个人身份信息整理录入过程中,涉及一种文本输入展示方法、装置、设备及其存储介质,包括在文本输入阶段,通过文本输入模型提供了对常用字和生僻字分别进行输入的检索组件,之后,在文本展示阶段,对于常用字展示采用直接输出方式,而对于生僻字展示采用图片方式展示,充分考虑了常用字与生僻字之间的差异性,也避免了显示端无法编码生僻字的缺陷,使得客户个人信息既能完成录入,也能保证姓名中生僻字的显示,方便金融行业对客户个人信息的管理。
  • 盾构机刀具故障智能诊断方法-202311187975.5
  • 丁希阳;连涛;李可可;李强;张书磊;夏亮亮;吴则成;王飞;胡海东;张刚;郭玉保;徐楠;郭灿 - 山东济矿鲁能煤电股份有限公司阳城煤矿
  • 2023-09-15 - 2023-10-24 - G06F40/126
  • 本发明涉及数据处理技术领域,具体涉及盾构机刀具故障智能诊断方法,包括:获取盾构机刀具运行数据中每类字符的字符频数获取频率序列,构建初始状态表,获取每类字符的时间调整必要性与压缩代价;根据时间调整必要性与压缩代价获取每类字符的调整必要性并每类字符的最佳分布范围调整参数;根据每类字符的最佳分布范围调整参数获取频率序列中的第一类字符的索引区间,根据每类字符在每次调整区间内的剩余索引数量获取每类字符的索引区间,根据每类字符的索引区间获取调整后的状态表;利用调整后的状态表对数据进行压缩处理;对盾构机刀具运行数据进行分析获取刀具故障诊断结果。通过调整字符在状态表中的索引范围达到高效压缩传输的目的。
  • 显示面板缺陷等级数据上报的方法、系统及判级报废方法-201911320389.7
  • 邢朝帅 - 苏州精濑光电有限公司
  • 2019-12-19 - 2023-10-24 - G06F40/126
  • 本发明涉及显示面板缺陷等级数据上报的方法、系统及判级报废方法,包括:对显示面板划分后的子面板进行编号;判定每个编号对应的所述子面板的缺陷等级;获取缺陷等级满足上报条件的对应子面板的编号;按照所述编号的顺序,将所述编号及其对应的缺陷等级依次编码为预设格式的数据串;将各所述数据串按照所述编号的顺序逐次上报。本发明可以解决现有技术中对玻璃基板中各子面板的缺陷报废判定的漏判或误判的问题。
  • 一种基于信息增强的提示学习事件抽取方法及装置-202310858248.0
  • 肖红;廖鸿辉;姜文超;黄子豪 - 广东工业大学;广州凡沙智能科技有限公司
  • 2023-07-12 - 2023-10-20 - G06F40/126
  • 本发明提供一种基于信息增强的提示学习事件抽取方法及装置,方法包括以下步骤:将待抽取事件的语料转换为若干个字嵌入向量,将所述若干个字嵌入向量输入至Lattice LSTM模型,得到若干个字词信息编码;通过词汇链构造历史事件信息,并根据预设的训练数据集统计高频触发词;将所述若干个字词信息编码、所述历史事件信息、所述高频触发词以及预设目标模板输入至预训练语言模型;通过所述预训练语言模型处理,得到事件触发词以及若干个论元,并根据得到的所述事件触发词确定事件类型;根据所述预设目标模板,将得到的所述事件触发词、所述事件类型以及若干个论元组合为抽取完成的事件语句。本发明能够提高事件类型识别的准确率,实现低资源下的事件抽取。
  • 基于相似性度量的字符串匹配方法、设备及存储介质-202310797100.0
  • 汤奋;李坤伟;曾广军;赵彦庆;蒋序平;程芳;陈克斌;谢文佳;许子熙 - 中国人民解放军国防科技大学
  • 2023-06-30 - 2023-10-20 - G06F40/126
  • 本申请公开了一种基于相似性度量的字符串匹配方法,该方法包括:基于机构的全称生成多个简化后的字符串;在字符串中选择一个字符串,生成其与机构全称的最长公共子序列,计算字符串的编辑距离与最长公共子序列的长度;基于最长公共子序列在字符串中的分布特征、最长公共子序列在机构全称中的分布特征,以及最长公共子序列的长度计算最长公共子序列的稀疏度;根据字符串的编辑距离、最长公共子序列的稀疏度与最长公共子序列的长度对字符串与机构全称进行相似性度量,重复上述步骤,将相似性度量结果最大的字符串作为机构全称的简称。本申请公开的方法基于最终相似性度量的结果能够找到匹配度更高的机构简称,更符合实际情况,且适应性更强。
  • 一种信息处理方法、装置及设备-202211375794.0
  • 钟荣秀;刘莹;杨会宝;张世磊;邓超 - 中国移动通信有限公司研究院;中国移动通信集团有限公司
  • 2022-11-04 - 2023-10-20 - G06F40/126
  • 本发明提供了一种信息处理方法、装置及设备,其中,信息处理方法,包括:获取待处理音频数据对应的第一文本编码内容;利用生成对抗网络模型中的目标生成器,根据所述第一文本编码内容和目标声音特征信息,得到目标音频数据;其中,所述目标声音特征信息包括:目标响度信息、目标音调信息和目标音色信息中的至少一项。本方案能够实现采用生成对抗网络模型来预测语音波形(即获取目标音频数据),不再需要声码器来合成语音波形,实现端到端的语音转换,避免声码器级联带来的mismatch(误配)问题以及声码器输出的结果存在噪声或音质损坏等缺陷,很好的解决了现有技术中针对语音转换的信息处理方案通过声码器合成语音数据导致存在噪声或音质损坏的问题。
  • 一种使用ASCII打印字符表示二进制数的方法-201710672028.3
  • 郭铮铮 - 郭铮铮
  • 2017-08-08 - 2023-10-20 - G06F40/126
  • 本发明提供一种使用ASCII打印字符表示二进制数的方法,经过本发明方法转换输出结果包括主字符组,辅字符组和控制位字符组;主字符组是提取输入二进制数的每一8位组中的主位组转换得到的主位组字符组合而成;所述辅字符组由所有8位组中的辅助位组合得到的辅位组进行十六进制转换得到的;每一8位组的主位组转换主位组字符时生成一个控制位,将所有8位组转换过程中生成的控制位组合并使用十六进制表示得到控制位字符组。上述方法可以实现对二进制数字的打印压缩显示,在传输的时候较好的提高传输容量。
  • 一种中英文信息融合的数据分级方法、服务器及存储介质-202311154785.3
  • 吴文琴;张心宇 - 联通在线信息科技有限公司
  • 2023-09-08 - 2023-10-17 - G06F40/126
  • 本申请公开了一种中英文信息融合的数据分级方法、服务器及存储介质,属于数据处理领域,包括如下步骤:对待分级元数据进行处理形成标准分词列表;构建四种pair对样本集,并对多语言预训练模型进行领域预训练;通过encoder编码器将文本编码成向量,得到待分级元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量;利用多种相关性准则计算二者的相关性,然后选取前K类作为候选分级集合;计算候选分级集合中各分级类型的频率,以频率最高的为最终分级结果。该服务器包括存储有上述方法的存储器和执行该方法的处理器;该存储介质存储有执行上述方法的计算机程序。本方法能够对低质量的数据库表进行数据分级。
  • 基于重排序的字编码学习方法、装置、电子设备及介质-202310706646.0
  • 徐枫;刘傲寒;雍俊海;郭雨晨 - 清华大学
  • 2023-06-14 - 2023-10-13 - G06F40/126
  • 本申请涉及自然语言处理技术领域,特别涉及一种基于重排序的字编码学习方法、装置、电子设备及介质,其中,方法包括:获取由多个句子组成的训练数据集;根据训练数据集中每个句子的字序列重排序得到新序列,对新序列进行编码得到编码序列,利用编码序列训练神经网络模型;从训练完成的神经网络模型中提取字编码。由此,提升了字编码的学习效率,进一步提升网络的表现效果以及自然语言处理任务的效果。
  • 面向精细化内容重组的服务内容多重语义自动编码方法-202110507321.0
  • 陆伟;罗卓然;钱佳佳;蔡乐;刘沛鹞 - 武汉大学
  • 2021-05-10 - 2023-10-13 - G06F40/126
  • 本发明公开了一种面向精细化内容重组的服务内容多重语义自动编码方法,首先,建立统一的自动编码标准库,构建编码体系和标签分类体系,为每个标签赋予唯一的标识符;其次,提取服务内容资源特定关键字信息,包括内容资源的标题、作者名称、发布时间、内容格式、语言类型;再次,判断内容资源是否已被编码或存在于内容资源库;最后,基于深度学习方法为内容资源自动生成唯一标识符,即内容资源编码,编码结束后将内容资源存入服务内容资源库。本发明解决了海量多领域服务内容资源的自动编码问题,代替了人工手动编码,有助于大规模服务内容资源的组织、管理和有效利用。
  • 一种存算一体汉语盲文芯片-202310308296.2
  • 梁宏博;毛扬;刘畅;陶文韬;杨文珍 - 之江实验室
  • 2023-03-27 - 2023-10-13 - G06F40/126
  • 本发明公开了一种存算一体汉语盲文芯片,包括输入FIFO模块、字符类型判断模块、中文分词模块,中文‑盲文转换模块、非中文‑盲文转换模块、Flash读写控制器、DRAM存储模块、点阵信息转换模块、输出FIFO模块,该芯片依据盲文芯片的工作原理,采用了存算一体存储架构,将文本到盲文翻译过程中数据反复往返的盲文对照表设置于DRAM DRAM存储模块,进行存算一体处理,从而能够消除总线和数据带宽的浪费,大大降低响应延迟,减少了数据读取和运算的时间。同时提高了并行化执行的吞吐率。
  • 一种端到端的多任务联合篇章级事件抽取方法及系统-202311021717.X
  • 线岩团;秦海涛;黄于欣;相艳 - 昆明理工大学
  • 2023-08-15 - 2023-10-13 - G06F40/126
  • 本发明涉及端到端的多任务联合篇章级事件抽取方法及系统,属自然语言处理领域;方法包括:筛选出对某种事件类型来说贡献最大的词作为伪触发词,来完成无触发词的事件检测;通过回归的方式对每种类型的事件数量做出预测;对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;利用片段打分方式识别文档中的实体作为候选论元;将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;通过多任务联合学习方式,实现端到端的篇章级事件抽取;根据上述功能模块化制成系统,对事件进行抽取,本发明预测了事件论元及论元角色的关系,缓解论元重叠问题。
  • 一种文本背诵辅助方法、系统以及设备-202010290150.6
  • 胡圣和;胡定均 - 胡圣和;胡定均
  • 2020-04-14 - 2023-10-13 - G06F40/126
  • 本发明公开了一种文本背诵辅助方法、系统以及设备,方法包括以下步骤:构建背诵文本数据库,从背诵文本数据库中选择出一篇背诵文本,从选择出的背诵文本中选择背诵段落,将背诵段划分成一系列的字符串;设定字符串模糊规则,按照字符串模糊规则从背诵段落中选择出需要进行模糊处理的字符串并对其进行模糊处理。本发明通过设定字符串模糊规则,从而能够灵活自由的选择需要进行模糊化处理的字符串,对需要背诵的对象进行隐藏,解决了现有技术中传统的背书方法无法灵活选择遮住哪些字来进行分批记忆的技术问题;本发明能够降低学习者在文本背诵中的注意力负担,大大提高了背诵的效率。
  • 证件机读方法、装置、设备及存储介质-202310956703.0
  • 黄海东 - 招商银行股份有限公司
  • 2023-07-31 - 2023-10-10 - G06F40/126
  • 本申请公开了一种证件机读方法、装置、设备及存储介质,该方法包括:接收设备厂家读取待读取证件后所得到的原始数据,其中,所述设备厂家不对所述原始数据进行编码;在本地对所述原始数据进行编码处理,将编码后所得到的编码数据发送给上层应用,以供所述上层应用处理所述编码数据。本申请使得证件需要生僻字支持、增加机读证件类型等情况,可以在使用方相应系统中进行处理(编码等),而不需要强依赖于设备厂家的驱动升级,进而实现满足实际应用的需求。
  • 一种数据处理方法及其装置-202310751865.0
  • 韩建华;卢冠松;徐航;王春微;曾艺涵 - 华为技术有限公司
  • 2023-06-21 - 2023-10-10 - G06F40/126
  • 一种数据处理方法,应用于人工智能领域,包括:获取第一特征表示、第二特征表示和第三特征表示;第一特征表示包括通过扩散模型中的加噪模块对原始文本特征进行第一步长的加噪后得到的特征表示;第二特征表示为第一步长的特征表示;第三特征表示为第一图像的特征表示;根据第一特征表示、第二特征表示和第三特征表示,通过扩散模型中的去噪模块对原始文本特征进行预测,得到第四特征表示;根据第四特征表示,通过对比学习,更新去噪模块。本申请将图文对比学习转化为以图像为条件的文本生成过程,使得实现图像生成的模型和实现图文对比学习的模型之间参数共享,从而实现了在一套框架中实现图文对齐和图像生成,降低了部署的存储开销和计算开销。
  • 文本识别方法、装置、电子设备及可读存储介质-202310873503.9
  • 冉佳诺 - 维沃移动通信有限公司
  • 2023-07-14 - 2023-10-10 - G06F40/126
  • 本申请公开了一种文本识别方法、装置、电子设备及可读存储介质,属于自然语言处理领域。该方法包括:将第一待识别文本输入第一文本编码模型,第一待识别文本包含第一多音字,第一文本编码模型包括卷积层;提取第一待识别文本对应的第一文本特征序列;采用卷积层对第一文本特征序列进行分段卷积处理,得到第二文本特征序列,第二文本特征序列至少包含第一待识别文本的全局语义信息和第一待识别文本中的第一文本片段的局部语义信息,第一文本片段包含第一多音字;基于第二文本特征序列,得到第一待识别文本对应的第一编码信息,并基于上述第一编码信息获得第一待识别文本的识别结果。
  • 一种疾病编码的自动编目方法及系统-202210880857.1
  • 赵韡;袁靖;赵帅;刁晓林;夏芸;霍燕妮 - 中国医学科学院阜外医院
  • 2022-07-26 - 2023-10-10 - G06F40/126
  • 一种疾病编码的自动编目方法及系统,包括:构建训练数据及构建模型;将医疗文本输入医疗文本特征提取模块,提取医疗文本特征;基于疾病编码信息生成无向加权图,通过疾病编码特征提取模块运算,得到疾病编码特征;将医疗文本特征及疾病编码特征输入基于标签注意力机制的特征融合模块,得到疾病编码的最终预测特征及疾病编码被分配的概率值;利用损失函数评估模型的预测误差,基于反向传播进行所述模型参数调优;在应用阶段,将患者的医疗文本输入训练好的模型,将得到的各疾病编码被分配的预测概率值与预设的疾病编码判定阈值对比,将符合所述判定阈值的所有疾病编码作为所述患者的疾病编码输出。本申请实现疾病编码的自动编目,且提高准确性。
  • 用于文档传输的方法、设备和计算机程序产品-202210309191.4
  • 薛咏冰;刘敏;刘威扬;刘原一;廖梦泽 - 戴尔产品有限公司
  • 2022-03-25 - 2023-10-03 - G06F40/126
  • 本公开的实施例涉及用于文档传输的方法、设备和计算机程序产品。该方法包括:从文档选择待编码部分,该文档包括结构化部分,结构化部分中的每个结构化部分包括标识符和与标识符相关联的数据;获取待编码部分的至少一个结构化部分;针对至少一个结构化部分中的相应结构化部分执行以下操作,以编码文档:生成相应结构化部分的数据的哈希值;确定哈希值存储库是否包括该哈希值;以及基于确定哈希值存储库包括该哈希值,将文档中的相应结构化部分的数据替换为该哈希值;以及向接收方发送经编码的文档。该方案可以在确保接收方获得所需信息的情况下,减少传输包括结构化数据的文档的带宽消耗,以及潜在地节约接收方存储接收到的文档的所需存储空间。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top