[发明专利]文字编码方法和装置、可读存储介质及电子设备有效

专利信息
申请号: 201910309554.2 申请日: 2019-04-17
公开(公告)号: CN110032716B 公开(公告)日: 2023-01-10
发明(设计)人: 汪越宇 申请(专利权)人: 北京地平线机器人技术研发有限公司
主分类号: G06F40/129 分类号: G06F40/129
代理公司: 北京布瑞知识产权代理有限公司 11505 代理人: 孟潭
地址: 100080 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请实施例公开了文字编码方法和装置、可读存储介质及电子设备,所述方法包括:根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点,其中,所述文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识;以及,基于与所述文字相对应的所述对应节点的参考标识对所述文字进行编码,以得到所述文字的标识。通过采用树型拓扑结构将所有文字根据其特征相关性进行排列,使得各个文字之间的特征相关信息反映在标识中,更合理充分地利用文字的特征信息,当已编码的文字作为神经网络输出的标准(Ground Truth)时,编码表中的标识能够反映文字之间的特征相关性,提高了文字之间的特征相关信息的复用性以及连贯性。
搜索关键词: 文字 编码 方法 装置 可读 存储 介质 电子设备
【主权项】:
1.一种文字编码方法,包括:根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点,其中,所述文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识;以及,基于与所述文字相对应的所述对应节点的参考标识对所述文字进行编码,以得到所述文字的标识。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京地平线机器人技术研发有限公司,未经北京地平线机器人技术研发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910309554.2/,转载请声明来源钻瓜专利网。

同类专利
  • 包含多语言编码数据的可索引数据库简档及其生成方法-201780085014.X
  • M·K·阿特勒;C·钟;R·李;M·S·萨尼夫;K·戈;K·T·温;J·库珀 - 美国联合包裹服务公司
  • 2017-12-12 - 2023-08-11 - G06F40/129
  • 可以生成以多种语言(例如单字节语言和多字节语言)编码的数据,并将其存储在数据库中的单个可索引信息/数据简档中。信息/数据简档可以包括可索引信息/数据字段和不可索引信息/数据字段,所述可索引信息/数据字配置为用于以标准化语言编码存储信息/数据,所述不可索引信息/数据字段配置为用于以不同于标准化语言的语言存储信息/数据。可以通过翻译存储在不可索引信息/数据字段中的信息/数据来生成标准化语言,以能够索引整个信息/数据简档。信息/数据简档可用于生成各种信息/数据输出,例如包括标准化语言或其他语言中的至少一种的运送标签,同时至少部分地基于标准化语言使得能够索引信息/数据简档。
  • 基于Potrace算法的中文矢量字库生成方法-202010497185.7
  • 王存睿;江子傲 - 大连民族大学
  • 2020-06-04 - 2023-05-16 - G06F40/129
  • 基于Potrace算法的中文矢量字库生成方法,其属于矢量字库生成的技术领域。该方法通过对Potrace算法中的拟合多边形和贝塞尔曲线片段进行优化和改进,对字体曲线轮廓进行高质量的布点,然后将中文字体图像进行矢量化,生成svg矢量文件。原有的Potrace算法生成的结果质量是,细节处字形轮廓上往往布满了冗余的控制点。本方法产生的字体是逼真的高质量结果,在视觉外观上显示出优于其他方法的优势。且轮廓的曲线线条光顺性高,可以精确捕捉整体特征以及局部细节,具有很高的精确度。同时本方法不仅减少了路径点的数量,而且保留了轮廓的关键风格细节。
  • 关键词变体的确定方法和装置-201811023100.0
  • 高喆;康杨杨;陶秀莉;孙常龙;刘晓钟;司罗 - 阿里巴巴集团控股有限公司
  • 2018-09-03 - 2023-04-28 - G06F40/129
  • 本申请公开了一种关键词变体的确定方法和装置。该方法包括如下步骤:将待测文本拆分为多个文本字符串;利用汉字在多种编码形式下的字形相似关系,获取所述文本字符串的异构图特征;利用所述异构图特征,通过机器学习模型确定所述文本字符串与预设的关键词的相似度;根据所述相似度判断所述文本字符串是否为所述关键词变体,以判断所述待测文本中是否包含所述关键字变体。在本发明实施例提出的方案中,不同的形码编码在各个维度刻画了字形的结构,综合使用多种编码方式形成异构图,可以形成了互补,比单纯用某一种形码能更好地计算字形相似度。通过异构图存储不同编码的字形相似度信息,可以加强字形间的传递关系,有效降低了误判。
  • 字符串解码方法、装置、电子设备及存储介质-202211550335.1
  • 李启彬 - 北京思特奇信息技术股份有限公司
  • 2022-12-05 - 2023-04-11 - G06F40/129
  • 本申请实施例公开了一种字符串解码方法、装置、电子设备及存储介质。该方法包括:在接收到待解码字符串参数的情况下,对待解码字符串参数中的每个字节进行遍历;遍历到任一字节时,读取字节的码值,基于字节的码值判断字节是否为高位中文字节,若确定字节为高位中文字节,将遍历指针偏移第一预设偏移值;若字节并非高位中文字节,判断字节是否为存放分割符的字节,若是,确定字节在待解码字符串参数中的位置,并将遍历指针偏移第二预设偏移值;在遍历到存放预设结束字符的字节的情况下,待解码字符串参数遍历结束,按照确定的预设分割符所在的位置将待解码字符串参数截取为待解码字符单元;基于预设的解码规则对各待解码字符单元进行解码。
  • 页面翻译方法、装置、存储介质及电子设备-202211379692.6
  • 王侨文 - 平安银行股份有限公司
  • 2022-11-04 - 2023-01-20 - G06F40/129
  • 本申请提供一种页面翻译方法、装置、存储介质及电子设备,应用于后台管理页面插件,该后台管理页面插件绑定于后台管理系统的后台管理页面,当检测到目标用户在初始后台管理页面中触发的用户操作时获取包括目标后台管理页面文本和目标后台管理页面图形的目标后台管理页面信息,然后基于目标后台管理页面信息和目标字体配置信息确定待翻译文本,并根据目标字体配置信息将待翻译文本翻译为目标字体类型的翻译文本,再将目标后台管理页面文本替换为翻译文本,并基于替换后的翻译文本和目标后台管理页面图形生成目标翻译页面。基于用户操作自动将初始后台管理页面的文本字体转换为目标字体类型,该过程无需改动后端接口,有效提高页面翻译效率。
  • 文字编码方法和装置、可读存储介质及电子设备-201910309554.2
  • 汪越宇 - 北京地平线机器人技术研发有限公司
  • 2019-04-17 - 2023-01-10 - G06F40/129
  • 本申请实施例公开了文字编码方法和装置、可读存储介质及电子设备,所述方法包括:根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点,其中,所述文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识;以及,基于与所述文字相对应的所述对应节点的参考标识对所述文字进行编码,以得到所述文字的标识。通过采用树型拓扑结构将所有文字根据其特征相关性进行排列,使得各个文字之间的特征相关信息反映在标识中,更合理充分地利用文字的特征信息,当已编码的文字作为神经网络输出的标准(Ground Truth)时,编码表中的标识能够反映文字之间的特征相关性,提高了文字之间的特征相关信息的复用性以及连贯性。
  • 文字转拼音的方法、装置、计算机设备和存储介质-202110732801.7
  • 王缘;于洋;冯佳宜;李鹏;周杰 - 腾讯科技(深圳)有限公司
  • 2021-06-29 - 2022-12-30 - G06F40/129
  • 本申请涉及一种文字转拼音的方法、装置、计算机设备和存储介质。所述方法包括:获取待转换文字对应的统一码;基于所述统一码,查找所述待转换文字对应的目标分隔码在拼音字典的位向量中的偏移值;所述位向量是由各文字对应的文字编码组合而成的;所述文字编码中包含分隔码和所述文字的发音数量码;在所述位向量中,根据所述偏移值查询所述待转换文字的目标发音数量码;基于所述偏移值以及所述目标发音数量码,在所述拼音字典的拼音标识码向量中查询所述待转换文字对应的目标拼音标识码;根据所述目标拼音标识码确定所述待转换文字的拼音。采用本方法能够提高文字转拼音的转换速度。
  • 基于汉字信息交换标准代码的指令集方法及电子设备-202210817124.3
  • 冯杰 - 嘉兴市简安信息科技有限公司
  • 2022-07-12 - 2022-10-14 - G06F40/129
  • 本发明涉及计算机技术领域,具体涉及一种基于汉字信息交换标准代码的指令集方法及电子设备,包括以下步骤:S1初始化,定义汉字信息交换标准代码和字节位宽;S2定义指令位宽和指令格式;S3定义具体功能指令和寄存器;S4获取汉字信息,并将汉字信息直接转换为二进制信息。本发明是精简指令集的理念与汉字的结合。汉字本身比之英文来的精简,和精简指令集的理念刚好契合。本发明的指令,相比现有的流行指令集拥有更高的效率,表达同样的含义,需求的资源(bit位)更少。本发明有56条基础指令。以48位为一条具体指令,每个寄存器可以存储完整的一条指令,没有超过48位的指令存在,通过合理的搭配基础指令,可以实现不曾定义的效果。
  • 一种基于人工智能的艺术作品生成系统及方法-202010893325.2
  • 范凌;王建楠;卓京港;都峤 - 同济大学
  • 2020-08-31 - 2022-09-06 - G06F40/129
  • 本发明涉及一种基于人工智能的艺术作品生成方法,具体包括以下步骤:步骤S1:获取中文字符串,将中文字符串编码为定长向量;步骤S2:将定长向量作为控制条件,使用预先训练的深度学习模型生成具有多个汉字特征的抽象汉字图像;步骤S3:获取预设的美学指标,根据美学指标对抽象汉字图像进行筛选;步骤S4:结合输入图像和生成图像,绘制筛选后的抽象汉字图像。本发明将书法作为文字和艺术的共同载体,具有丰富人工智能对文字和图像内容进行转化的功能范围,提高人工智能进行文字和图像转化的适用性和稳定性等优点。
  • 一种基于JavaScript与Unicode的字符排序方法、系统及装置-202111160214.1
  • 郝长征;李尊状;游鑫;崔凤 - 中孚信息股份有限公司
  • 2021-09-30 - 2022-01-04 - G06F40/129
  • 本发明提出的一种基于JavaScript与Unicode的字符排序方法、系统及装置,所述包括:在JavaScript平台中创建一个排序规则函数,记为compare函数;在待排序的数组中提取相邻的两个元素,记为参数a和b;将参数a和b输入compare函数中;判断a与b是否相等,若相等则compare函数直接返回1;若不相等,进一步判断a是否有值,若a没有值,则compare函数直接返回1;若a有值,则判断b是否有值,若b没有值,则compare函数直接返回‑1;若b有值,则使用预设的Unicode对比方法函数对a和b进行比较;compare函数根据比较结果生成返回值;根据返回值采用sort方法对待排序的数组进行对比排序。本发明能够有效提升复杂业务场景下,js处理字符串排序的整体性能。
  • 一种字符校验方法及装置-201710018668.2
  • 刘天一 - 阿里巴巴集团控股有限公司
  • 2017-01-10 - 2021-08-17 - G06F40/129
  • 本申请涉及互联网技术领域,尤其涉及一种字符校验方法及装置,用以解决现有的生僻字校验存在的验证准确率低的问题。本申请实施例提供一种字符校验方法,包括:客户端在用户选择进入下单页面时,向服务器发起第一请求,该第一请求用于请求获取下单页面的页面信息以及用户选择的服务供应方支持的第一合法字符集标识;接收服务器返回的服务供应方支持的第一合法字符集标识和下单页面的页面信息;基于所述页面信息,显示下单页面,并接收用户在该下单页面输入的待校验字符;根据所述待校验字符的字符编码,以及所述第一合法字符集标识对应的字符编码范围,确定所述待校验字符的合法性。
  • 一种基于哈希函数的藏文排序方法-202110116876.2
  • 安见才让;孙琦龙 - 青海民族大学
  • 2021-01-28 - 2021-05-18 - G06F40/129
  • 本发明公开了一种基于哈希函数的藏文排序方法。该方法包括将待排序藏文字集分解成多个藏文字,识别各个藏文字的构件;构建基于哈希函数的藏文排序模型;基于识别的各个藏文字的构件和构建的藏文排序模型,计算各个藏文字的哈希值;基于计算的哈希值对各个藏文字进行排序,得到排序后的藏文字序列。本发明为了解决现有技术中计算藏文字权重方法过于复杂的问题,采用了哈希函数对藏文字的哈希值进行了计算,使每个藏文字都有一个独特的哈希值,从而完成了藏文排序过程,具有简单且运算速度快的优点。
  • 数据编码方法、装置、计算机设备和存储介质-202011609546.9
  • 夏航军 - 平安普惠企业管理有限公司
  • 2020-12-30 - 2021-05-18 - G06F40/129
  • 本申请涉及数据处理技术领域,提供了一种数据编码方法、装置、计算机设备和存储介质,从所述待编码的初始数据中提取出具有第一预设字节数的第一数据;将所述第一数据转换为具有第二预设字节数的第二数据;其中,所述第二预设字节数大于所述第一预设字节数;根据基于标准的Base64编码表重新编排所得的预设Base64编码表,分别对所述第二数据中的每个字节对应的数据进行编码,得到对应的编码数据;本申请中数据转换过程中,将第一数据转换为字节数更大的第二数据,保障数据的完整性;同时,自定义Base64编码表,使得编码后的数据不容易被破解,避免数据泄露。
  • 汉字完整结构编码方法-202110133870.6
  • 陈非 - 陈非
  • 2021-02-01 - 2021-04-30 - G06F40/129
  • 本发明是一种把汉字的全部结构要素都编入代码,而又不显著增加文字代码的码元数量的方法。本发明利用“尸”、“Ф”、“串”、“井”、“圭”、“开”、“王”、“月”、“工”、“口”、“日”、“目”、“田”、“个”、“丫”、“大”、“木”、“米”、“人”、“止”、“乍”、“十”、“艹”、“丰”、“卌”、“φ”、“厂”、“匚”、“乙”、“几”、“弓”、“一”、“二”、“三”、“灬”、“土”、“丁”、“ㄡ”、“于”总共42个基本字根,以及它们组合而成的186个组合字根,实现文字结构的全部要素都编入代码,以避免其它基于字形的计算机汉字编码方案中,为了控制码元数量而被迫舍弃文字部分结构要素的弊端。
  • 一种机器人汉语普通话任务ASCII码编码方法及系统-202011067102.7
  • 王欣 - 王欣
  • 2020-10-05 - 2021-01-15 - G06F40/129
  • 本发明公开了一种机器人汉语普通话任务ASCII码编码方法,包括:通过汉语普通话语义信息字符串获取单元构建包含汉语普通话语义信息的字符串;通过字符串分类单元对构建模块构建的字符串进行分类;通过汉语普通话信息分类编码单元分别对每类字符串进行编码,使每个汉语普通话语素、词和词组信息都对应一个不同的ASCII编码;汉语普通话信息分类编码单元与机器人系统的控制计算机相连,通过字符串来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作。本发明以字符串表示汉语语义信息,对汉语普通话语素、词和词组的义项等汉语普通话语义信息进行编码,做到一码一义不重码,增强了机器人理解汉语普通话信息的处理性能。
  • 一种以字形为基础的方块字编码方法-202010810157.6
  • 不公告发明人 - 陈非
  • 2020-08-13 - 2020-11-13 - G06F40/129
  • 本发明公开了一种以字形为基础的方块字编码方法,是一种为了把方块文字输入计算机,而对文字编写对应的ASCII字符代码的方法。利用二维的矩形和三角形,以及构成笔划的线段间的交叉、交接、转折、零散四种相互位置关系构造字根,使得字根数量少、规律性强、好记,优于五笔字型编码法。用这些字根表示文字,并用字根对应的ASCII字符组成文字的代码,输入计算机。
  • 一种基于编辑距离的中文发音校验方法-202010757493.9
  • 钱春霖 - 升智信息科技(南京)有限公司
  • 2020-07-31 - 2020-11-06 - G06F40/129
  • 本发明涉及一种基于编辑距离的中文发音校验方法,采用全新策略设计,针对来自待验证中文发音词的待验证中文文本,获得预设拼音规则下所对应的待验证标准拼音格式,以及其拓展的标准拼音格式,并基于元音、辅音的二维向量表示,以及标准拼音格式的表示方法,获得待验证中文文本及其拓展标准拼音格式分别所对应的数学表示,并选取待验证中文文本及其拓展标准拼音分别和预设目标标准拼音之间的最小编辑距离,作为待验证中文发发音词和目标真实词之间的编辑距离,最后结合预设距离阈值,实现待验证中文发音词相较目标真实词相似度结果的验证,能够有效解决中文场景中信息校验的准确性,保证智能语音对话的稳定性。
  • 一种基于词典和seq2seq预训练机制的中医古籍翻译方法-201910020459.0
  • 高升;徐亨如;李思;徐雅静 - 北京邮电大学
  • 2019-01-09 - 2020-10-13 - G06F40/129
  • 本发明公开了一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法,属于信息处理领域。该方法的特征包括:先预训练一个通用的seq2seq古文翻译模型,再基于词典,在中医专业知识的指导下,训练针对中医典籍的古文翻译模型。具体特征为:编码器和中医专业知识编码器分别用循环神经网络将古文编码得到内容向量,中医专业知识编码得到专业向量;将内容向量作为另一个循环神经网络的初始参数,输入特定开始字符,开始解码;将上一时刻解码器的输出、内容向量、专业向量拼接作为下一时刻解码器的输入,直至解码器输出结束符。本发明通过预训练通用的seq2seq古文翻译模型,并基于词典,在中医专业知识的指导下对中医典籍古文翻译进行优化,取得了很好的应用效果。
  • 含有多音字的中文转换汉语拼音方法及系统-201710364796.2
  • 张亚龙;倪志强;许哲宾 - 上海携程金融信息服务有限公司
  • 2017-05-22 - 2020-08-14 - G06F40/129
  • 本发明公开了一种含有多音字的中文转换汉语拼音方法及系统。方法包括:S10、在第一词库中存储多音字及其拼音,在第二词库中存储具有多音字的词组及其拼音,在第三词库中存储非多音字及其拼音;S20、将读取的字符串拆分为词单元;S30、判断词单元的汉字个数是否为1;若是,将词单元作为第一类词并执行步骤S31;若否,将词单元作为第二类词并执行步骤S31’;S31、判断第一类词是否为多音字;若是,查找第一词库获得翻译结果;S31’、判断第二类词中是否具有多音字;若是,查找第二词库获得翻译结果;若否,则执行步骤S32;S32、将不含多音字的第二类词拆分为第一类词,并翻译为拼音,将翻译得到的拼音组合排序后输出。
  • 藏文电码编码的方法和装置、藏文电码解码的方法和装置-201710573235.3
  • 朱丽平;周毛克;拉毛草;赵小兵 - 中央民族大学
  • 2017-07-14 - 2020-07-31 - G06F40/129
  • 本发明公开了一种藏文电码编码、解码的方法和装置,属于通信领域。所述编码方法包括:获取一个藏文音节;按照从左至右的顺序依次对其中每个位置上的字符进行判断;如果当前位置包括一个字符,则查找预设的编码表得到与该字符对应的编码;如果当前位置包括垂直排列的多个字符,则按照先辅音后元音且辅音从上至下的顺序对该垂直排列的多个字符中的每个字符,依次查找编码表得到对应的编码;在编码的过程中,在每两个相邻的编码间添加字符间隔符,在该藏文音节中所有位置的字符都完成编码后得到该藏文音节的电码编码。本发明给出了基于少数民族语言实现电码编码解码的方案,极大地方便了藏文的通信,在应急通信及安全保密通信方面都有很大作用。
  • 相同字符串的判定方法及装置-201610052823.8
  • 赵科科 - 阿里巴巴集团控股有限公司
  • 2016-01-26 - 2020-05-19 - G06F40/129
  • 本申请提供一种相同字符串的判定方法及装置,其中的方法包括:计算第一字符串与第二字符串的编辑距离;基于所述编辑距离对所述第一字符串和所述第二字符串的长度进行适配,并基于适配后的所述第一字符串以及所述第二字符串的长度计算相似度;基于所述相似度判定所述第一字符串与所述第二字符串是否相同。本申请可以提升相似度计算的准确度,在基于相似度判定第一字符串与第二字符串是否相同时,可以显著提升判定结果的准确性。
  • 一种将汉字语句转换为盲文的方法-201710302938.2
  • 富明慧 - 中山大学
  • 2017-05-03 - 2020-04-07 - G06F40/129
  • 本发明提供了一种将汉字语句转换为盲文的方法,包括以下步骤:S1、将汉字语句中的每个汉字转换为计算机可识别的4个字节的汉字全息码;S2、根据汉字全息码中第3字节和第4字节记录的信息,利用计算机将每个汉字的汉字全息码转换为盲文。本发明采用汉字全息码作为中间转换格式,在确定汉字字形的同时,也唯一确定了其读音,还明确了是否与后面汉字分词,包含了汉字明盲转换时所需的全部信息。利用本发明中的汉字全息码作为中间转换方式,能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。
  • 一种基于新型汉字全息编码规则的明盲文转换系统-201710517639.0
  • 富明慧 - 中山大学
  • 2017-06-29 - 2020-04-07 - G06F40/129
  • 本发明提供了一种基于新型汉字全息编码规则的明盲文转换系统,包括:文本采集模块,用于从外部获取汉字文本;读音数据库,用于存储汉字的读音;分词预处理模块,用于向文本采集模块从外部获取的汉字文本中,自动或手动插入分词标记;汉字全息码预编译模块,用于将所述汉字文本编译成汉字全息码的编码格式,并存储到汉字全息文件存储模块中;汉字全息文件存储模块,用于存储汉字全息码格式的文件。本发明采用新型的汉字全息码作为文件存储格式,在确定汉字字形的同时,也唯一确定了其读音,还明确了是否与后面汉字分词,包含了明盲文转换时所需的全部信息。利用本发明,能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top