[发明专利]四六级英语单词词形还原方法、装置及电子设备在审

专利信息
申请号: 202211523908.1 申请日: 2022-11-30
公开(公告)号: CN116070623A 公开(公告)日: 2023-05-05
发明(设计)人: 赵荣华 申请(专利权)人: 北京粉笔蓝天科技有限公司
主分类号: G06F40/268 分类号: G06F40/268;G06F40/242;G06F40/253
代理公司: 北京中政联科专利代理事务所(普通合伙) 11489 代理人: 陈超
地址: 100102 北京市朝阳区阜通东大街1*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请公开了一种四六级英语单词词形还原方法、装置及电子设备,属于计算机数据处理技术领域,其中,四六级英语单词词形还原方法包括:获取目标英语单词;将目标英语单词与词典进行匹配,词典为四六级英语单词中词形还原不规则单词的集合;当目标英语单词与词典中的第一原形单词匹配成功,则输出第一原形单词;当目标英语单词与词典中的第一原形单词匹配失败,则将目标英语单词根据语法规则进行词形还原,输出第二原形单词。该方法将词典和语法规则结合,还原过程简单,算力要求低,进而运用成本也会降低。
搜索关键词: 四六 英语单词 词形 还原 方法 装置 电子设备
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京粉笔蓝天科技有限公司,未经北京粉笔蓝天科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202211523908.1/,转载请声明来源钻瓜专利网。

同类专利
  • 问题筛选方法、装置、电子设备及可读存储介质-202210320027.3
  • 蔡少委;张清平;周聪聪;罗晓衡;谭闯;易晨希;沈欣;张宁;胡孝思 - 顺丰科技有限公司
  • 2022-03-29 - 2023-10-27 - G06F40/268
  • 本申请公开了一种问题筛选方法、装置、电子设备及可读存储介质,一方面,本申请提供的问题筛选方法在筛选待推荐的目标问题时,即从初始问题的专题整体出发,考虑了粗颗粒度的专题关注度,又从初始问题的问题个体出发,考虑了细颗粒度的问题关注度,因此筛选得到的目标问题更加符合目标用户的喜好,可以避免仅从粗颗粒度出发但目标用户对专题内的特定问题不感兴趣时,或者仅从细颗粒度出但初始问题较为少见,或问题质量不高时,筛选得到的目标问题不准确的情况出现。另一方面,本申请提供的问题筛选方法不依赖于问题推荐后用户的反馈数据,而是基于用户的历史行为数据,因此准确率更高。
  • 文本标注方法、装置、设备及介质-202110975379.8
  • 甘丽婷;徐介夫 - 平安科技(深圳)有限公司
  • 2021-08-24 - 2023-10-13 - G06F40/268
  • 本发明涉及人工智能技术领域,提出一种文本标注方法、装置、设备及介质,该方法通过根据历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,获取当前辅助标注结果,并根据历史修正信息集对当前辅助标注结果进行第一次修正,得到并显示当前修正标注结果,获取当前修正信息,并对当前修正标注结果进行第二次修正,完成当前待标注文本的标注。本发明还提出一种文本标注装置、设备及介质,在数据标注员进行人工标注之前通过机器预标注,并将机器预标注的当前修正标注结果与当前待标注文本一并显示,数据标注员仅需要在当前已有标注的基础上进行修改补充,提升了标注效率,降低了标注成本,减少标注工作量,减少重复工作,提升用户体验度。
  • 四六级英语单词词形还原方法、装置及电子设备-202211523908.1
  • 赵荣华 - 北京粉笔蓝天科技有限公司
  • 2022-11-30 - 2023-05-05 - G06F40/268
  • 本申请公开了一种四六级英语单词词形还原方法、装置及电子设备,属于计算机数据处理技术领域,其中,四六级英语单词词形还原方法包括:获取目标英语单词;将目标英语单词与词典进行匹配,词典为四六级英语单词中词形还原不规则单词的集合;当目标英语单词与词典中的第一原形单词匹配成功,则输出第一原形单词;当目标英语单词与词典中的第一原形单词匹配失败,则将目标英语单词根据语法规则进行词形还原,输出第二原形单词。该方法将词典和语法规则结合,还原过程简单,算力要求低,进而运用成本也会降低。
  • 一种模型训练及关键词提取方法及装置-202111081466.5
  • 校娅;沈元;童咏之;奚骏泉;汤彪;张敏 - 北京三快在线科技有限公司
  • 2021-09-15 - 2023-04-28 - G06F40/268
  • 本说明书公开了一种模型训练及关键词提取方法及装置,通过确定训练样本,将训练样本的关键词、关键词的实体分类结果以及所述关键词的情感分类结果,作为该训练样本的第一标注、第二标注和第三标注,基于各训练样本中的字符的位置以及关键词的位置,确定各训练样本对应的各字符的字向量,并基于各字向量,确定各训练样本的关键词,以根据各关键词的词向量,确定各关键词的实体分类结果和情感分类结果,以各训练样本提取出的关键词、实体分类结果、情感分类结合以及各标注,对该关键词提取模型进行训练。使得基于确定出的关键词进行推荐时,不仅可基于各关键词对应的实体分类推荐,还可基于各关键词对应的情感分类进行推荐,提高了推荐精度。
  • 基于词法词缀的论文冗余数据清洗方法、装置及存储介质-202211586218.0
  • 郭东恩;曲凯扬;郭丰硕;吴泽琛;周卓柯;贾超鑫;黄晓红 - 南阳理工学院
  • 2022-12-09 - 2023-03-14 - G06F40/268
  • 本申请实施例公开了一种基于词法词缀的论文冗余数据清洗方法、装置及存储介质,属于文本分类预处理技术领域,该方法包括:获取待分类文本;基于自然语言处理中的词法特性对所述待分类文本进行虚词清洗,获取实词部分作为实词文本;对实词文本进行词缀清洗,获取被清洗后的文本,生成无缀文本;基于预设的领域术语表从无缀文本中获取所有领域术语,并将获取到的领域术语构成领域术语集;对无缀文本进行模块识别,基于预设的干扰列表对识别出的模块进行干扰文本去除,将去除干扰文本的文本作为元数据文本;将元数据文本和领域术语集中元素作为纯净文本进行分类。本申请有助于合理的减少文本分类时的网络资源消耗,一定程度上节约了文本分类的成本。
  • 一种基于句子分割算法和改进主题模型的蒙古语情感方面抽取方法-202210906050.0
  • 苏依拉;韩春晖;仁庆道尔吉;吉亚图 - 内蒙古工业大学
  • 2022-07-29 - 2023-01-17 - G06F40/268
  • 一种基于句子分割算法和改进主题模型的蒙古语情感方面抽取方法,爬取互联网上的蒙古语商品评论消息,校正,清洗,去除停用词,修正错别字,标注词语词性,得到新的蒙古语文本文档s;对s进行情感极性检测,输出只保留蒙古语主观句子的文档s’;读取s’中的句子,选取所有词语元素,依次与蒙古语频用词列表比较,使用句子分割算法分割为若干不含杂质词语的带有单个情感方面的句子段,各句子段组成文档s”;使用短文本主题分析模型训练s”以对句子段进行分组,将具有相似情感方面的句子段分为一个主题,生成具有T个主题的文档S;概括每个主题中的句子段的情感方面,完成蒙古语情感方面抽取,本发明可提高主题情感方面抽取的准确度。
  • 人物性别识别方法、装置、电子设备及存储介质-202211249109.X
  • 毛红保 - 语联网(武汉)信息技术有限公司
  • 2022-10-12 - 2022-12-06 - G06F40/268
  • 本发明提供一种人物性别识别方法、装置、电子设备及存储介质,涉及数据处理技术领域,所述方法包括:确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。本发明通过对第一目标语料中包括的人物姓名进行人物性别预标注获得第二目标语料,并将第二目标语料输入至人物性别识别模型以进行人物性别预测,从而实现对待翻译文档中涉及的人物进行自动化地人物性别识别。
  • 规则的处理方法及装置-201910810146.5
  • 裴博润;张毅然 - 北京明略软件系统有限公司
  • 2019-08-29 - 2022-12-06 - G06F40/268
  • 本发明提供了一种规则的处理方法及装置。具体而言,该方法包括:接收第一指令信息以获取数据集合中选取的子集对应的规则配置,其中,所述第一指令信息用于指示用户选取的子集类型;根据所述规则配置对所述子集中的数据进行处理,并在所述用户指定的显示装置上所述规则配置以及对应的数据处理结果。通过本发明,解决了由于规则配置不准确,导致数据一次又一次的返工,消耗大量的资源、时间和人力的问题,达到了提高规则配置效率,降低人力成本的效果。
  • 一种需求条目分割方法-202210688666.5
  • 连小利;赵子岩;张莉 - 北京航空航天大学
  • 2022-06-17 - 2022-10-21 - G06F40/268
  • 本发明公开了一种需求条目分割方法,本发明设计了一个基于预训练的语言表征模型BERT和暹罗网络的需求分割Siamese学习框架,在该框架集成了语义相关性和句子连词来进行句子相关性度量,然后基于一组最小语义构成(MSC)规则,根据语义角色标记SRL注释对每个片段中的语义元素进行完整性检查,对分割结果进行启发式优化。实验表明,与现有的文本分割方法相比,本发明DRIP算法在不同复杂度的不同文档和段落的分割上表现出了良好的性能,在准确率上有了相当大的提高,平均准确率分别为57.65%—187.53%和54.46%—158.68%。
  • 一种文本去重方法、装置、电子设备及存储介质-202210283294.8
  • 潘帅;陈家银;张伟;陈曦;麻志毅 - 杭州未名信科科技有限公司;浙江省北大信息技术高等研究院
  • 2022-03-22 - 2022-07-12 - G06F40/268
  • 本发明公开了一种文本去重方法、装置、电子设备及存储介质,方法包括:确定待去重文本的标题中的代表性词;判断由已去重文本的标题构建的索引空间中的索引是否存在代表性词;若不存在,则确定待去重文本不是重复文本;若存在,则基于标题词性方式判定待去重文本是否为重复文本;在确定待去重文本不是重复文本时,以代表性词为索引,以标题和词性标注结果为键值添加到索引空间。通过获取文本的标题中最具有影响力的代表性词去重,可以进一步降低去重复杂度,提高去重效率,并且基于相似语义文本之间影响力最大的词相同的假设,当判断这个代表性词存在于由已去重文本的标题构建的索引空间中时,再基于标题词性方式进行去重,从而实现语义感知去重。
  • 一种基于多工具的自然语言处理方法、设备及介质-202210209091.4
  • 赵志庆;侯玉柱;王巍;张雨铭威;董席峰;刘孟 - 戎行技术有限公司
  • 2022-03-03 - 2022-06-03 - G06F40/268
  • 本申请公开了一种基于多工具的自然语言处理方法、设备及介质,方法包括:获取多个开源NLP工具;将特定语言划分成与特定语言适配的多个维度;确定预先获取的训练样本,训练样本中,至少部分结构以特定语言的形式体现;针对每个开源NLP工具,使用其对训练样本进行自然语言处理分析,以将训练样本在每个维度下进行分析,得到多个维度分别对应的分析结果;针对每个维度,获取多个开源NLP工具在该维度下的分析结果,以训练得到该维度对应的NLP维度模型;根据多个NLP维度模型,实现对特定语言的自然语言处理。通过多个开源NLP工具进行自然语言处理,得到特定语言在多个维度下的分析结果,解决使用单一基础NLP工具分析准确性较低的问题,提升了可用性。
  • 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型-202210185044.0
  • 况丽娟;戴宪华 - 中山大学
  • 2022-02-28 - 2022-05-31 - G06F40/268
  • 本发明涉及一种基于多种词嵌入融合与注意力机制的情感目标抽取模型ME‑ATT‑CRF。该模型采用三种类型的词嵌入进行融合,通用嵌入和特定域的嵌入以及考虑到词形一定程度上能够反映词性进而影响标注结果,加入字符级别卷积学习词语的形态学信息丰富特征表示,提取字符级别的特征。在不使用任何额外监督的情况下,模型取得了较好效果。除此之外,在模型的隐藏层引入自注意力机制,使模型能够自动学习输入文本中不同词语之间的关联与权重,充分理解上下文语义,从而更加关注到要抽取的目标词。在四个数据集进行了实验验证与对比,实验结果显示提出的模型精确率、召回率、F1分数比基准模型LSTM‑CRF更好。
  • 医疗大数据的数据标准化处理方法及装置-202210215632.4
  • 张华;丁英峰;徐海鹏;唐华 - 山东勤成健康科技股份有限公司
  • 2022-03-07 - 2022-05-27 - G06F40/268
  • 本发明提供医疗大数据的数据标准化处理方法及装置,充分利用了现代汉语、医学术语的特点,基于人工智能大数据的数据分析方法,通过以动词为中心对语句进行切分,使用特定的医学大数据词典匹配,降低了匹配难度,提高了匹配精度和速度;通过对语句双字以上切分,交替进行医学大数据词典的正序、逆序匹配,避免了语义碎片化,提高了匹配精度和速度;通过对语句中主语部分和宾语之间的部分进行单字以上谓语匹配,进一步提高了语义识别的精度;通过上述技术手段的有机结合,在提高了识别精度和速度的同时,节约了系统资源,提高了系统响应速度。
  • 一种基于图注意力神经网络的生物医学英文词义消歧方法-202111524951.5
  • 王明磊;刘睿;苑庆贤 - 哈尔滨理工大学
  • 2021-12-14 - 2022-03-15 - G06F40/268
  • 本发明涉及一种基于图注意力神经网络(Graph Attention Network,GAT)的生物医学英文词义消歧方法。本发明首先对生物医学英文语料进行预处理。该步骤对训练语料和测试语料包含歧义词汇的语句进行词性标注和语义标注处理。以歧义词汇所在的句子,以及句中所包含的词形、词性和语义作为消歧特征,将消歧特征作为节点来构建词义消歧特征图,利用训练语料训练GAT模型,将模型进行优化。利用优化后的GAT模型,对测试语料进行词义消歧,可得到歧义词汇在各个语义类别下的概率分布。将概率最大值对应的语义类判别为歧义词汇的语义类。本发明具有较好的词义消歧效果,更准确的判断歧义词汇的真实含义。
  • 文本解析方法、用于文本解析的训练方法和装置-202111385444.8
  • 艾国;杨作兴;房汝明;向志宏 - 杭州研极微电子有限公司
  • 2021-11-22 - 2022-03-01 - G06F40/268
  • 本发明公开了一种文本解析方法、用于文本解析的训练方法和装置,该文本解析方法包括:获取待解析文本信息;将待解析文本信息对应的相关数据输入神经网络模型,由神经网络模型推理得到词属性预测结果,其中,词属性表示文本信息中各个字符的属性,以及相同属性的字符在对应的分词中所处的起始位置和结束位置;根据起始位置和结束位置确定对应于相同属性的字符所组成的分词,并根据多个分词组成的文本信息数据确定出待解析文本信息的内容。本发明能够对新出现的词进行准确的词属性标注和分词,文本解析的准确率更高,且能够将词属性标注和分词在同一个神经网络模型中做到端到端的推理,本发明的技术方案计算量级轻、效率高、效果好、场景适应性强。
  • 一种基于文本风格迁移技术的文字美化方法-202110733282.6
  • 张楠坤 - 北京海纳数聚科技有限公司
  • 2021-06-30 - 2021-11-09 - G06F40/268
  • 本发明提供一种基于文本风格迁移技术的文字美化方法,包括下列步骤:S1:获取用户的第一输入文本,提取第一输入文本中的关键字,对关键字进行标签分类;S2:获取用户输入的风格要求的第二输入文本,通过语言模型判断风格要求所属的主题;S3:通过语言模型提取描述符合同一风格主题的若干语料文本,并进行排序处理;S4:根据描述主体所属标签类型,引入关联性密切的相关描述主体,并根据带有相关描述主体的语料文本,提取后作为补充描述文本;S5:输出与所述第一输入文本语义相同的第二写作风格的目标文本。本方法实现了文本写作风格的转换,有效解决了文本写作风格领域自适应问题,提高了文本写作风格转换的准确性。
  • 字向量生成方法、装置、终端设备及计算机可读存储介质-202011419870.4
  • 熊为星 - 深圳市优必选科技股份有限公司
  • 2020-12-07 - 2021-03-16 - G06F40/268
  • 本申请适用于终端技术领域,尤其涉及字向量生成方法、装置、终端设备及计算机可读存储介质。所述方法在需要生成目标字对应的目标字向量时,可以先确定目标字对应的初始字向量、图像特征向量、字根特征向量以及拼音特征向量。然后,可以根据目标字对应的初始字向量、图像特征向量、字根特征向量、拼音特征向量以及预设权重矩阵生成目标字对应的目标字向量。即通过结合文本信息、象形字图像信息、字根信息以及拼音信息来进行字向量的生成,使得所生成的字向量具有丰富的特征信息,可以充分体现字的属性特征,符合中文字的特性,以为后续的自然语言处理提供更可靠的字向量,提高自然语言处理的准确性,极大地扩展了自然语言处理的应用范围。
  • 用于将文本输入到电子设备中的系统和方法-201480067442.6
  • J·伊索-西皮莱;H·李;J·巴利;J·奥斯本 - 微软技术许可有限责任公司
  • 2014-12-11 - 2020-11-27 - G06F40/268
  • 提供了用于将文本输入到电子设备中的系统。所述系统被配置为接收输入到设备中的字符序列。该系统包括被配置为根据字符序列生成词段序列的单元。该系统还包括文本预测引擎,该文本预测引擎包括存储有词段序列的语言模型。文本预测引擎被配置为接收词段序列。在第一实施例中,文本预测引擎被配置为判定词段序列中的每个词段是否对应于语言模型的存储的词段,以及当词段序列中的每个词段对应于语言模型的存储的词段时将词段序列输出作为候选预测,而不管词段序列是否对应于存储的词段序列。提供了其它各种系统和对应的方法。提供了一种系统,该系统包括词段语言模型,词段语言模型包括存储的词段序列和候选过滤器。候选过滤器用于对由词段语言模型生成的词语预测进行过滤。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top