[发明专利]一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质有效

专利信息
申请号: 201910157161.4 申请日: 2019-03-01
公开(公告)号: CN109902302B 公开(公告)日: 2020-03-24
发明(设计)人: 郑敏杰 申请(专利权)人: 郑敏杰
主分类号: G06F40/289 分类号: G06F40/289;G06F16/36
代理公司: 成都顶峰专利事务所(普通合伙) 51224 代理人: 陈夏
地址: 100000 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及计算机技术领域,公开了一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质。通过本发明创造,提供了一种将概率主题模型LDA的应用达到一个全新水平的新方法,可使每个主题成为语义网络中的一个节点,更深刻地反映主题间的复杂语义关联,形成既与传统知识图谱互相呼应又互相补充,但又有独立应用价值的主题图谱,从而不但可以有效地提升传统搜索及推荐的效率和准确率,还可以弥补传统数据挖掘或文本分析在深度和可视化上的不足,利于挖掘出传统方法难以发现的潜在语义关联,实现真正的科学发现,尤其在数据发掘上有巨大的潜在价值。
搜索关键词: 一种 适用于 文本 分析 数据 挖掘 主题 图谱 生成 方法 装置 设备 以及 计算机 存储 介质
【主权项】:
1.一种适用于文本分析或数据挖掘的主题图谱生成方法,其特征在于,包括如下步骤:S101.获取包含海量文档的语料库;S102.对所述语料库中各个文档的词语集合进行数值化处理,然后将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题‑词语矩阵和文档‑主题矩阵,其中,所述主题‑词语矩阵表示每个主题中出现每个词语的概率,所述文档‑主题矩阵表示每个文档中出现每个主题的概率;S103.根据所述主题‑词语矩阵获取各个主题的特征词语集合,根据所述文档‑主题矩阵获取各个主题的关联主题,其中,所述关联主题是指与某个主题共同出现在同一文档中的另一共现主题;S104.在确定目标词语后,查找到在特征词语集合中包含所述目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题;S105.将查找到的主题结果转换为目标词语的可视化主题图谱,其中,所述可视化主题图谱包含有目标主题的可视化内容、目标关联主题的可视化内容以及目标主题与目标关联主题之间的映射关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑敏杰,未经郑敏杰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910157161.4/,转载请声明来源钻瓜专利网。

同类专利
  • 语句处理方法、装置、设备、存储介质及程序产品-202310288660.3
  • 杨明明;高乙平 - 腾讯科技(深圳)有限公司
  • 2023-03-16 - 2023-10-27 - G06F40/289
  • 本申请公开了一种语句处理方法、装置、设备、存储介质及程序产品,涉及人工智能领域。包括:获取待分词语句以及待分词语句对应的天然分词语句,其中,待分词语句是无分词结构的语句,天然分词语句是具有自然分词结构的语句,无分词结构中语句以字符为最小单位组成,自然分词结构中语句以词为最小单位组成,且天然分词语句与待分词语句表征相同的文本含义;将待分词语句与天然分词语句输入对齐模型进行字词对齐,得到待分词语句中各个字符对应的对齐分词,对齐模型用于确定输入语句中双语句间字词的对齐关系;将对应相同对齐分词的字符进行合并处理,得到待分词语句的分词结果。本申请实施例提供的方法,有助于提高语句分词的准确性。
  • 虚拟对话系统动态上下文收集-202310382219.1
  • 鲁奇·马欣德鲁;周欣 - 国际商业机器公司
  • 2023-04-11 - 2023-10-27 - G06F40/289
  • 本公开涉及虚拟对话系统动态上下文收集。提供了用于与虚拟对话环境接口以动态地且最佳地收集上下文用于问题诊断和解析的系统、计算机程序产品和计算机实现的方法。利用上下文模型来识别上下文实体以及一个或多个对应的上下文收集机制。上下文模型被实时地实现以促进对所识别的上下文收集机制中的一个或多个的动态选择,这些上下文收集机制被选择性地执行以解决问题诊断。
  • 文本生成方法、装置及电子设备-202310869171.7
  • 刘绍腾;刘华罗 - 腾讯科技(北京)有限公司
  • 2023-07-14 - 2023-10-27 - G06F40/289
  • 本说明书实施例公开了一种文本生成方法、装置及电子设备,涉及人工智能技术领域,该方法包括:获取待输出文本的输出前文信息,计算输出前文信息对应的第一哈希值;将第一哈希值作为随机种子,按照预设比例对目标模型的词库进行拆分,获得词库的第一子词库和第二子词库;将输入文本和输出前文信息输入目标模型,获得输出文本集合,输出文本集合中包括多个预测输出文本;依次判断多个预测输出文本是否在第一子词库中,若在,则将对应的预测输出文本作为待输出文本。利用本说明书提供的技术方案,实现在模型输出文本中快速添加水印,并且,不需要修改模型本身,为文本的真实性检测奠定了数据基础。
  • 一种文件标签生成方法、装置、电子设备及存储介质-202310794513.3
  • 吕军;贾朝晖;毕迎迎 - 鼎道智联(北京)科技有限公司
  • 2023-06-30 - 2023-10-27 - G06F40/289
  • 本申请的实施例公开了一种文件标签生成方法、装置、电子设备及存储介质,涉及计算机数据管理技术领域,应用于终端设备,能够有效提高文件标签的生成效率。所述方法包括:监听用户对文件的操作事件;响应于用户对文件的操作,获取所述文件的特征信息;对所述文件的特征信息进行预处理,得到特征向量;将所述特征向量作为关键词生成模型的输入,通过所述关键词生成模型对所述特征向量进行处理,输出所述文件的关键词;将所述关键词作为相关性匹配模型的输入,通过所述相关性匹配模型对所述关键词进行处理,得到所述文件的标签。本发明适用于生成文件标签的场景。
  • 用于文本处理模型的训练方法、装置、电子设备、介质-202310809989.X
  • 念天磊 - 北京度商软件技术有限公司
  • 2023-07-03 - 2023-10-27 - G06F40/289
  • 本公开提供了一种用于文本处理模型的训练方法、装置、电子设备和介质,涉及人工智能领域,尤其涉及自然语言处理领域。方法可以包括:获得原始样本集合,原始样本集合包括多个样本文本;基于原始样本集合获得第一样本集合和第二样本集合,第一样本集合和第二样本集合中的样本分别一一对应;基于第一样本集合和第二样本集合获得两个或更多个样本对,包括至少一个正样本对,每个正样本对包括第一和第二样本集合中关联的样本;基于两个或更多个样本对和文本处理模型,获得两个或更多个样本对的每个文本距离;以及基于至少一个策略调整文本处理模型的参数,至少一个策略包括用于减少至少一个正样本对的相应的文本距离的第一策略。
  • 文本信息关键词计算方法、装置、程序、设备以及介质-202310035401.X
  • 邓亚平 - 腾讯科技(深圳)有限公司
  • 2023-01-10 - 2023-10-27 - G06F40/289
  • 本发明提供了一种文本信息关键词计算方法、装置、程序产品、设备以及介质,方法包括:计算所述分词词项的第一权重;根据所述分词词项的第一权重,计算所述分词词项的第二权重;根据所述分词词项在所述目标文本信息中出现的次数,确定包含所述分词词项的候选短语;计算所述候选短语的权重;根据所述候选短语的权重和所述分词词项的第二权重,对所述分词词项和所述候选短语进行混合排序,得到所述目标文本信息的关键词,由此,实现提升关键词的准确性。
  • 一种文本改写方法、装置、设备及计算机可读存储介质-202310444168.0
  • 代勇;程鹏宇;陈万顺;张玉律;陈官正;陈梓阳;郑哲;杜楠 - 腾讯科技(深圳)有限公司
  • 2023-04-13 - 2023-10-27 - G06F40/289
  • 本申请提供了一种文本改写方法、装置、设备及计算机可读存储介质;方法应用于针对竞技领域的文本改写设备,包括:获取竞技领域的待改写文本和训练好的文本改写模型,其中,训练好的文本改写模型是利用通用领域的通用样本数据对集合对预训练好的文本改写模型训练得到的,预训练好的文本改写模型是利用竞技领域的竞技样本数据集合和通用领域的通用样本数据集合预训练得到的,通用领域不同于竞技领域;利用训练好的文本改写模型对待改写文本进行预测处理,得到待改写文本的改写文本,以利用改写文本进行竞技解说;输出改写文本。通过本申请,能够提升文本改写的时效性和多样性,进而提高赛事解说的客观性、趣味性和整体效果。
  • 一种基于生命周期的虚假新闻检测方法-202310703053.9
  • 施重阳;阮伟 - 北京理工大学
  • 2023-06-14 - 2023-10-27 - G06F40/289
  • 本发明涉及一种基于生命周期的虚假新闻检测方法,属于自然语言处理技术领域。本方法利用源新闻文本内容与新闻传播序列对新闻的生命周期进行建模表示,并联合源新闻文本表示与生命周期表示,自动进行虚假新闻检测。首先使用新闻传播序列中的文本内容与时间信息建模生命周期特征。然后使用下一次转发时间预测任务优化生命周期表示。最后联合源新闻文本表示与生命周期表示进行真实性标签预测。本方法充分挖掘了新闻传播中多角度特征,不仅利用新闻文本信息,还利用时间信息捕获有利于虚假新闻检测的生命周期表示,能够对新闻的真实性进行准确预测。
  • 古诗词词频分析方法及系统-202110675786.7
  • 韩珍 - 枣庄科技职业学院
  • 2021-06-18 - 2023-10-27 - G06F40/289
  • 本公开涉及一种古诗词词频分析方法,包括:获取包括古诗词的第一数据集,根据所述第一数据集构建第一文档,所述第一数据集至少包括M首诗词;针对所述第一文档进行词频分析,获得表征词频排序的第一列表,并根据所述第一列表,建立所述第一列表中的关键词到第一数据集中的M首诗词的名称的第一映射表;根据虚字词库中预设虚字词信息,去除所述第一列表中的虚字词以生成第二列表,根据所述第二列表,更新所述第一映射表以形成第二映射表;依据用户预设条件,筛选第二列表中符合预设条件且词频排序最高的至少一个关键词,并依照所述关键词与所述第二映射表的对应关系,确定N首诗词的名称;依据N首诗词的名称,分别展示诗词内容。
  • 意图识别模型的训练方法、装置、设备及存储介质-202110611219.5
  • 李志韬;王健宗;程宁;于凤英 - 平安科技(深圳)有限公司
  • 2021-06-01 - 2023-10-27 - G06F40/289
  • 本申请涉及人工智能领域,具体公开了一种意图识别模型的训练方法、装置、设备及存储介质,所述方法包括:获取样本文本和样本文本对应的意图序列,并对样本文本添加交互标记,得到样本标记序列;基于注意力网络对样本标记序列进行注意力计算,得到样本标记序列的注意力输出;根据样本标记序列的注意力输出和预先构建的嵌入矩阵得到第一识别意图;将样本标记序列的注意力输出输入多层感知器网络,得到样本标记序列的第二识别意图;根据第一识别意图和第二识别意图确定识别意图,并基于识别意图和意图序列对注意力网络和多层感知器网络进行训练,并将训练完成的注意力网络和多层感知器网络共同作为意图识别模型。
  • 专利技术监控中嵌套实体关键词抽取方法及系统-202310977120.6
  • 黄威威;张晗;邹伟东;包智;洪英文 - 企知道科技有限公司
  • 2023-08-03 - 2023-10-24 - G06F40/289
  • 一种专利技术监控中嵌套实体关键词抽取方法及系统,涉及大数据技术领域。在该方法中,获取预处理后的专利技术文本;将所述预处理后的专利技术文本输入预设的关键词抽取模型,得到专利数据;所述专利数据包括标签序列;对所述标签序列进行解码,得到至少一个解码关键词;当存在单个所述解码关键词时,则将所述解码关键词作为所述实体关键词;当存在多个所述解码关键词时,则基于预设的筛选规则对多个所述解码关键词进行筛选,得到至少一个实体关键词。实施本申请提供的技术方案,可以准确地从专利技术文本中提取与专利主题相关的实体关键词。
  • 结构化文本信息生成方法、装置、电子设备及存储介质-202310754325.8
  • 戴亨玮;杨明智;麦英 - 中国电信股份有限公司
  • 2023-06-25 - 2023-10-24 - G06F40/289
  • 本发明实施例提供了一种结构化文本信息生成方法、装置、电子设备及存储介质,通过对所述待结构化文本信息进行分词操作,确定针对所述待结构化文本信息的第一子词;通过所述第一文本数量信息,和,所述第一文本张量信息生成针对所述第一子词的第一特征张量信息;基于所述第一特征张量信息生成针对所述待结构化文本信息的结构化文本信息,从而实现了以子词作为粒度为基础,有效避免了输出子词多结构穿插的问题,从而提升了文本结构化的效率。
  • 一种基于Transformer的电子档案摘要生成方法、系统及介质-202310805007.X
  • 洪亮;姬广鹏;李琳;卫莹;李博;郭方;陈静 - 国网湖北省电力有限公司武汉供电公司
  • 2023-06-30 - 2023-10-24 - G06F40/289
  • 本申请涉及一种基于Transformer的电子档案摘要生成方法、系统及介质,方法包括以下具体步骤:对输入的源文档使用词嵌入方法将文本序列X转化为词嵌入表示E;对词嵌入表示E进行位置嵌入,为序列中的分词增加绝对和相对位置信息,形成一个新的词向量序列PE;设计多头分类掩码矩阵,用于多头自注意力的分类;将多头分类掩码矩阵加入Transformer编码器;为输入序列PE中向量计算隐状态;计算词典中选词的概率;基于选词的概率选出合适的词或者生成合适的词生成摘要。本申请采用Transformer来进行电子档案中关键信息的分析和抽取,并生成针对电子档案的摘要,从而提供高效的电子档案信息服务。
  • 基于深度学习的SQL注入检测方法、装置和存储介质-202310830569.X
  • 胡瀚璋;廖喜君;董昊昊 - 杭州安恒信息技术股份有限公司
  • 2023-07-06 - 2023-10-24 - G06F40/289
  • 本申请涉及一种基于深度学习的SQL注入检测方法、装置和存储介质,通过获取测试数据集;对所述测试数据集中的各所述SQL原始样本分别进行特征提取,生成对应的各个特征矩阵;将各所述特征矩阵输入训练后的目标检测模型中,获取各所述SQL原始样本的SQL注入概率,得到对应的注入检测结果,所述训练后的目标检测模型利用训练数据集进行训练得到,所述训练数据集包括被标记的多个SQL注入样本和被标记的多个非SQL注入样本。采用本方法解决了利用传统正则表达式进行注入检测带来的时间不可控、运算时间长的问题,实现高效率的SQL的注入检测,提高了SQL注入检测的准确率。
  • 一种电商文本关键词提取处理方法及系统-202310674877.8
  • 姚云锋;沈寅 - 杭州淘粉吧网络技术股份有限公司
  • 2023-06-08 - 2023-10-24 - G06F40/289
  • 本发明公开的是种电商文本关键词提取处理方法及系统,获取电商相关文本标题及正文;获取标题词向量与句向量计算相似度,相似度最高的词作为第一候选关键词;将电商文本输入预训练的命名实体识别模型,预测得到多个第二候选关键词;将电商文本与指定电商核心词库进行匹配,以得到多个第三候选关键词;获取电商文本各个词词性,提取多个名词短语作为第四候选关键词;对第一、二、三、四候选关键词进行重要程度排序,将相似度满足预设条件的候选关键词,确定为最终关键词,还包括关键词提取处理系统,包括通信连接的获取模块,第一、第二、第三、第四处理模块,排序模块,本发明具有能够解决电商文本关键词提取准确率不高的问题等技术特点。
  • 一种文本处理方法及装置-202210338321.7
  • 詹青 - 北京国双科技有限公司
  • 2022-04-01 - 2023-10-24 - G06F40/289
  • 本发明公开了一种文本处理方法及装置,包括:获取待处理文本;确定与所述待处理文本对应的目标领域信息;基于目标分词模型对所述待处理文本进行分词,得到分词结果,其中,所述目标分词模型为针对基础词表和与所述目标领域信息相匹配的领域词表生成的模型;根据所述分词结果,生成目标文本。在本发明中能够基于对应的领域词表对待处理文本进行处理,使得获得的目标文本能够与目标领域信息相匹配,提升了文本处理的准确性。
  • 一种训练样本生成方法、装置、计算机设备及存储介质-202210360148.0
  • 请求不公布姓名 - 深圳TCL新技术有限公司
  • 2022-04-06 - 2023-10-24 - G06F40/289
  • 本申请实施例提供一种训练样本生成方法、装置、计算机设备及存储介质,能够获取携带原始标签信息的待处理文本,并对携带原始标签信息的待处理文本进行分词处理,得到携带子原始标签信息的子待处理文本;对子待处理文本进行文本类型识别,得到子待处理文本对应的目标文本类型;获取目标文本类型对应的文本增强策略,并按照文本增强策略,对子待处理文本进行文本增强处理,得到增强后子待处理文本;根据子待处理文本对应的子原始标签信息,对增强后子待处理文本进行标注,得到增强后子待处理文本对应的目标标签信息;根据目标标签信息和增强后子待处理文本,生成训练样本;本申请实施例能够提高带有标签信息的训练样本的生成效率。
  • 一种基于最大似然概率的科技词汇分词方法及系统-202310690365.0
  • 何军;赵燕;胡俊松;徐旻昕 - 上海市研发公共服务平台管理中心
  • 2023-06-12 - 2023-10-24 - G06F40/289
  • 本发明涉及分词算法技术领域,提供了一种基于最大似然概率的科技词汇分词方法,包括以下步骤:S1:获取与待分词的科技词汇输入字符串相同领域的离线词典,所述离线词典包括词和词频在内的两列;S2:基于所述离线词典在内存中构建所述待分词的科技词汇输入字符串的前缀词典;S3:在所述前缀词典的基础上,对所述待分词的科技词汇输入字符串进行切分,构建有向无环图;S4:基于所述有向无环图获取所述待分词的科技词汇输入字符串的所有的分词路径,计算所述分词路径中似然概率最大的所述分词路径作为所述待分词的科技词汇输入字符串的分词结果。基于最大似然概率,计算出最优的切分路径,获取最优的分词结果。
  • 错别词识别方法、相关设备及可读存储介质-201911293645.8
  • 王培养;方昕;李永超;刘海波;方磊 - 合肥讯飞数码科技有限公司
  • 2019-12-16 - 2023-10-24 - G06F40/289
  • 本申请公开了一种错别词识别方法、相关设备及可读存储介质,待识别的原始文本可能由于某个字或某几个字书写错误导致该原始文本中出现连续的字,在本申请中,通过获取原始文本中的出现连续的字组合生成原始字子串,并根据原始字子串,获取与原始文本对应的新增多字词,通过新增多字词可以确定出原始文本中对应新增多字词的某几个连续的字,该某几个连续的字则有可能是原始文本中的错别词。因此,基于本申请的方案,可以实现对文本中的错别词的识别。
  • 语义表示图模型的训练方法、装置、设备和存储介质-202110256133.5
  • 易鹏;连义江 - 北京百度网讯科技有限公司
  • 2021-03-09 - 2023-10-24 - G06F40/289
  • 本公开公开了一种语义表示图模型的训练方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及智能搜索、深度学习等技术领域。语义表示图模型的训练方法包括:获取多种类型的搜索样本中各个类型的搜索样本对应的异质图,所述异质图包括中心节点和邻居节点,所述中心节点和所述邻居节点的类型不同;采用语义表示图模型,对所述异质图进行处理,以得到各个类型的样本向量;基于所述各个类型的样本向量,构建总损失函数,并采用所述总损失函数训练所述语义表示图模型。本公开可以提高语义表示图模型的效果。
  • 一种敏感字段的识别方法、装置、设备及介质-202310923064.8
  • 屈言雪;肖春亮;王豪;杨朋凯 - 绿盟科技集团股份有限公司;神州绿盟成都科技有限公司
  • 2023-07-25 - 2023-10-20 - G06F40/289
  • 本申请实施例提供了一种敏感字段的识别方法、装置、设备及介质,在该方法中,在待识别的数据源中获取字段元数据;在字段元数据中,获取字段的至少一个字段属性特征;针对字段的至少一个字段属性特征中每个字段属性特征,确定每个字段属性特征的敏感识别结果;根据至少一个字段属性特征的敏感识别结果,确定字段元数据的敏感字段识别结果。通过针对字段元数据获取到的字段属性特征进行敏感识别,而非通过抽取字段的数据进行敏感识别,因此数据特征不明显或提炼比较复杂以及不易获取到数据的情况下均有较好的识别效果,可以提高敏感字段的识别准确性,降低误报率。
  • 车辆性能分析方法、装置、电子设备、存储介质及车辆-202211528828.5
  • 黄海涛;焦俊铭;张睿;乔举义;李波 - 北京罗克维尔斯科技有限公司
  • 2022-11-30 - 2023-10-20 - G06F40/289
  • 本申请提供一种车辆性能分析方法、装置、电子设备、存储介质及车辆,采用性能情感模型对待分析文本数据进行关键词提取,通过语义扩展实现了性能关键词和情感关键词语义层面的信息挖掘,避免了待分析文本数据与关键词的硬匹配,提高了待分析文本数据中关键词的提取效果;由于性能关键词和性能维度一一对应,多个性能关键词能够用于分析多个性能维度,并且根据对性能维度的逻辑判断得到车辆性能分析结果,避免了车辆性能分析方法对训练样本的依赖,提高了车辆性能分析方法的准确率。
  • 一种基于交叉去偏超参数优化的文本分类方法及系统-202310929049.4
  • 束俊;刘军民;周宇博;孟德宇 - 西安交通大学
  • 2023-07-26 - 2023-10-20 - G06F40/289
  • 本发明属于文本分类、机器学习、超参数优化技术领域,公开了一种基于交叉去偏超参数优化的文本分类方法及系统;所述文本分类方法包括:获取待分类的文本特征数据;将获取的文本特征数据,输入预先训练好的文本分类模型进行分类,获得文本分类结果;其中,所述预先训练好的文本分类模型的训练步骤包括:基于选定的文本分类模型结构,采用预获取的训练样本数据集,进行模型训练,达到预设收敛条件后,获得所述预先训练好的文本分类模型;其中,进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式。本发明降低了文本数据偏差,可提升文本分类的预测精度。
  • 汽车类文本数据增强方法、装置、电子设备及存储介质-202211602135.6
  • 黄海涛;焦俊铭;乔举义;王阳;康清国;李波 - 北京罗克维尔斯科技有限公司
  • 2022-12-13 - 2023-10-20 - G06F40/289
  • 本公开涉及一种汽车类文本数据增强方法、装置、电子设备及存储介质,方法包括:获取汽车领域的样本文本数据;对所述样本文本数据进行分词处理,得到至少一个原始词组;确定所述原始词组的类型;若所述原始词组的类型为目标类型,确定与所述原始词组对应的目标词组;利用所述目标词组替换所述原始词组,得到增强后的文本数据。其可实现对原始词组进行合理归类,有选择性地对目标类型的原始词组进行替换,以确保原始词组和对应的目标词组语义尽可能接近、感情色彩尽可能接近、使用场景尽可能接近,进而达到降低替换后的句子出现逻辑错误、或语句不通顺等问题的几率的目的。
  • 文本地址识别方法、电子设备及存储介质-202210567476.8
  • 刘智奇 - 荣耀终端有限公司
  • 2022-05-23 - 2023-10-20 - G06F40/289
  • 本申请提供了一种文本地址识别方法、电子设备及存储介质,涉及人工智能技术领域。所述方法应用于电子设备,所述方法包括:确定地址识别对应的目标文本;根据所述目标文本的文本语种对应的地址词典,在所述目标文本中确定特征词;根据所述特征词和所述目标文本的文本语种对应的地址书序规则,在所述目标文本中确定目标子序列;按照预设的特征提取规则,确定所述目标子序列对应的文本特征;将所述文本特征输入所述目标文本的文本语种对应的地址识别模型中,得到所述目标子序列对应的地址概率。本申请实施例可以提高了地址识别的准确率。
  • 一种辅助学习语言的方法和装置-201811270842.3
  • 魏誉荧 - 广东小天才科技有限公司
  • 2018-10-29 - 2023-10-20 - G06F40/289
  • 本发明提供一种辅助学习语言的方法和装置,其包括:获取用户的第一语句进行词性标注,将所述第一语句的第一词语转换为符合相应词性类别的组合正则式的第二词语;提取所述第二词语的词性,对所述第一语句进行重新组合,生成符合语言规范的第二语句,将所述第一语句与所述第二语句关联,生成关联关系特征;根据所述关联关系特征进行模型训练,得到所述用户的语句对应关系模型库;使用所述用户的语句对应关系模型库,对所述用户的真实语料进行关联转化,生成第三语句进行语义理解;纠正所述真实语料的错误用词和句式,反馈给用户。本发明能够有针对性地识别小学生真实语料的用语错误,训练其改变错误用语习惯,有利于其更好地掌握一门语言。
  • 信息的处理方法、装置、电子设备及计算机可读存储介质-202010001860.2
  • 何锐明;田元;沈奕杰 - 腾讯科技(深圳)有限公司
  • 2020-01-02 - 2023-10-20 - G06F40/289
  • 本申请提供了一种信息的处理方法、装置、电子设备及计算机可读存储介质,涉及互联网领域。该方法包括:当接收到终端发送的搜索关键词时,从预设词库中获取与所述搜索关键词对应的关联词;获取包含所述搜索关键词的第一历史信息,以及包含所述关联词的第二历史信息;将所述第一历史信息和所述第二历史信息发送至所述终端,以使得所述终端展示所述第一历史信息和所述第二历史信息。本申请实现了既提高了搜索效率,又提升了用户体验。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top