[发明专利]从中文语料库提取知识的方法与系统有效

专利信息
申请号: 201810016373.6 申请日: 2018-01-08
公开(公告)号: CN108319583B 公开(公告)日: 2021-11-26
发明(设计)人: 李应樵;张英辉 申请(专利权)人: 万维数码智能有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/289;G06F40/253;G06F40/216
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 康艳青;姚开丽
地址: 中国香港新界沙田香港科学园科*** 国省代码: 香港;81
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种从主要用中文书写的源语料库(101)中提取知识(103)的方法、系统和计算机可读介质,用于生成中文本体库。所述方法包括步骤:从源语料库(101)获取字符串(141),其中每个源语料库(101)代表一个概念;将所述字符串(141)分割成分割的词语或单词(142);对所述分割的词语或单词(142)应用词性(POS)标注(113);由所述分割的词语或单词将单独的中文词语或单词搭配成有意义的短语或复合词;从所述已分割的短语、词语或单词(142)中提取中文名词短语、词语或单词(148);为所述提取结果推算词频;并存储所述提取结果与所述概念的词频加权向量(149),用于生成另一个中文本体库。
搜索关键词: 中文 语料库 提取 知识 方法 系统
【主权项】:
1.一种由主要用中文书写的源语料库提取知识用于中文本体库生成的方法,所述方法包括步骤:从所述源语料库获取字符串,其中每个源语料库代表至少一个或多个概念;分隔所述字符串为分割的词语或单词;对所述分割的词语或单词应用POS标注;由所述分割的词语或单词将单独中文词语或单词搭配成有意义的短语或复合词;由所述分隔的短语、词语或单词提取中文名词短语、词语或单词;推算所述提取结果的词频;以及存储所述提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万维数码智能有限公司,未经万维数码智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810016373.6/,转载请声明来源钻瓜专利网。

同类专利
  • 基于自然语义理解的模型训练方法及系统-202310952773.9
  • 张军 - 上海京知信息科技有限公司
  • 2023-07-31 - 2023-10-27 - G06F40/30
  • 本发明实施例提供一种基于自然语义理解的模型训练方法及系统,基于基础训练代价值对自然语义理解网络进行网络权重参数更新,可以引导自然语义理解网络在对参考对话文本进行语义理解时,尽可能将该参考对话文本分为该参考对话文本所属的先验文本语义数据,基于扩展训练代价值对自然语义理解网络进行网络权重参数更新,结合基础训练代价值和扩展训练代价值对自然语义理解网络进行网络权重参数更新,可以获得更强文本语义理解性能的文本语义理解网络,从而依据文本语义理解网络实现对目标对话文本的准确语义理解。
  • 一种面向贷后场景的催收文本语义理解方法、装置及设备-202310955056.1
  • 罗歆昱;苏江;崔健;章彦博;陈洧 - 暗物智能科技(广州)有限公司
  • 2023-07-31 - 2023-10-27 - G06F40/30
  • 本发明涉及文本语义理解技术领域,公开了一种面向贷后场景的催收文本语义理解方法、装置及设备,方法包括:获取面向贷后场景的催收对话文本并基于时间顺序对催收对话文本进行处理得到对话列表;基于面向贷后场景的预设文本标签分别对话列表中的催收员和债务人单句语义分析;基于单句语义分析结果构建对话列表的标签矩阵;基于标签矩阵对长短期记忆网络模型训练得到时序多标签分类模型;将待分析催收对话文本对应的标签矩阵输入模型中得到多标签分类结果作为文本语义理解结果。本发明保留了对话文本的整段语义信息,其对各个角色单句进行语义理解,使得模型能够理解更细粒度的语义信息,从而得到更高的准确率。
  • 一种基于多向式遍历与提示学习的文本事件抽取方法-202310972327.4
  • 周仁杰;马浩男;姚越;曹俊;袁耀祖;倪天成;万健;张纪林;殷昱煜 - 杭州电子科技大学
  • 2023-08-03 - 2023-10-27 - G06F40/30
  • 本发明公开一种基于多向式遍历与提示学习的文本事件抽取方法,该方法包括:采集相应的事件文本,标注文本中的实体信息与触发词信息,构造事件数据集,进行预处理,筛除不符合要求的数据,并划分为训练集、验证集和测试集;结合提示学习,按三种样本遍历方式构建提示输入模板,构造基于预训练语言模型的事件论元抽取模型,并结合输入进行训练,最终利用训练好的论元抽取模型实现论元识别与论元分类。本发明将输入信息按照三种遍历方式进行训练与损失计算,弥补了论元之间交互不足的问题,提高了论元识别与分类的准确率,即使在训练样本数极度不足的情景下仍能保持一定的效果。
  • 文本纠错处理方法、装置、电子设备及可读存储介质-202310105534.X
  • 胡勇 - 腾讯科技(深圳)有限公司
  • 2023-01-20 - 2023-10-27 - G06F40/30
  • 本申请提供了一种文本纠错处理方法、装置、电子设备及可读存储介质;方法包括:获取目标文本;确定所述目标文本中每个目标字符的语义特征向量,并确定所述每个目标字符的发音特征向量;对所述每个目标字符的语义特征向量和发音特征向量进行融合处理,得到所述每个目标字符的字符特征向量;基于所述每个目标字符的字符特征向量进行编码处理,得到所述每个目标字符的上下文特征向量;将所述每个目标字符的上下文特征向量映射为字表中每个候选字符的概率,将最大概率的候选字符作为纠错字符,基于所述每个目标字符对应的纠错字符组合形成纠错文本。通过本申请,能够有效地直接对存在错误的文本进行纠错,提高文本纠错效果。
  • 语义识别模型的训练方法和装置、存储介质及电子设备-202211711885.7
  • 康战辉 - 腾讯科技(深圳)有限公司
  • 2022-12-29 - 2023-10-27 - G06F40/30
  • 本公开提供了一种语义识别模型的训练方法和装置、存储介质及电子设备。其中,该方法包括:利用目标样本词条对集合训练特征提取网络,得到满足第一收敛条件的目标特征提取网络;对目标特征提取网络和语义相关性分档网络进行联合训练,语义相关性分档网络中包括:全连接层及复合任务识别网络,复合任务识别网络中至少包括分档子网络,以及用于对表达意图进行识别的识别子网络;在联合训练的训练损失达到第二收敛条件的情况下,利用目标特征提取网络、全连接层和分档子网络构建目标语义识别模型,其中,目标语义识别模型用于识别两个搜索词条之间的语义相关性对应的分档。本公开解决了现有识别两个词条之间的语义相关性的准确率低的技术问题。
  • 一种文本识别方法、装置、设备及介质-202311222538.2
  • 韩嘉琪;袁刚;林炳怀 - 腾讯科技(深圳)有限公司
  • 2023-09-21 - 2023-10-27 - G06F40/30
  • 本申请实施例提供了一种文本识别方法、装置、设备及介质;其中的方法包括:获取待识别的文本;对文本进行意图语义识别,得到文本的文本意图,并从文本中获取与文本意图相关的N个第一字段;对文本进行否定语义识别,从文本中识别出具有否定语义的第二字段及第二字段对应的否定范围;从N个第一字段中确定属于否定范围的目标字段,并基于第二字段和目标字段更新文本意图,得到文本的目标意图。本申请实施例可应用于地图领域、交通领域、自动驾驶领域、车载场景、云技术、人工智能、智慧交通和辅助驾驶等各种场景,提升意图识别的准确性。
  • 一种伪标签数据构建方法、装置、终端及介质-202310919963.0
  • 蒋盛益;武洪艳;林楠铠 - 广东外语外贸大学
  • 2023-07-25 - 2023-10-27 - G06F40/30
  • 本发明公开了一种伪标签数据构建方法、装置、终端及介质,所述方法包括采用数据增强方法对原始数据集进行数据增强,得到所述原始数据集的增强样本;基于伪困惑度为每个所述增强样本生成高置信度的第一伪标签;通过标签数据训练的模型为每个所述增强样本生成高置信度的第二伪标签;保留所述第一伪标签和所述第二伪标签一致的伪标签数据,作为每个所述增强样本的伪标签,以进行中文语义错误识别。因此,本发明实施例能够分别基于困惑度和模型两种不同的策略为每个增强样本联合筛选高置信度的伪标签,保留由两种伪标签生成策略一致的伪标签数据进行中文语义错误识别,以提升语义错误识别模型的识别性能。
  • 一种语义错误识别方法、装置、终端及介质-202310923076.0
  • 蒋盛益;武洪艳;林楠铠 - 广东外语外贸大学
  • 2023-07-25 - 2023-10-27 - G06F40/30
  • 本发明公开了一种语义错误识别方法、装置、终端及介质,所述方法包括对文本的目标句子进行编码,得到目标句子的原始语义特征,提取文本的所有句子的依存句法信息,并生成相应的依存句法树,定义依存距离以构建距离矩阵,归一化得到编码句法树结构的相关度矩阵,通过注意力机制处理进而得到可学习的相关度矩阵,将依存句法信息融合到原始语义特征获得具有句法意识的第二语义特征,结合原始语义特征得到新语义特征,将新语义特征的特征向量输入线性分类器,得到所述目标句子的预测标签概率分布。因此,本发明实施例基于依存句法注意力机制融合句法信息的同时保留预训练知识,减少大量的算力和时间成本;同时进一步提升模型识别中文语义错误的效果。
  • 任务处理方法、装置、设备及存储介质-202310754367.1
  • 代勇;林奇峰;杜楠;周聪;程鹏宇;陈万顺;陈祺 - 腾讯科技(深圳)有限公司
  • 2023-06-25 - 2023-10-27 - G06F40/30
  • 本申请公开了一种任务处理方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:获取第一任务的描述信息和样例数据,第一任务是与自然语言处理有关的待处理的任务,描述信息用于指示第一任务的处理需求,样例数据用于指示第一任务的处理对象;从描述信息中,提取第一任务的至少一个要点信息,要点信息用于指示第一任务的处理要点;根据样例数据和至少一个要点信息,确定第一任务对应的任务提示信息,任务提示信息用于表征第一任务的处理需求和处理对象;通过任务处理模型根据任务提示信息,生成第一任务的处理结果。上述方法提升了生成的处理结果的精度。
  • 一种为BERT模型加入领域知识的方法及系统-202310934916.3
  • 郭苏州 - 重庆长安汽车股份有限公司
  • 2023-07-27 - 2023-10-27 - G06F40/30
  • 本发明涉及一种为BERT模型加入领域知识的方法及系统,涉及自然语言处理技术领域。所述方法包括:对单个目标语句进行解析,得到新词词典信息;将目标语句及对应新词词典信息转换为标识编码后输入BERT模型的输入层,生成嵌入向量;将所述嵌入向量在所述BERT模型的微调过程中作为所述BERT模型的神经网络层的输入,完成领域知识的加入。相较于现有技术,本发明可在不对模型进行重新训练的情况下,将新的领域知识加入BERT模型中,以解决模型在槽位抽取任务中的槽位稀疏性问题。
  • 基于自然语言信息提取的强化学习加速方法-202110693156.2
  • 段义海;郝建业 - 天津大学
  • 2021-06-22 - 2023-10-27 - G06F40/30
  • 本发明公开了一种基于自然语言信息提取的强化学习加速方法,提出了自然语言指导的强化学习框架,利用自然语言加速强化学习训练过程的技术,将自然语言指令转换为模糊逻辑规则,然后利用它们来加快深度强化的学习过程。所提出的框架由两部分组成,一个将自然语言的言语映射成结构化含义表示的语义解析器,以及一个将结构化规则与强化学习算法结合起来的Rule‑RL混合器。与现有技术相比,本方法1)结合自然语言指令和RL,显著提高RL算法的学习效率;2)把人类先验知识加入到强化学习的训练过程中,从而起到加速效果。
  • 语义确定方法及相关设备-201811145809.8
  • 戚成琳;徐文斌 - 北京国双科技有限公司
  • 2018-09-29 - 2023-10-27 - G06F40/30
  • 本发明公开了一种语义确定方法,利用基于知识图谱构建的关键词词典,在目标文件中识别目标关键词,关键词词典中的关键词具有统一资源标识符,统一资源标识符指向关键词在知识图谱中所对应的信息节点,如果目标关键词的统一资源标识符为多个,则说明该目标关键词存在歧义,进而依据每个统一资源标识符所对应的信息节点在知识图谱中的语义关系,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符,以消除目标关键词的歧义含义,进而明确目标关键词指向知识图谱中哪个具体的实体信息节点,也即明确目标关键词在目标文件语境中的实际含义。另外,本申请还提供了语义确定相关装置,以保证上述方法在实际中的应用及实现。
  • 信息处理方法、装置及电子设备-201910271177.8
  • 韩伟 - 北京猎户星空科技有限公司
  • 2019-04-04 - 2023-10-27 - G06F40/30
  • 本发明实施例提供一种信息处理方法、装置及电子设备,获取输入智能设备的语音信息;对语音信息进行语音识别处理,得到语音信息对应的文本信息,文本信息包括至少一个词汇以及各词汇的时间信息;根据词汇的时间信息,对文本信息进行划分,得到至少一个文本片段;根据至少一个文本片段的语义识别结果,获取语音信息的有效语义信息;本实施例对语音信息不进行切分而直接识别为文本信息,在根据各词汇的时间信息对文本信息进行切分的过程考虑了自然语言理解,使得对文本信息的切分结果更加准确,进而根据切分后的文本片段的语义识别结果确定语音信息的有效语义信息,能够提高语义识别的准确率。
  • 线上互动方法、装置、设备和存储介质-202011218971.5
  • 章淑婷;满园园;何伟康;王小芳;戴晨曦;敬蕾 - 中国平安人寿保险股份有限公司
  • 2020-11-04 - 2023-10-27 - G06F40/30
  • 本申请适用于人工智能、自然语言处理技术领域,提供一种线上互动方法、装置、设备和存储介质,其方法包括根据用户的启动指令选择出用户当次进行线上互动所需的场景;根据场景为线上互动系统配置人工智能互动模型;收集用户进行线上互动时的实时语音信息并将实时语音信息输入至人工智能互动模型进行语义分析处理;从人工智能互动模型中获取根据实时语音信息生成互动支持信息并将互动支持信息进行实时展示,以辅助用户进行线上互动。上述方法通过向用户实时展示互动支持信息的方式来帮助用户自信、高效、准确地进行实时线上互动,可以让用户及时发现自己在互动过程中存在沟通问题并及时改正,有效提高用户在进行线上互动时的沟通质量和专业性。
  • 一种基于自然语义理解的反作弊方法及相关设备-201910529267.2
  • 沈越;苏宇;王小鹏 - 重庆软江图灵人工智能科技有限公司
  • 2019-06-18 - 2023-10-27 - G06F40/30
  • 本发明实施例公开了一种基于自然语义理解的反作弊方法及相关设备,包括:通过自编码模型中的分词算法提取第一文档中的多个句子中的文字特征以构成多个第一向量,每一个句子中的文字特征构成一个第一向量;通过自编码模型中的注意力网络训练多个第一向量以获得多个第一向量中每个第一向量的注意力权重;将多个第一向量和多个第一向量中每个第一向量的注意力权重输入到LSTM训练,以生成第一语义向量;通过LSTM解码第一语义向量以获得多个第一解码向量;若多个第一解码向量与多个第一向量满足预设相似条件,则将第一语义向量与第二文档的第二语义向量比较,以确定是否存在作弊行为。采用本发明实施例,能够更准确地确定出作弊行为。
  • 语言预训练模型更新方法、装置、电子设备及存储介质-201911239752.2
  • 张文刚 - 北京知道创宇信息技术股份有限公司
  • 2019-12-05 - 2023-10-27 - G06F40/30
  • 本申请提供一种语言预训练模型更新方法、装置、电子设备及存储介质,涉及语义识别技术领域。所述方法包括:获取待更新语言预训练模型的模型参数、所述待更新语言预训练模型的旧词表和需要更新的新词表;提取所述模型参数中嵌入层的参数和输出层的参数;基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数;基于所述旧词表和所述新词表确定所述新词参数的更新位置;在所述更新位置插入所述新词参数,基于插入所述新词参数后的模型参数和所述待更新语言预训练模型获得更新语言预训练模型。通过直接在模型层面插入语言预训练模型需要更新的新词的参数,避免对模型重新进行训练更新,提高了模型更新效率。
  • 语义分析方法、装置、电子设备及存储介质-202010544163.1
  • 于长弘 - 深圳追一科技有限公司
  • 2020-06-15 - 2023-10-27 - G06F40/30
  • 本申请实施例提供了一种语义分析方法、装置、电子设备及存储介质,涉及自然语言处理技术领域。该方法包括:在通话过程中,获取用户输入的投诉语音;获取所述投诉语音对应的投诉文本;获取所述投诉文本对应的投诉标签;基于指定时间段内获取的投诉标签,建立可视化图表,所述可视化图表用于呈现所述指定时间段内获取的投诉标签的分布信息;显示所述可视化图表。本申请实施例通过将语音通话识别成文本,并对文本进行语义识别,确定文本对应的语义标签,并基于指定时间段内获取的投诉标签的分布信息,建立可视化图表并呈现,从而形成准确的分析报表,让运营分析更加有效,成本更低,并可提高投诉语音的应答效率,提升客服体验。
  • 一种槽值提取方法、设备及介质-202310882631.X
  • 张传锋;朱锦雷;张琨;潘玲玲 - 神思电子技术股份有限公司
  • 2023-07-19 - 2023-10-24 - G06F40/30
  • 本申请公开了一种槽值提取方法、设备及介质,方法包括:确定当前轮次对话的槽值集合,根据槽值集合确定域内数据集和域外数据集;根据域内数据集和域外数据集确定二分类模型,并根据二分类模型确定二分类概率;根据域内数据集和域外数据集对槽值集合的槽值进行标注;根据标注后的槽值进行编码,以得到问题向量,并根据问题向量确定字向量;将问题向量和字向量进行变换,以得到向量组;根据槽值和向量组进行模型训练,以得到标注模型;确定用户输入的问题,根据二分类模型对问题进行判断,以确定问题是否为域内知识;若问题为域内知识,则通过标注模型提取问题对应的槽值。本申请实现了对于对话槽值的精准提取,有效提升了对话交互的体验性。
  • 一种基于模版的生成式意图识别方法及装置-202311168587.2
  • 武文杰 - 深圳须弥云图空间科技有限公司
  • 2023-09-12 - 2023-10-24 - G06F40/30
  • 本申请提供了一种基于模版的生成式意图识别方法及装置。该方法包括:基于要素生成模型确定目标场景下的目标关键要素;确定目标场景下的问题文本和意图文本;根据目标关键要素、问题文本和意图文本确定意图生成模版;输入意图生成模版和用户问题至意图生成模型,以输出目标意图。本申请通过根据目标关键要素、问题文本和意图文本建立意图生成模版,并将意图生成模版和用户问题交互输入至意图生成模型,以输出目标意图,能够解决传统基于语义检索的意图识别算法无法关注到细粒度信息的问题,通过模版与问题的交互,可以关注到细粒度的语义信息,提高了不同场景下意图识别的准确率。
  • 多任务语义理解方法、装置、电子设备和存储介质-202310883789.9
  • 单权强;康凯凯;吴嘉琦 - 中移(杭州)信息技术有限公司;中国移动通信集团有限公司
  • 2023-07-18 - 2023-10-24 - G06F40/30
  • 本申请涉及自然语言处理技术领域,提供了一种多任务语义理解方法、装置、电子设备和存储介质,包括获取待理解的文本;将文本输入至预先确定的多任务语义理解模型,得到多任务语义理解模型输出的理解结果,理解结果包括领域信息、意图信息和词槽信息,领域信息用于确定领域限定向量,领域限定向量用于限定意图信息和词槽信息的领域。本申请使用领域限制向量对意图和词槽的识别任务做领域内的限制,使得意图和词槽的识别结果限制在相应的单一领域内,能够规避识别的意图结果、词槽结果与领域结果不符的情况,进而提升多任务联合模型的识别准确率。
  • 信息处理方法、装置、终端以及介质-202310927872.1
  • 阮晓雯;郭维;王建明;肖京 - 平安科技(深圳)有限公司
  • 2023-07-26 - 2023-10-24 - G06F40/30
  • 本申请属于线上医疗技术领域,尤其涉及一种信息处理方法、装置、终端以及介质。该信息处理方法包括:获取初始输入信息,将初始输入信息转换得到输入向量,输入向量能够被神经网络模型进行识别和处理;通过神经网络模型对输入向量执行词向量语义识别得到意图分类矩阵,以及对输入向量执行句向量语义识别得到策略分类矩阵;将意图分类矩阵与策略分类矩阵融合得到加权矩阵;将加权矩阵进行分类得到分类结果,分类结果用于反映初始输入信息包含的用户意图。本申请基于Bert模型用两种语义识别方式对用户输入的问诊信息进行识别,提高对于问诊信息进行意图识别的准确度,以反馈匹配的治疗方案。
  • 基于BiLSTM和GraphSAGE的词义消歧方法-202311015975.7
  • 张春祥;高可心;高雪瑶 - 哈尔滨理工大学
  • 2023-08-14 - 2023-10-24 - G06F40/30
  • 本发明涉及一种基于BiLSTM和GraphSAGE的词义消歧方法。本发明首先对包含歧义词汇的汉语句子进行分词、词性标注、语义类标注和繁体字标注。以包含歧义词的句子及与歧义词汇关联度最大的左右4个词汇单元的词形、词性和语义类作为消歧特征,将消歧特征作为节点构建消歧特征图,使用Word2Vec工具和Doc2Vec工具对特征进行向量化处理作为GraphSAGE模型的输入,利用BERT编码器对词形、词性、语义类和繁体字进行向量化处理作为BiLSTM模型的输入。用训练语料优化BiLSTM+GraphSAGE模型,利用优化后的BiLSTM+GraphSAGE模型对测试语料进行词义消歧,得到歧义词汇在每个语义类别下的概率分布序列。具有最大概率的语义类别即为歧义词汇的语义类别。本发明具有较好的词义消歧效果,能更准确地判断歧义词汇的真实含义。
  • 短信识别方法、装置、存储介质及电子设备-202310906695.9
  • 胡俊秀;暨光耀;温丽明;蔡妙娜 - 中国工商银行股份有限公司
  • 2023-07-21 - 2023-10-24 - G06F40/30
  • 本申请公开了一种短信识别方法、装置、存储介质及电子设备。涉及人工智能技术领域,其中,该方法包括:获取待识别的目标短信对应的M个目标语句;将M个目标语句输入至目标识别模型中,得到目标识别模型输出的目标结果;依据目标结果中的每个目标语句对应的N个意图类别检测预设套路清单中是否存在L个意图组合中的任意一个意图组合;在预设套路清单中存在L个意图组合中的任意一个意图组合的情况下,将该意图组合作为目标组合,并依据目标组合中的每个目标意图类别对应的概率值确定目标短信的识别结果。本申请解决了现有技术对诈骗短信的识别准确率较低的技术问题。
  • 一种改进的篇章级三元组信息抽取方法-202110399643.8
  • 李少锋;王妍妍;王玉坤;高菁;陈文颖;张春晖 - 中国电子科技集团公司第二十八研究所
  • 2021-04-14 - 2023-10-24 - G06F40/30
  • 本发明提供了一种改进的篇章级三元组信息抽取方法,包括:第一步,文本数据预处理;第二步,对文本数据进行篇章级语义分析,包括层次语义分析、实体对齐、依赖动词提取;第三步,采用多轮迭代的方式进行启发式学习,构建事件语义模型;第四步,基于端到端样本的三元组抽取,抽取出基于篇章理解的三元组;第五步,对利用步骤三和步骤四抽取出的三元组知识的一些应用,如智能检索、智能问答、知识挖掘、决策支持等。该方法实现基于小样本建立三元组信息抽取模型,具备篇章级三元组抽取能力,本方法易于推广,具有可拓展性,是大规模文本信息数据抽取、建立知识体系、构建垂直领域知识图谱的重要基础环节。
  • 文本匹配方法、装置、电子设备及计算机可读存储介质-202111580884.9
  • 吕乐宾;蒋宁;王洪斌;吴海英;权佳成 - 马上消费金融股份有限公司
  • 2021-12-22 - 2023-10-24 - G06F40/30
  • 本申请公开了文本匹配方法、装置、电子设备及计算机可读存储介质。该方法包括:将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理,输出第一文本和第二文本的匹配结果;其中,文本匹配模型包括第一交互层、分布层和第二交互层;第一交互层,用于将输入的第一文本和第二文本进行交叉注意力学习,输出第一文本向量和第二文本向量;分布层,用于分别对输入的第一文本向量和第二文本向量进行表示学习,输出第三文本向量和第四文本向量;第二交互层,用于将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量,以及对第五文本向量计算文本相似度,输出匹配结果。通过上述方式,能够提高文本匹配的准确性。
  • 一种文本特征提取方法与系统、电子设备、介质-202310255047.1
  • 戚耀;陈红阳;吕劲松;刘善赟 - 之江实验室
  • 2023-03-16 - 2023-10-24 - G06F40/30
  • 本发明公开了一种文本特征提取方法与系统、电子设备、介质,所述方法包括将文本序列转换成形状为(Hin,Win,Din)的张量序列,其中Hin、Win、Din为正整数;构建文本特征提取网络,通过文本特征提取网络提取张量序列特征。本发明方法对文本序列的每个元素特征和文本特征都扩展了两个维度,使特征张量可以比词向量包含更多的方位、形状等语义信息,同时结合拥有局部连接特性的文本特征提取网络处理张量序列,增强了特征的可解释性和语义容量。
  • 语义解析方法及相关产品-201910628630.6
  • 刘进步;赵正锐;孙俊 - 深圳追一科技有限公司
  • 2019-07-12 - 2023-10-24 - G06F40/30
  • 本发明实施例提供了语义解析方法及相关产品,应用于电子设备,该方法包括:通过获取待解析语句,对待解析语句进行第一解析处理,得到第一处理结果,根据第一处理结果从预设的数据库中选取多个参考标准语句,根据多个参考标准语句对待解析语句进行语义解析,得到待解析语句的解析结果,如此,可针对待解析语句,更加灵活地获取多个参考标准语句,并根据多个参考标准语句对待解析语句进行语义解析,从而,可更加准确地针对待解析语句进行语义解析。
  • 一种基于语法约束和语言模型的文本风格迁移方法-201910838854.X
  • 印鉴;周晨星 - 中山大学
  • 2019-09-05 - 2023-10-24 - G06F40/30
  • 本发明提供了一种基于语法约束和语言模型的文本风格迁移方法,该方法首先利用Stanford依存句法工具包提取输入句子x的语法关系图Gx,然后通过一个自身graph‑transformer的结构对该语法关系图Gx加上原始输入句子的风格信息Sx与期望转化后句子的风格信息Sy得到语法关系图G′x和G′y,接着结合原始输入句子的语法关系图Gx通过一个交叉graph‑transformer的结构重建输入句子x′以及得到风格迁移后的句子y′。为了更好地学习融入风格信息的自身graph‑transformer结构以及学习重建风格迁移句子的交叉graph‑transformer结构,该方法还利用一个语言模型替代传统的CNN分类器去指导后者的学习。通过这样一种方式在相应的数据集上的实验表明,本发明对比之前的文本风格迁移方法,可以在改变句子风格的条件下更好地保持语义不变性。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top