[发明专利]一种语句中命名实体的识别方法及装置在审

专利信息
申请号: 201910354890.9 申请日: 2019-04-29
公开(公告)号: CN111859964A 公开(公告)日: 2020-10-30
发明(设计)人: 曹秀亭 申请(专利权)人: 普天信息技术有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王庆龙;苗晓静
地址: 100080 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明的实施例公开了一种语句中命名实体的识别方法及装置,在获取到目标语句的字符向量和词向量后,将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由识别模型输出每一单词对应的表示单词属性的标签,在根据每一单词对应的标签输出目标语句中的属于命名实体的单词。识别模型通过注意力函数字向量和词向量进行加权结合,各单词相对于整个语句其它单词为命名实体的权重,提取出对命名实体识别的有用信息,弱化语句中不属于命名实体的单词对模型训练过程的影响,不仅提高了训练的识别模型识别命名实体的准确率,也加快了模型训练过程的收敛速度,缩短了训练时间。
搜索关键词: 一种 语句 命名 实体 识别 方法 装置
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910354890.9/,转载请声明来源钻瓜专利网。

同类专利
  • 医学文本信息的处理方法及装置、存储介质-202310890635.2
  • 张子恒;李文琪;吴贤 - 腾讯科技(深圳)有限公司
  • 2023-07-19 - 2023-10-27 - G06F40/295
  • 本发明实施例公开了一种医学文本信息的处理方法及装置、存储介质,通过获取医学文本信息,对所述医学文本信息进行成分分析,提取所述医学文本信息中的医学实体以及所述医学实体对应的成分类型,将提取的所述医学实体组成候选医学实体集合,对所述候选医学实体集合中各个不同的所述医学实体之间进行成分重组,确定成分重组后能够还原所述医学文本信息的目标组合,输出所述目标组合对应的所述医学实体以及所述医学实体的所述成分类型。由于目标组合中的各个医学实体能够重组还原所述医学文本信息,因此目标组合中的医学实体能够对原始的医学文本信息的医学含义进行准确的表达,能够提高医学术语标准化的准确性。
  • 基于对比学习的命名实体识别方法及系统-202310929718.8
  • 冯落落;李志芸;李晓瑜 - 山东新一代信息产业技术研究院有限公司
  • 2023-07-27 - 2023-10-27 - G06F40/295
  • 本发明公开了基于对比学习的命名实体识别方法及系统,属于数据处理技术领域,要解决的技术问题为如何克服大量负样本标注对命名实体识别精度的影响。包括如下步骤:基于预训练的Bert模型构建实体类型编码模型和文本编码模型;定义实体的描述,并将实体的描述输入训练后的实体类型编码模型,得到实体类型的embeding;定义文本的描述,并将文本的描述输入到训练后的文本编码模型,得到文本的embeding;通过对比学习算法、将实体类型的embeding和文本的embeding映射到同一空间,将实体类型和相似实体块映射到相似空间,不相似的实体块映射到不同相似空间。
  • 商圈等级确定方法及装置-202310939512.3
  • 宋瑞;梁杰;王佶盛 - 中国工商银行股份有限公司
  • 2023-07-27 - 2023-10-27 - G06F40/295
  • 本发明公开了一种商圈等级确定方法及装置,涉及人工智能技术领域,该方法包括:利用命名实体识别算法,对商户的地址信息进行分词处理,提取出商户名称和商户地理位置信息;将提取出的商户名称与银行交易商户进行关联;获取关联的银行交易商户的第一交易特征参数;获取商户地理位置信息中每一地址维度下涉及的商户的第二交易特征参数;根据第一交易特征参数和第二交易特征参数,利用机器学习算法,对每一地址维度进行分类预测,得到预测该地址维度是否会成为热门商圈的概率值;对不同地址维度的概率值进行聚类分析,确定不同地址的商户商圈的热门等级。本发明用以提升商圈等级确定的准确性和效率。
  • 文本处理方法以及装置-202310664648.8
  • 宋红叶;康杨杨;林君;孙常龙 - 阿里巴巴(中国)有限公司
  • 2023-06-06 - 2023-10-27 - G06F40/295
  • 本说明书实施例提供文本处理方法以及装置,其中所述文本处理方法包括:接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。通过在待处理文档对应的初始文档段落中,确定待处理文档段落,进而在待处理文档段落中抽取文本抽取结果,从而缩小了抽取范围,提升了抽取效率。
  • 实体识别模型训练方法、装置、设备、存储介质及产品-202310101696.6
  • 周洁;田乐;周霄 - 腾讯科技(深圳)有限公司
  • 2023-02-02 - 2023-10-27 - G06F40/295
  • 本申请公开了一种实体识别模型训练方法、装置、设备、存储介质及产品,涉及信息提取领域。该方法包括:获取样本文本数据,所述样本文本数据中包括实体文本内容,所述样本文本数据标注有实体划分标签;通过候选实体识别模型对所述样本文本数据进行实体识别,得到所述样本文本数据对应的实体识别结果;基于所述实体划分标签和所述实体识别结果之间的差异,确定识别损失值;获取所述样本文本数据对应的样本质量评分,并基于所述样本质量评分对所述识别损失值进行损失调整,得到预测损失值,所述样本质量评分用于指示所述识别损失值对应的损失权重;基于所述预测损失值对所述候选实体模型进行训练,得到目标实体识别模型,提高了实体识别的准确性。
  • 一种自然语言处理方法及装置-202211361287.1
  • 杨韬 - 腾讯科技(深圳)有限公司
  • 2022-11-02 - 2023-10-27 - G06F40/295
  • 本申请实施例提供一种自然语言处理方法及装置,该方法涉及计算机技术领域,包括:获得查询文本的查询词向量序列,以及多个请求模板各自的模板词向量序列;针对多个请求模板,分别执行步骤如,获得查询词向量序列中各查询词向量,分别与一个请求模板的模板词向量序列中各模板词向量之间的词相似度;进而补偿各查询词向量与各模板词向量之间的关联关系,获得上下文查询向量,以及在一个模板词向量序列中补偿关联关系,获得上下文模板向量;根据上下文查询向量和上下文模板向量,确定查询文本与一个请求模板的文本相似度;将符合文本相似度条件的请求模板对应的候选文本,作为查询文本的关联文本。该方法能够提高匹配查询文本的关联文本的准确性。
  • 实体识别方法、装置、电子设备及存储介质-202211655402.6
  • 杨韬 - 腾讯科技(深圳)有限公司
  • 2022-12-21 - 2023-10-27 - G06F40/295
  • 本公开关于实体识别方法,包括:获取待识别文本信息以及其中的多个文本单元;对待识别文本信息进行实体匹配,得到至少一个实体分词;基于任一文本单元对应的文本位置信息,对每个实体分词进行分词位置分析,得到每个实体分词对应的实体位置信息;基于实体位置信息和文本位置信息,对每个文本单元和每个实体分词进行融合编码处理,得到任一文本单元的文本编码信息和任一实体分词的实体编码信息;对文本编码信息和实体编码信息进行实体融合处理,得到任一文本单元对应的融合编码信息;基于融合编码信息,对待识别文本信息进行实体识别处理,得到目标实体信息。利用本公开实施例可以将实体编码信息与文本编码信息深度融合,提高实体识别的准确度。
  • 主诉文本处理方法、装置、设备、存储介质及程序产品-202211643914.0
  • 邱昭鹏;刘锦泰;吴贤;赵静;郑冶枫 - 腾讯科技(深圳)有限公司
  • 2022-12-20 - 2023-10-27 - G06F40/295
  • 本申请公开了一种主诉文本处理方法、装置、设备、存储介质及程序产品,属于人工智能技术领域。包括:获取症状表示文本对应的症状表示特征向量和主诉文本对应的主诉文本特征向量,以及获取生理部位图谱中的至少两个生理部位各自对应的生理部位向量;基于所述主诉文本特征向量和所述症状表示特征向量,得到所述主诉文本特征向量对应的主诉文本聚合特征向量;基于所述主诉文本聚合特征向量和至少两个所述生理部位向量进行预测处理,得到生理部位预测结果。通过上述方法,在对症状表示文本和主诉文本进行生理部位识别的过程中,通过利用生理部位图谱,能够精确得到与症状表示对应的标准化表述的生理部位,进而提高了生理部位的识别准确性。
  • 实体识别模型的生成方法及实体识别方法-202211532563.6
  • 杨韬 - 腾讯科技(深圳)有限公司
  • 2022-12-01 - 2023-10-27 - G06F40/295
  • 本公开关于实体识别模型的生成方法及实体识别方法,包括:获取样本数据集和样本数据集中每一样本数据对应的子数据的样本实体信息;对样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组;将每次分组对应的第一样本数据组输入第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到第一样本数据组中任一样本数据对应的子数据的实体类别分布信息;基于上述实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和修正实体信息;基于修正权重信息和修正实体信息对待训练实体识别模型进行训练,得到目标实体识别模型。利用本公开实施例可以提高样本实体信息的准确度,进而提高模型的识别准确度。
  • 命名实体的识别方法、装置、设备、介质、程序产品-202310009616.4
  • 林晨 - 腾讯科技(深圳)有限公司
  • 2023-01-04 - 2023-10-27 - G06F40/295
  • 本申请提供了一种命名实体的识别方法、装置、设备、介质、程序产品;涉及基于人工智能的自然语言处理领域;方法包括:获取待识别文本以及待识别语音数据,其中,待识别语音数据是待识别语音数据是对应的;确定待识别文本的文本元素序列,并确定与文本元素序列对应的文本特征向量序列;从待识别语音信号提取与文本元素序列对应的语音元素序列,确定与语音元素序列对应的语音特征向量序列;对文本特征向量序列和语音特征向量序列进行融合处理,得到融合特征向量序列;将融合特征向量序列映射为命名实体序列,其中,命名实体序列包括文本元素序列中每个文本元素的命名实体类型。通过本申请,能够基于文本特征和语音特征,提升命名实体识别的效果。
  • 命名实体的识别方法、装置、电子设备及存储介质-202310686476.4
  • 李快 - 腾讯科技(深圳)有限公司
  • 2023-06-09 - 2023-10-27 - G06F40/295
  • 本申请提供了一种命名实体的识别方法、装置、电子设备及计算机可读存储介质;方法包括:获取待处理文本,其中,所述待处理文本包括多个字符;从词典中查询每个所述字符所属的至少一个单词,并从所述词典中查询每个所述单词的至少一个标签,其中,所述标签包括所述单词的命名实体类别;确定每个所述字符的隐层向量,并确定每个所述单词的标签的嵌入向量;对每个所述字符的隐层向量以及每个所述单词的标签的嵌入向量进行融合处理,得到每个所述字符的融合特征向量;基于每个所述字符的融合特征向量进行解码处理,得到每个所述字符的命名实体类别。本申请能够提升命名实体的识别精度。
  • 一种融合规则和学习模型的短文本信息提取方法及系统-202311213748.5
  • 蒋志鹏;张建宇;戴帅夫;杨洪鹏 - 北京九栖科技有限责任公司
  • 2023-09-20 - 2023-10-27 - G06F40/295
  • 本发明公开了一种融合规则和学习模型的短文本信息提取方法,包括:获取短文本数据;对短文本数据进行预处理,得到预处理短文本数据;对预处理短文本数据进行标注,得到标注短文本数据;通过HyperScan模块对标注短文本数据进行处理,处理后的数据构成HyperScan数据库;将目标短文本输入至HyperScan模块,基于HyperScan数据库进行匹配,得到第一识别序列;基于标注短文本数据对学习模型进行训练,得到优化学习模型;将目标短文本输入至优化学习模型,得到第二识别序列;基于第一识别序列和第二识别序列确定目标短文本的提取信息。能够提高数据质量,减少人工成本,高效精准的提取短文本信息。
  • 类别识别模型的生成方法及类别识别方法-202211424454.2
  • 杨韬 - 腾讯科技(深圳)有限公司
  • 2022-11-14 - 2023-10-27 - G06F40/295
  • 本公开关于类别识别模型的生成方法及类别识别方法,包括:获取第一训练数据、第二训练数据、基于第一训练数据训练得到的第一类别识别模型和基于第二训练数据训练得到的第二类别识别模型;将第一样本数据输入第二类别识别模型进行对象类别识别,得到第三标签信息;将第二样本数据输入第一类别识别模型进行对象类别识别,得到第四标签信息;对第一标签信息、第二标签信息、第三标签信息和第四标签信息进行标签融合处理,得到第五标签信息和第六标签信息;基于第一样本数据、第二样本数据、第五标签信息和第六标签信息对预设识别模型进行训练,得到目标类别识别模型。利用本公开实施例可以减少标注成本,提高模型对多类别的识别效率和识别准确度。
  • 实体识别模型的训练方法、实体识别方法、装置及介质-202211506418.0
  • 杨韬 - 腾讯科技(深圳)有限公司
  • 2022-11-28 - 2023-10-27 - G06F40/295
  • 本申请实施例公开了一种实体识别模型的训练方法、实体识别方法、装置及介质,属于自然语言处理技术领域。该方法包括:通过实体识别模型将第一句子编码为第一向量序列;从第一向量序列中截取第一序列片段;通过实体识别模型,基于第一序列片段和提示模板的第二向量序列预测第一实体名称;确定实体识别模型预测出第一实体名称的概率;基于预测出第一实体名称的概率,确定实体识别模型对至少一个字的实体识别损失;基于实体识别损失对实体识别模型的模型参数进行训练。该方法训练得到的实体识别模型能够更准确的识别句子中的实体。
  • 工业数据知识抽取方法、装置、计算机设备及存储介质-202310921054.0
  • 李锐;陈振宇;宋亮;王晨 - 清华四川能源互联网研究院
  • 2023-07-25 - 2023-10-27 - G06F40/295
  • 本发明公开了一种工业数据知识抽取方法、装置、计算机设备及存储介质。该方法包括:采集工业数据,对工业数据进行扫描,得到工业数据中的非结构化数据;通过预训练语言模型对非结构化数据进行自然语言化转换,得到语言文本信息,对语言文本信息进行过滤,得到优化文本信息;对优化文本信息进行实体识别、关系抽取和属性抽取,得到实体关键词、关系关键词和属性关键词,构建实体集、关系集和属性集;获取提示模板,将优化文本信息、实体集、关系集和属性集输入提示模板,通过预训练语言模型输出优化文本信息的实体、关系和属性。本申请对非结构化数据进行自然语言化,对所有信息统一编码,并采用提示模板技术增强了数据知识的抽取能力。
  • 一种财经领域的融合注意力机制的双通道特征提取命名实体识别方法-202310955765.X
  • 刘洋;孙国梓;卢凌峰 - 南京邮电大学
  • 2023-08-01 - 2023-10-27 - G06F40/295
  • 一种财经领域的融合注意力机制的双通道特征提取命名实体识别方法,首先使用BERT预训练模型作为词嵌入模型来增强词的语义表示,根据词的上下文语境动态生成字向量,从而解决中文文本中一词多义的问题。再使用BiLSTM和IDCNN双通道特征提取层提取上下文的语义特征,来更好地提取上下文语义信息以及解决嵌套实体的问题,之后进一步输入到Self‑Attention机制层中,使得重要特征被赋予更高的权重,最后使用CRF进行序列标签解码得到最优的标签序列,以此来解决财经领域中实体识别效果差的问题。
  • 一种多任务协同表征的多模态命名实体识别方法-202310752673.1
  • 王海荣;徐玺 - 北方民族大学
  • 2023-06-25 - 2023-10-27 - G06F40/295
  • 本发明公开了一种多任务协同表征的多模态命名实体识别方法,调用多模态特征融合层对文本表示、字符表示、对象级视觉标签、视觉描述关键字、区域视觉特征进行编码和融合,得到多模态表征;调用文本特征增强层对文本表示、字符表示进行融合,以增强文本语义,得到文本表征,调用多任务标签解码器对多模态表征、文本表征进行预测,得到文本模态表征的预测序列和多模态表征的预测序列,并利用标签融合任务融合这两个预测标签序列,得到最终预测的命名实体标签。本发明在图文模态数据场景下的多模态命名实体识别效率有明显提升,具有很好的应用前景。
  • 一种利用大语言模型增强的生成式跨语言事件抽取方法-202310909646.0
  • 黄河燕;单则安;王博;冯冲 - 北京理工大学东南信息技术研究院;北京理工大学
  • 2023-07-24 - 2023-10-27 - G06F40/295
  • 本发明涉及一种利用大语言模型增强的生成式跨语言事件抽取方法,属于计算机人工智能和自然语言处理技术领域。本方法首先使用大语言模型,将各语言的文本信息进行事件预抽取,得到各种语言的大模型事件抽取结果,并将其解析为可用的文本提示为模型训练做准备,然后构建训练所需的文本提示,将输入的文本提示向量化表示,最后使用得到的隐藏层计算二元损失,解码隐藏层向量,将解码损失和二元损失加权相加反向传播,并将向量转化为文本。本方法有效解决了模型跨语言事件抽取困难的问题,提升了知识提示的正面效果,做到了知识提示程度的可控管理,显著增强了生成式跨语言事件的抽取性能。
  • 电子病历命名实体识别方法和装置、电子设备及存储介质-202310929939.5
  • 张兆 - 中国平安人寿保险股份有限公司
  • 2023-07-26 - 2023-10-27 - G06F40/295
  • 本申请实施例提供了一种电子病历命名实体识别方法和装置、电子设备及存储介质,属于数字医疗技术领域。方法包括:获取电子病历数据;电子病历数据包括病历文本数据;对病历文本数据进行分词处理,得到病历词语序列;通过命名实体识别模型的第一分支网络对病历词语序列进行特征提取,得到病历文本特征,命名实体识别模型包括特征融合网络、第二分支网络、识别网络;基于特征融合网络对病历文本特征和词汇数据进行融合处理,得到融合文本特征;基于第二分支网络对融合文本特征进行实体抽取,得到融合文本实体特征;基于识别网络对融合文本实体特征进行实体识别,得到融合文本实体特征的实体类型。本申请实施例能够提高命名实体识别的准确性。
  • 一种破产文书命名实体识别方法及系统-202310949107.X
  • 赵飞;闫丰;杜建业 - 北京奥德塔数据科技有限公司
  • 2023-07-31 - 2023-10-27 - G06F40/295
  • 本发明涉及自然语言处理技术领域,公开一种破产文书命名实体识别方法及系统,该方法包括:通过预训练得到的BERT语言模型对破产文书进行字编码,抽取文本特征生成字向量;对生成的字向量进行双向编码,得到文本标签序列数据;并对所述文本标签序列数据进行最优解码,得到最优文本标签序列;根据所述最优文本标签序列,确定每个字符所属标签类别。本发明通过加入BERT预训练语言模型作为特征表示层,较完整地保存了文本语义信息,提升了模型的上下文双向特征抽取能力,对语义信息的利用更为充分,并较好地解决了命名实体的边界划分问题,提升了模型对实体的识别率。
  • 文本实体识别方法、装置、设备及存储介质-202310247512.7
  • 朱秀红;曹训;黄泽谦 - 腾讯科技(深圳)有限公司
  • 2023-03-07 - 2023-10-27 - G06F40/295
  • 本申请属于人工智能技术领域,具体涉及一种文本实体识别方法、装置、设备及存储介质。所述方法包括:获取待识别文本;对待识别文本进行分字处理,得到待识别文本的字信息;对待识别文本进行分词处理,得到待识别文本的词信息;基于预设实体库对待识别文本进行实体分析,得到待识别文本的实体信息;实体信息表征多个字符之间的上下文信息;将字信息、词信息和实体信息融合得到待识别文本的联合信息;对待识别文本的联合信息进行实体识别,得到实体识别结果。本申请通过引入文本分词信息和实体特征信息以增强查询文本数据,可以解决查询文本中数据稀疏以及缺乏上下文信息的问题,并强化实体信息感知,从而提升实体识别的效果和效率。
  • 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置-202311212214.0
  • 杨雷;韦韩;郭洁;赵莺菲;程寿山 - 交通运输部公路科学研究所
  • 2023-09-20 - 2023-10-27 - G06F40/295
  • 本申请中提供一种针对桥梁管养文本数据的多特征融合命名实体识别方法、装置,方法包括:对桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签;基于桥梁管养样本语句和桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;基于桥梁管养样本语句和桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;获取待处理的桥梁管养数据,并基于完成训练的实体抽取模型抽取桥梁管养专业词,基于完成训练的实体分类模型对桥梁管养专业词进行分类。
  • 一种面向特定领域专利实施例的命名实体识别方法-202110044039.3
  • 李岩;高影繁;刘志辉 - 中国科学技术信息研究所
  • 2021-01-13 - 2023-10-27 - G06F40/295
  • 本申请实施例提供了一种面向特定领域专利实施例的命名实体识别方法,涉及自然语言处理技术领域。该方法包括:获取待识别数据;采用预训练的第一识别模型对待识别数据进行识别,确定与待识别数据对应的命名实体;其中,第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。本申请实施例提高了命名实体识别的准确率。
  • 中文病历的实体识别方法、装置、设备及存储介质-201910316061.1
  • 丁佳佳 - 平安科技(深圳)有限公司
  • 2019-04-19 - 2023-10-27 - G06F40/295
  • 本发明公开了一种中文病历的实体识别方法,属于然语言处理领域。该方法包括以下步骤:根本不同的对应规则输出各种特征向量,包括与所述个人信息对应的第一特征向量、用于表征每个字在词组中位置的第二特征向量、与所述每个字的偏旁对应的第三特征向量、对应每个字输出相应的第四特征向量以及与所述每个字的拼音对应的第五特征向量;再根据拼接规则各个特征向量对应拼接在每个字的初始向量之后,以得到用于表征所述中文病历的向量集;最后将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。本发明通过识别出中文病历中的实体信息转换成特征向量,将中文病历整体转换成的向量集作为模型的输入,以提高模型对实体抽取的准确率。
  • 一种命名实体识别模型的训练方法及命名实体识别的方法-202010546972.6
  • 郭嘉丰;范意兴;刘艺菲;张儒清;程学旗 - 中国科学院计算技术研究所
  • 2020-06-16 - 2023-10-27 - G06F40/295
  • 本发明实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明利用训练集训练BERT‑CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。
  • 一种基于深度学习的命名实体的识别方法和系统-201910017357.3
  • 李健;王富田;张连毅;武卫东 - 北京捷通华声科技股份有限公司
  • 2019-01-08 - 2023-10-27 - G06F40/295
  • 本发明实施例提供了一种基于深度学习的命名实体的识别方法和系统,应用于问答系统或者机器翻译系统,具体为将待识的文本数据按句传入基于注意机制训练得到的命名实体识别模型,得到第一标注结果;利用预置的专家知识系统对第一标注结果进行过滤,滤除其中的错误标注结果,得到第二标注结果;利用预置的置信度评分系统对第二标注结果的置信度进行评分,从中滤除置信度低于预设置信度阈值的标注结果,得到最终的实体识别结果。通过对命名实体的识别,能够发现其中的命名实体,进而有助于提高问答系统和机器翻译系统的准确率。
  • 一种事件抽取方法、装置及电子设备-201911205132.7
  • 谢忠玉;张群方;向安怡 - 北京奇艺世纪科技有限公司
  • 2019-11-29 - 2023-10-27 - G06F40/295
  • 本发明实施例提供了一种事件抽取方法、装置及电子设备。其中,方法包括:将待处理文本输入至事件实体要素提取模型,得到所述事件实体要素提取模型输出的多个事件实体要素,预先利用标注有事件实体要素的样本文本对所述事件实体要素提取模型进行过训练,所述多个事件实体要素包括至少一个事件触发词、至少一个主动对象以及至少一个被动对象;根据在所述待处理文本中的位置,确定所述多个事件实体要素间的关联关系,得到至少一个三元组,作为所述待处理文本的事件抽取结果,所述三元组由相互关联的事件触发词、主动对象以及被动对象组成。可以提高事件抽取的适用性。
  • 一种模型生成方法、实体识别方法、装置及存储介质-201911254337.4
  • 杨焱麒 - 北京知道创宇信息技术股份有限公司
  • 2019-12-06 - 2023-10-27 - G06F40/295
  • 本申请提供一种模型生成方法、实体识别方法、装置及存储介质,所述方法包括:将识别语句中的每个单词输入预设的神经网络模型,以获得每个单词的类别标签对应的预测概率;根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分;根据识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分,其中,每一目标路径得分大于所有路径得分中未被选取的路径得分;根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分,通过预先构建的损失函数计算对应的训练损失;根据训练损失对神经网络模型的各个参数进行迭代更新,以得到实体识别模型。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top