[发明专利]一种基于Deepdive的领域文本知识抽取方法有效

专利信息
申请号: 201710326192.9 申请日: 2017-05-10
公开(公告)号: CN107169079B 公开(公告)日: 2019-09-20
发明(设计)人: 陈华钧;陈曦;张宁豫;吴朝晖 申请(专利权)人: 浙江大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/36;G06F17/27;G06N99/00
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 310013 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Deepdive的领域文本知识抽取方法,包括:(1)获取知识库构建系统所需的原始文本,并且对其进行预处理;(2)对预处理后的文本进行实体连接,找到与预设特定关系对应的目标实体,并生成满足实体‑关系‑实体的三元组,组成候选关系实体对集;(3)采用弱监督的方法对多个候选关系实体对进行学习和标注,生成Deepdive工具的训练样本;(4)将训练样本输入至Deepdive工具中,对Deepdive进行训练,并输出概率值大于阈值的候选关系实体对,组成提取的知识库。本发明能够用于完成领域知识库的构建工作,具有很强的扩展性,对于非结构化数据的利用和提取工作具有很好的实用价值。
搜索关键词: 一种 基于 deepdive 领域 文本 知识 抽取 方法
【主权项】:
1.一种基于Deepdive的领域文本知识抽取方法,包括以下步骤:(1)获取知识库构建系统所需的原始文本,并且采用jieba工具对原始文本分词,并采用斯坦福的core NLP工具对分词后的文本进行词性标注、命名实体标注以及语法依赖处理,得到预处理后的文本数据;(2)对预处理后的文本数据进行实体连接,找到与预设特定关系对应的目标实体,并生成满足实体‑关系‑实体的三元组,组成候选关系实体对集;(3)采用弱监督的方法对候选关系实体对集中的多个候选关系实体对进行学习和标注,生成大量的候选关系实体对作为Deepdive工具的训练样本,并将训练样本中候选关系实体对对应的关系组成的关系集作为真值标签;(4)将训练样本和真值标签输入至Deepdive工具中,以目标函数y最大为目标,对Deepdive进行训练,并输出概率值大于阈值的候选关系实体对,组成提取的知识库;所述的采用弱监督方法对候选关系实体对进行学习与标注的具体步骤包括:(a)候选关系实体对集中的候选关系实体对标注为正例,采用负抽样方法获得反例;(b)利用相似的语法结构来制定相应的规则,检测某些语句是否表达某一特定关系,并且将这些数据标注为正例;(c)不断迭代步骤(b),直到满足迭代次数或获得足够多的候选关系实体为止,输出最后得到的所有候选关系实体;所述Deepdive训练的过程为:首先,Deepdive内建的特征库处理训练样本中候选关系实体对的上下文,从上下文的分词结果、语法依赖、词性标注结果中提取词语的nGram特性和词性标签;然后,根据提取的nGram特性和词性标签以及训练样本,采用Factor Graph进行图概率的统计推理和知识学习,得到概率值大于阈值的候选关系实体对,组成提取的知识库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710326192.9/,转载请声明来源钻瓜专利网。

同类专利
  • 问答匹配处理、模型训练方法、装置、设备及存储介质-201910569979.7
  • 金戈;徐亮 - 平安科技(深圳)有限公司
  • 2019-06-27 - 2019-11-12 - G06F16/33
  • 本申请涉及自然语言处理领域,使用基于自注意力机制的模型提取问题和回答之间的注意力特征,以根据注意力特征得到问题和回答之间的匹配程度。具体公开了一种问答匹配处理、模型训练方法、装置、设备及存储介质,该方法包括:获取问题文本和回答文本;对所述问题文本和回答文本进行分词处理,得到语料分词数据;对所述语料分词数据进行嵌入处理,得到嵌入表示数据;基于特征提取子模型,对所述嵌入表示数据进行特征提取得到自注意力特征向量,所述特征提取子模型为基于自注意力机制的模型;基于匹配子模型,根据所述自注意力特征向量生成问答匹配数据,输出所述问答匹配数据。
  • 基于多轮对话的专利检索方法及装置-201910588974.9
  • 欧中洪;谭言信;戴敏江;史亚楠;宋美娜;宋俊德 - 北京邮电大学
  • 2019-07-02 - 2019-11-12 - G06F16/33
  • 本发明公开了一种基于多轮对话的专利检索方法及装置,其中,该方法包括:获取输入方的输入语句,并对输入语句进行分词生成多个分词;对多个分词进行命名实体识别处理,得到与输入语句对应的多个实体;对多个实体进行意图检测得到与输入语句对应的意图结果;获取输入方的历史对话信息,并根据历史对话信息和意图结果更新当前状态信息;获取与更新后的当前状态信息对应的执行动作,并根据执行动作生成与输入语句对应的查询请求;将查询请求输入专利知识库,得到查询结果,将查询结果加入预设模板返回给输入方。该方法利用多轮对话的方式呈现当前检索结果,辅助用户进行专利检索需求,可规范用户的需求描述,显著提高专利检索的准确率。
  • 文本匹配度检测方法、装置、计算机设备和可读存储介质-201910599137.6
  • 金戈;徐亮 - 平安科技(深圳)有限公司
  • 2019-07-04 - 2019-11-12 - G06F16/33
  • 本发明涉及一种文本匹配度检测方法,该方法包括:获取输入的语音文本,并将语音文本转为目标文本;将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量;其中,目标自编码结构用于对目标文本进行编码并解码,以得到隐含特征向量;隐含特征向量用于表示目标文本的语义特征;获取与目标文本对应的预设的目标标准文本,将目标标准文本转化为目标标准向量;获取隐含特征向量与目标标准向量之间的相似度,将相似度作为目标文本和目标标准文本之间的匹配度。通过目标自编码结构提取目标文本的隐含特征,然后计算目标文本的隐含特征向量和目标标准向量之间的相似度,相似度计算更加准确。
  • 一种基于融合模型算法的文本去重方法-201910707778.9
  • 王慜骊;林路;陈芃;郏维强 - 信雅达系统工程股份有限公司
  • 2019-08-01 - 2019-11-12 - G06F16/33
  • 本发明公开了一种基于融合模型算法的文本去重方法,包括以下步骤,新闻预处理,检验一致性,计算任意两篇新闻的两两之间的相似度,使用混合贪婪算法进行文本去重。本发明中,实现自动对文本进行预处理,包括对文本进行转换、匹配,和权威性分析,只保留权威媒体的新闻,提高新闻文本的权威性,同时便于降低后序对文本去重的工作量,其次,实现去除标题和正文的一致性的文本,同时实现去除相似文本,最大保留了去重后可以用的数据量。
  • 基于视觉的表意文字嵌入式向量生成方法-201910717710.9
  • 刘斌 - 西南财经大学
  • 2019-08-05 - 2019-11-12 - G06F16/33
  • 本发明公开了一种基于视觉的表意文字嵌入式向量生成方法,该方法包括将文本内容按照识别单位生成对应的掩码图片,生成与掩码图片对应的黑色背景图片,将掩码图片叠加于背景图片上合成基于文本内容的单通道灰度图片,提取单个字符对应的灰度矩阵作为对应字符的编码向量。本发明提出的基于视觉的表意文字嵌入式向量生成方法能够简化自然语言处理流程,显著提高计算机处理文本内容的效率。
  • 一种机器阅读理解的方法、电子设备及可读存储介质-201910722307.5
  • 付霞;贾志强;宋恒林 - 深圳前海达闼云端智能科技有限公司
  • 2019-08-06 - 2019-11-12 - G06F16/33
  • 本发明实施例涉及自然语言处理领域,公开了一种机器阅读理解的方法、电子设备及可读存储介质。本发明中机器阅读理解的方法,包括:根据待回答的问题以及包含问题对应的第一候选答案的各候选文档,确定各候选文档各自对应的第一候选答案集合;分别从每个第一候选答案集合中选取重要程度满足第一筛选条件的第一候选答案作为第二候选答案;汇集从每个第一候选集合中选取的第二候选答案组成第二候选答案集合;从第二候选集合中选取重要程度满足第二筛选条件的第二候选答案作为问题的目标答案。本实施方式,能够准确确定出问题的答案,提高机器阅读理解所预测答案的准确性。
  • 建筑专业词库的数据扩充方法、装置、设备及存储介质-201910749389.2
  • 何楠;李军;陈飞军 - 杭州品茗安控信息技术股份有限公司
  • 2019-08-14 - 2019-11-12 - G06F16/33
  • 本发明实施例公开了一种建筑专业词库的数据扩充方法、装置、设备及计算机可读存储介质。其中,方法包括以现有建筑专业词库为参考基准对建筑文档进行分词生成初始字符集,利用N‑gram窗格滑动扫描初始字符集,并统计计算窗格内字符集中各字符构成建筑词语的词频信息;基于词频信息计算各建筑词语的词内聚合度比值和TF‑IDF值,并根据左右临接词的信息熵确定各建筑词语的词间组合度值;利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成用于扩充建筑专业词库的建筑新词集,该模型为基于多个满足新词条件的建筑用词的词内聚合度比值、词间组合度值和TF‑IDF值生成。本申请实现有效、快速、准确地更新建筑专业词库,有利于提高建筑新词的识别效率。
  • 指令结果比对筛选装置-201710048184.2
  • 卢鹏 - 上海傲硕信息科技有限公司
  • 2017-01-20 - 2019-11-12 - G06F16/33
  • 本发明提供一种指令结果比对筛选装置,设置在语音交互终端内,分别接收本地候选结果和云端候选结果并对该两种候选结果进行比对筛选得出语义分析结果,包括:排序部,对候选结果进行排序;比对对象设定部,用于设定比对对象;擅长领域判定部用于判断比对对象是否属于相应的擅长领域;关键词分值调整部,对属于相应擅长领域的比对对象的关键词分值进行调整计算;差值计算部;比对结束判定部以及结果设定部,当比对未结束时,比对对象设定部将被设定为保留结果的比对对象的下一个候选结果设定为新的比对对象,当比对结束时,结果设定部将所有保留结果按照评分值从高到低排列,并将预定名次以前的保留结果设定为语义分析结果。
  • 一种面向会话式实体搜索的查询扩展方法-201711162771.0
  • 赵峰;王沛;肖洋;金海 - 华中科技大学
  • 2017-11-21 - 2019-11-12 - G06F16/33
  • 本发明公开一种面向会话式实体搜索的查询扩展方法,包括:对维基百科文档集预处理得到数据集D;遍历数据集D中每个文档d,得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;抽取WordNet中的语义信息和YAGO3中的实体相关信息;根据历史查询结果构建历史结果缓存队列L;根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用语义信息和实体相关信息对L中的历史结果进行分析获取历史反馈Qh;基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;利用R更新缓存队列L。本发明在减少查询开销的同时缩短查询流程。
  • 一种表格数据的主题分析的方法和系统-201480040217.3
  • D·K·拜伦;S·N·吉拉尔德;A·皮科夫斯基;M·B·萨恩切茨 - 国际商业机器公司
  • 2014-07-08 - 2019-11-12 - G06F16/33
  • 本公开涉及表格数据的主题分析。在说明性实施例中提供了用于表格数据的主题分析的方法、系统和计算机程序产品。接收包含表格数据的第一文档。选择用于第一主题域的函数签名库。确定来自所选库的阈值数量的函数签名是否适用于表格数据,其中当表格数据中的值与函数签名中指定的操作和表格结构相对应时,函数签名适用于表格数据。响应于来自所选库的阈值数量的函数签名适用于表格数据,处理器和存储器根据从用于相应主题域的多个处理中选出的用于第一主题域的处理来处理第一文档。
  • 数据的相似度计算方法、装置、计算机设备及存储介质-201910473021.8
  • 蔡俊 - 平安科技(深圳)有限公司
  • 2019-05-31 - 2019-11-08 - G06F16/33
  • 本申请实施例属于大数据分析技术领域,涉及一种数据的相似度计算方法,包括:获取待匹配数据;提取待匹配数据中的关键信息;根据关键信息,匹配与所述关键信息对应的业务场景;确定与所述业务场景对应的预先训练的算法模型,将所述待匹配数据输入至所述算法模型,并输出相似度的计算结果。本申请还提供一种数据的相似度计算装置、计算机设备及存储介质。本申请还提供了一种数据的相似度计算装置、计算机设备及存储介质。采用本申请,能够将数据信息与业务场景对应起来,进而选择适合于业务场景的算法模型计算数据信息,提高了计算结果,同时减少了人工投入成本。
  • 文本情绪分析方法及装置、电子设备和非暂态存储介质-201910540391.9
  • 盛建达 - 平安科技(深圳)有限公司
  • 2019-06-21 - 2019-11-08 - G06F16/33
  • 本发明提出了一种文本情绪分析方法及装置、电子设备和非暂态存储介质,涉及人工智能技术领域,该方法包括:获取待分析文本以及上下文文本;对上下文文本和待分析文本进行分词处理,得到第一分词集合和第二分词集合;将第一分词集合和第二分词集合分别转化为第一特征向量集合和第二特征向量集合;通过文本情绪分析模型中的遗忘门乘以第一特征向量集合得到第一乘积;通过文本情绪分析模型中的输入门乘以第二特征向量集合得到第二乘积;计算第一乘积与第二乘积的和作为待分析文本的单元状态;将待分析文本的单元状态应用于文本情绪分析模型的输出门,输出待分析文本的情绪标识。本发明的技术方案有助于提升情绪分析的准确性。
  • 一种客服服务方法、装置和存储介质-201910549848.2
  • 龚泽熙 - 卓尔智联(武汉)研究院有限公司
  • 2019-06-24 - 2019-11-08 - G06F16/33
  • 本发明公开了一种客服服务方法,包括:获取第一咨询语音数据,对所述第一咨询语音数据进行第一语音处理,获得第一语音处理结果;将所述第一语音处理结果发送至客服系统;所述第一语音处理结果通过所述客服系统展示;获取针对所述第一语音处理结果的第一答复语音数据,对所述第一答复语音数据进行第二语音处理,获得第二语音处理结果;将所述第二语音处理结果发送至客服系统;所述第二语音处理结果由所述客服系统发送至移动终端。本发明还公开了一种客服服务装置和存储介质。
  • 一种词语联想的方法及装置-201910559055.9
  • 金戈;徐亮 - 平安科技(深圳)有限公司
  • 2019-06-26 - 2019-11-08 - G06F16/33
  • 本发明公开了一种词语联想的方法及装置,涉及数据处理技术领域,为解决现有技术中词语联想不能提高用户输入效率的问题而发明。该方法主要包括:构建加入注意力机制的卷积神经网络模型,卷积神经网络模型包括嵌入层、与嵌入层进行乘积运算的注意力层、将嵌入层与注意力层的乘积结果做进行卷积运算的卷积层和将卷积层输出的隐含特征接入嵌入层同时输出预测词汇的输出层;根据预置训练文本数据,训练卷积神经网络模型;根据预置分词规则,对时序输入数据进行分词处理,获取时序输入数据的时序文本分词;将时序文本分词输入卷积神经网络模型,计算预测词汇。本发明主要应用于终端文本输入的过程中。
  • 一种基于ANN的数据库文本分类中的特征选择方法-201910570843.8
  • 肖清林 - 厦门美域中央信息科技有限公司
  • 2019-06-28 - 2019-11-08 - G06F16/33
  • 一种基于ANN的数据库文本分类中的特征选择方法,其特征在于,包括以下具体步骤:使用文本样本集合及其文本类别,通过ANN人工神经网络训练获得文本分类模型;建立文本分类模型的集合,对不同的文本分类模型设置用于比较的特征关键词;获取待分类的文本,对待分类文本进行预处理,获取待分类文本的特征项集合;确定特征项集合中每一个特征项的实体属性和在待分类文本中出现的频率;根据特征项出现的频率设置权重;根据关联度的高低,对特征项进行排序;计算相似度;之后将待分类文本输入相似度最高的文本分类模型中;本发明中通过ANN训练得出多个分类模型,并提取分类模型的特征关键词和待分类文本的特征项,通过比对选择最合适的分类模型。
  • 用于交互信息的方法及装置-201910720051.4
  • 官山山;林晓斌;张斌;戴俊;黄国瑞 - 北京百度网讯科技有限公司
  • 2019-08-06 - 2019-11-08 - G06F16/33
  • 本公开的实施例公开了用于交互信息的方法及装置,涉及云计算领域。该方法的一具体实施方式包括:响应于播放第一语音信息时获取到待处理语音信息,获取上述待处理语音信息的待处理文字信息;判断上述待处理文字信息与打断条件的匹配关系,其中,上述打断条件用于指示停止播放上述第一语音信息;响应于上述待处理文字信息与打断条件匹配,停止播放上述第一语音信息。该实施方式提高了与用户进行信息交互的灵活性,提高了信息交互效率。
  • 与用户互动的方法、装置、存储介质及服务机器人-201910723626.8
  • 支涛;苏亮 - 北京云迹科技有限公司
  • 2019-08-06 - 2019-11-08 - G06F16/33
  • 本申请提供一种与用户互动的方法、装置、存储介质及服务机器人,其中,该方法应用于酒店内的服务机器人,包括如下步骤:当检测到第一预设区域内有用户靠近时进行图像采集,获得包含有目标用户的图像;利用分类模型对所述图像中的目标用户进行分类,以获得所述目标用户的身份类别;根据所述身份类别获得对应的交互模式,并利用所述交互模式与所述目标用户互动。本申请实施例通过对目标用户的图像进行用户身份类别的分类,从而服务机器人能够根据其身份类别对交互模式做出智能化调整,使用户在互动过程中体验更好。
  • 搜索语句响应方法、装置及服务器和存储介质-201910731246.9
  • 周辉阳 - 腾讯科技(深圳)有限公司
  • 2019-08-08 - 2019-11-08 - G06F16/33
  • 本申请公开了一种搜索语句响应方法、装置、系统及一种服务器和计算机可读存储介质,该方法包括:获取搜索语句,利用分类模型确定所述搜索语句所属的目标领域,并确定所述目标领域的候选语料;确定所述搜索语句中的实体词和谓词,并利用ElasticSearch基于所述实体词和所述谓词在所述候选语料中进行召回得到所述搜索语句对应的召回结果;其中,每个所述召回结果均包括所述实体词和所述谓词;基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果。由此可见,本申请提供的搜索语句响应方法,提高了搜索语句召回和响应的准确率。
  • 基于语义扩展的微博突发事件检测方法及装置-201710022500.9
  • 胡春明;吴博;彭浩;张日崇;李建欣 - 北京航空航天大学
  • 2017-01-12 - 2019-11-08 - G06F16/33
  • 本发明提供一种基于语义扩展的微博突发事件检测方法及装置,本发明提供的基于语义扩展的微博突发事件检测方法包括:获取与待检测的微博突发事件对应的第一关键词;根据第一关键词和第一关键词关联的词向量文件,得到微博突发事件;其中,第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的,词向量文件包括第一关键词与其它训练词语之间的语义相似度。本发明的基于语义扩展的微博突发事件检测方法及装置,通过考虑文本的语义信息来扩展事件的关键词,并通过扩展后的关键词进行微博突发事件的检测,可以准确的检测微博突发事件,避免了将同一事件分成两个微博事件,并可以进行在线检测。
  • 针对结构化数据和非结构化数据执行查询-201880017774.1
  • M·帕特罗普洛斯;I·潘迪斯 - 亚马逊科技公司
  • 2018-03-30 - 2019-11-08 - G06F16/33
  • 可针对结构化数据和非结构化数据执行在查询引擎处接收的查询。可针对所述查询生成查询执行计划,所述查询执行计划包含在远程查询处理引擎处将所述查询应用于所述非结构化数据的无状态操作。所述远程查询处理引擎可执行所述无状态操作并将结果传回给所述查询引擎。所述查询引擎可基于从所述远程查询引擎接收的所述结果以及作为将所述查询应用于结构化数据的一部分而确定的结果来生成所述查询的结果。可将所述查询的所述结果传回。
  • 基于PCCS体系通过色域判断服装风格类别的方法-201910527772.3
  • 郑畑子;王建萍 - 东华大学
  • 2019-06-18 - 2019-11-05 - G06F16/33
  • 本发明涉及一种基于PCCS体系通过色域判断服装风格类别的方法,包括以下步骤:建立服装感性意象空间,分析消费者对服装的感性评价维度,据此划分服装风格类别,确定服装感性评价代表词汇;经过网络搜集和调研提取服装代表性色彩样本,制作感性评价实验的服装样本图;采用问卷调查法结合语义差异法进行感性评价试验;分析实验数据,将服装感性意象与PCCS色调区域和NCD色彩空间进行匹配;建立判别模型,实现通过色彩设计变量对男衬衫感性意象的判定。本发明一方面可以在已知目标意象的情况下为设计者提供选色参考,另一方面可帮助设计者更好地把握不同颜色对消费者感觉的影响并灵活应用。
  • 文本信息匹配度检测方法、装置、计算机设备和存储介质-201910569471.7
  • 金戈;徐亮 - 平安科技(深圳)有限公司
  • 2019-06-27 - 2019-11-05 - G06F16/33
  • 本发明涉及一种文本信息匹配度检测方法,该方法包括:获取对象文本信息及其对应的参考文本信息;将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。匹配度检测更加准确。
  • 搜题方法、装置、电子设备和存储介质-201910627060.9
  • 王培坤 - 广东小天才科技有限公司
  • 2019-07-12 - 2019-11-05 - G06F16/33
  • 本申请实施例公开了一种搜题方法、装置、电子设备和存储介质,该方法包括:获取包括待搜索题目的图片;识别所述图片中的文字;将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识;按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。提高了一次性搜索多题时的准确率。
  • 面向软件缺陷知识的知识搜索方法-201910641797.6
  • 李斌;陈定山;孙小兵 - 扬州大学
  • 2019-07-16 - 2019-11-05 - G06F16/33
  • 本发明公开了一种面向软件缺陷知识的知识搜索方法,属于软件开发与维护领域,包括以下步骤:对用户输入的搜索问句进行预处理以形成问句的语法依赖树;根据语法依赖树抽取问题语义三元组,该三元组包括主语、关系与宾语;将问题语义三元组与现有的软件缺陷知识图谱三元组库进行匹配,获得匹配三元组集合;根据匹配三元组集合构建搜索结果子图,并返回给用户。本发明方法针对软件缺陷领域用户可能会搜索的问题条件进行语义分析,并结合知识图谱、自然语言处理这些日益成熟的技术将用户的问题转化成结构化的查询语言并和已有的知识图谱相关联,能够实现更好的搜索交互过程,为软件开发和维护领域提供良好的缺陷信息搜索平台,辅助修复过程。
  • 一种信息处理方法、装置、服务器及存储介质-201910700866.6
  • 卓达城 - 腾讯科技(深圳)有限公司
  • 2019-07-31 - 2019-11-05 - G06F16/33
  • 本发明提供了一种信息处理方法,包括:获取与用户的搜索指令相对应的搜索指令文本;对搜索指令文本进行分词处理,形成与搜索指令文本相对应的词语级特征向量集合,确定与搜索指令文本相对应的词语级特征向量相匹配的分词库的参数;根据分词库参数确定相应的文本倒排索引;通过文本倒排索引,获取与词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息;根据每一个词语级特征向量相匹配的文本信息,确定与搜索指令相匹配的文本信息。本发明还提供了信息处理装置、服务器及存储介质。本发明能够实现了用户的搜索指令和网络资源中不同文本信息的分词库的统一,保证了用户能够获得与搜索指令相匹配的文本信息,有效提升了用户的使用体验。
  • 征信报告处理方法及装置、电子设备和非暂态存储介质-201910422697.4
  • 杨阳 - 平安普惠企业管理有限公司
  • 2019-05-21 - 2019-11-01 - G06F16/33
  • 本发明提出了一种征信报告处理方法及装置、电子设备和非暂态存储介质,涉及研发管理技术领域,该方法包括:获取征信报告的特征信息;根据所述特征信息,确定所述征信报告的类型;根据所述类型对应的模块识别规则,识别所述征信报告中的多个模块;根据多个所述模块的模块标识,确定每个所述模块对应的模块解析规则;通过所述模块解析规则对每个所述模块进行解析,得到解析结果;按照结果组装规则将每个所述模块对应的所述解析结果组装至预定数据结构中,得到组装结果。通过本发明的技术方案,实现了对征信报告的有效整理,便于在进一步进行风控评估时获得简明有效的征信数据。
  • 一种基于CNN和LSTM的深度学习数据挖掘方法-201910488085.5
  • 肖清林 - 福建奇点时空数字科技有限公司
  • 2019-06-05 - 2019-11-01 - G06F16/33
  • 一种基于CNN和LSTM的深度学习数据挖掘方法,包括以下步骤:依次收集每个目标对象的特征向量,得到原始数据包;对数据预处理,建立字符信息库;构建CNN‑LSTM算法模型;对CNN‑LSTM算法模型进行训练,并测试;采用CNN‑LSTM算法模型进行数据挖掘;得到数据反馈,进行学习。本发明中,通过构建LSTM‑CNN算法模型在学习时完成数据挖掘,大大提高了信息获取的效率,解决传统信息调取困难的问题,帮助学习者提高学习效果;其中CNN对关键词对应的字符信息进行快速识别,LSTM采用重复模块链的形式对关键词的相关信息快速延展、补充,使得信息调取速度快,信息调取准确性高。
  • 对话处理方法、装置、设备及存储介质-201910654938.8
  • 李泽康;孟凡东;牛成;周杰 - 腾讯科技(深圳)有限公司
  • 2019-07-19 - 2019-11-01 - G06F16/33
  • 本发明提供了一种对话处理方法、装置、设备及存储介质;方法包括:获取当前对话的输入信息;对所述输入信息、历史对话的上下文信息、以及历史对话的相关文档信息进行编码,得到当前对话的上下文信息;对所述当前对话的输入信息以及所述当前对话的上下文信息进行第一次解码,得到所述当前对话的中间解码信息;对中间解码信息以及当前对话的相关文档信息进行第二次解码,得到当前对话的回复信息。通过本发明,能够获得准确的、上下文连贯的回复信息。
  • 数据处理方法、装置、服务器及存储介质-201910659254.7
  • 陈琦钿 - 腾讯科技(深圳)有限公司
  • 2019-07-19 - 2019-11-01 - G06F16/33
  • 本发明实施例公开了一种数据处理方法、装置、服务器及存储介质,其中方法包括:获取目标文档包括的字符数据;对字符数据进行结构体识别处理得到对话字符串集合,对话字符串集合包括目标对话字符串,目标对话字符串包括多个连续字符;确定目标对话字符集合对应的目标讲话人的身份标识;根据目标讲话人的身份标识从字符数据中确定出对目标讲话人进行人物特征描述的特征描述字符集合;对所述特征描述字符集合进行特征分析确定所述目标讲话人的声音信息。采用本发明实施例,可以自动地识别中文档中对话部分对应的讲话人的声音信息。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top