[发明专利]语义解析方法、装置、电子设备以及存储介质在审

申请号：	201910902505.X	申请日：	2019-09-24
公开（公告）号：	CN110659366A	公开（公告）日：	2020-01-07
发明（设计）人：	杨振宇	申请（专利权）人：	OPPO广东移动通信有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36
代理公司：	44351 深圳市智圈知识产权代理事务所(普通合伙)	代理人：	吕静
地址：	523860 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了一种语义解析方法、装置、电子设备以及存储介质，涉及电子设备技术领域。所述方法包括：获取待查询语句，对待查询语句进行实体识别，获取待查询语句中的目标实体，将目标实体与知识图谱进行实体链接，获得与目标实体对应的实体内容，基于实体内容对待查询语句进行意图分析，获得与待查询语句对应的至少一个意图分类。本申请实施例提供的语义解析方法、装置、电子设备以及存储介质通过先定位目标实体，通过实体链接从知识图谱中获取目标实体对应的实体内容，再对实体内容进行意图分析获得至少一个意图分类，从而解决过召回的问题以及实现支持媒体垂域知识问答的效果。
搜索关键词：	查询语句实体内容电子设备目标实体存储介质意图分析语义解析链接图谱定位目标获取目标实体识别知识问答分类申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种语义解析方法，其特征在于，所述方法包括：/n获取待查询语句；/n对所述待查询语句进行实体识别，获取所述待查询语句中的目标实体；/n将所述目标实体与知识图谱进行实体链接，获得与所述目标实体对应的实体内容；/n基于所述实体内容对所述待查询语句进行意图分析，获得与所述待查询语句对应的至少一个意图分类。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司，未经OPPO广东移动通信有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910902505.X/，转载请声明来源钻瓜专利网。

上一篇：一种基于多层次结构词典的畜产品安全事件文本分类方法
下一篇：文本分类号的确定方法、装置以及电子设备

同类专利

用于客服问答的数据处理方法及装置-201910972662.8
发明人：徐涛;吴峰;郭伟 -专利权人：上海易点时空网络有限公司
申请日： 2019-10-10 - 公布日： 2020-02-14 - 主分类号： G06F16/35
摘要：本申请公开了一种用于客服问答的数据处理方法及装置。该方法包括：将历史问答数据输入预训练模型进行预训练，以提取特征向量，所述历史问答数据是指用户端与客服端的历史问答数据；基于所述特征向量对所述预训练模型进行调整，以得到问题分类模型；基于所述问题分类模型对所述用户端输入的问题进行分类，以得到与所述问题对应的答案；将所述答案反馈至所述用户端。本申请解决了相关技术中客服问答的匹配方法由于模型训练流程复杂导致匹配效率较低的技术问题。通过本申请，达到了简化模型训练过程的目的，从而实现了提高客服问答匹配效率的技术效果。

一种电网用电客户的细分方法及系统-201911001336.9
发明人：唐海国;龚汉阳;齐飞;朱吉然;邓威;彭涛;张帝;张志丹;康童 -专利权人：国网湖南省电力有限公司;国网湖南省电力有限公司电力科学研究院;国家电网有限公司
申请日： 2019-10-21 - 公布日： 2020-02-14 - 主分类号： G06F16/35
摘要：本发明公开了一种电网用电客户的细分方法及系统，通过采集电网用电客户的历史用电数据，对历史用电数据进行标准化处理，根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征，通过LDA主题模型对优化文本内容和优化文本词语进行建模计算，从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率，并基于随机森林模型，建立用户细分模型实现对电网用电客户的分类，解决了现有技术对电网用电客户分类结果的准确度不高的技术问题，通过对电网用电客户的历史用电数据进行LDA主题模型计算，能精准提取历史用电数据的语义特征，大大提高了对电网用电客户进行细分的准确性。

图谱优化方法、装置、终端及存储介质-201911040792.4
发明人：林振斌;王晓利 -专利权人：腾讯科技(深圳)有限公司
申请日： 2019-10-29 - 公布日： 2020-02-14 - 主分类号： G06F16/35
摘要：本发明实施例公开了一种图谱优化方法、装置、终端及介质，其中方法包括：获取目标实体词的初始图谱，以及获取初始图谱中的至少一个非底层节点的节点信息；根据至少一个非底层节点的节点信息对至少一个非底层节点进行异常节点检测；若检测到至少一个非底层节点中存在异常节点，则根据异常节点对初始图谱进行剪枝后处理，得到目标实体词的目标图谱。本发明实施例可以较好地去除图谱中数据的噪声，提高图谱的准确性及使用价值。

文本分类模型训练方法、事件检测方法及对应的装置-201911055524.X
发明人：孙宝林 -专利权人：支付宝(杭州)信息技术有限公司
申请日： 2019-10-31 - 公布日： 2020-02-14 - 主分类号： G06F16/35
摘要：本说明书实施例提供文本分类模型训练方法、事件检测方法及对应的装置，其中所述文本分类模型训练方法包括：将舆情文本样本集中的舆情文本进行分句，得到若干条句子；将若干条句子进行词向量计算，生成若干条句子各自的矩阵向量；分别针对所述若干条句子，将所针对的句子与邻近的连续上下文句子的矩阵向量组合成为所针对的句子的三维矩阵向量；将所述若干条句子的三维矩阵向量输入到基于3D卷积神经网络的文本分类模型中进行训练，得到训练后的文本分类模型，其中，所述3D卷积神经网络的3D卷积层的3D卷积核对输入到该3D卷积层的三维矩阵向量从高度、宽度和深度上进行卷积操作，输出该3D卷积层捕捉到的上下文特征信息。

一种网络信息分类体系构建方法-201811138261.4
发明人：顾爽;胡岩峰;杨婷;许舟军;焦程波;潘月浩;金晨;乔雪;刘振 -专利权人：中国科学院电子学研究所苏州研究院
申请日： 2018-09-28 - 公布日： 2020-02-14 - 主分类号： G06F16/35
摘要：本发明涉及一种网络信息分类体系构建方法，将现有两种分类体系的优点集于一身，设计全新构建方法，采用Synonyms将词语映射到低维向量空间，通过词向量空间距离度量词语相似性，弥补了单一的one‑hot词向量语义信息的不足，从而能够获得更全面的相似类别词；并采用传统文献分类方法和自编分类方法集合的方式，弥补了文献分类分类方法领域适应性不足、以及自编分类方法科学性不强的缺陷，从而能够构建科学专业的分类体系；而且提出结合用户业务需求和预设筛选规则，对领域术语关联解释，参考提示进行类别体系的选择、删除、增加、修改，构建最终分类体系，使得分类体系更加科学、准确和专业。

一种才情监测系统-201710101372.7
发明人：赵双宏 -专利权人：江苏艾克斯信息科技有限公司
申请日： 2017-02-24 - 公布日： 2020-02-14 - 主分类号： G06F16/35
摘要：本发明属于数据信息处理领域，公开了一种才情监测系统，包括：数据计算模块，用于对数据资源池的所有数据表按照字段分类以时间区段或累积总量的形式进行计算得出结果；将结果传输给才情监测结果模块；结果图表转换模块，用于将数据计算模块得出的结果图形化；实时监测平台模块，用于为用户提供最终可选择、可操作的图形化界面。本发明提供的才情监测系统，与现场智能化招聘系统、智能入场信息采集系统和74cms人才网系统高度耦合，对采集的才情数据实时形成才情监测结果，在数据采集来源、采集样本、自动化生成监测结果方面均比传统方式或其他信息化方式更具先进性。

异常数据检测方法和装置-201710145015.0
发明人：李刚毅;赵小光;于坤元;刘刚 -专利权人：博彦科技股份有限公司
申请日： 2017-03-10 - 公布日： 2020-02-14 - 主分类号： G06F16/35
摘要：本发明公开了一种异常数据检测方法和装置。其中，该方法包括：获取文本；从所述文本中提取多条数据，其中，所述多条数据中的每一条数据均由多个属性值构成，每个属性值对应该数据的一个属性，所述每一条数据的属性均相同；对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值，其中，所述每一条数据的新属性值的个数小于汇合之前的所述每一条数据的属性值的个数；使用所述每一条数据的新属性值进行机器学习得到数据模型，其中，所述数据模型用于区分从文本中提取的数据是否为异常数据。通过本发明解决了现有技术中所存在的用于培训的数据维度大导致的问题，提高培训效率的同时提高了培训结果的准确度。

一种基于在线分类的网页异常检测方法-201711160063.3
发明人：程凡;章霞;张闯 -专利权人：安徽大学
申请日： 2017-11-20 - 公布日： 2020-02-14 - 主分类号： G06F16/35
摘要：本发明公开了一种基于在线分类的网页异常检测方法，包括：1：输入网页训练数据；步骤2：对所述的网页训练样本数据进行预处理；步骤3：训练在线网页分类模型；异常网页检测分类包括：步骤4：输入待检测网页样本数据；步骤5：对所述待检测网页样本数据进行预处理；步骤6：通过在线网页分类模型对所待检测网页样本数据进行分类，检测是否为异常网页。本发明能快速有效从海量、不平衡网页数据中检测出异常网页，提高网络安全和互联网用户体验。

文本数据多层次分类方法、装置、电子设备和存储介质-201810828188.7
发明人：叶君健;田绍伟;薛璐影 -专利权人：百度在线网络技术(北京)有限公司
申请日： 2018-07-25 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：本申请提出一种文本数据多层次分类方法、装置、电子设备和存储介质，其中，装置包括：数据层及多级子分类组件，数据层用于将文本数据进行向量编码处理，以生成与文本数据对应的词向量；每级子分类组件用于对数据层生成的词向量及前一级子分类组件生成的分类结果，进行特征提取及分类处理，以确定文本数据在该级所属的类别。该分类装置通过将上一级子分类组件的分类结果，作为下一级子分类组件的分类依据，从而利用层次化的父子关系对文本数据进行逐级分类，提高了层次分类结果的准确性。

验证分类器的训练数据-201910640341.8
发明人：小林武彦;松泽裕史 -专利权人：国际商业机器公司
申请日： 2019-07-16 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：一种用于评估和修改用于分类器的训练数据的方法、计算机程序产品和计算机系统。计算机系统将每个类别的每条训练数据应用于多个分类器。计算机系统执行针对每个类别的训练数据的评估和验证，并且如果每条训练数据的分类精度大于预定阈值，则定义针对每个类别的每条训练数据的至少一个代表性类别。计算机系统基于针对每个类别的训练数据的评估和验证的结果来修改训练数据。计算机系统执行针对代表性类别的训练数据的评估和验证。计算机系统基于针对代表性类别的训练数据的评估和验证的结果来修改训练数据。

训练语料库细化和增量更新-201910653784.0
发明人： P.库马;J.沃恩 -专利权人：国际商业机器公司
申请日： 2019-07-19 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：训练语料库细化和增量更新包括获得具有训练样本的训练语料库，通过应用于训练语料库重叠和降噪处理来细化的训练语料库以产生数据的细化的训练语料库，基于过滤的用户反馈维护增量智能数据库，并具有候选反馈训练样本以增强细化的训练语料库，控制候选反馈训练样本与细化的训练语料库的整合，以及用候选反馈训练样本中的一些来增强细化的训练语料库以产生增强的训练语料库。

基于深度学习的数据归类方法、及其相关设备-201910871231.2
发明人：唐亚 -专利权人：中国平安人寿保险股份有限公司
申请日： 2019-09-16 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：本发明涉及人工智能技术领域，提供了一种基于深度学习的数据归类方法、及其相关设备，所述基于深度学习的数据归类方法包括：对获取到的待归类数据对应的标签名称进行文本处理，得到目标名称；对目标名称进行文本分词，提取第一类特征分词、第二类特征分词和第三类特征分词；将第一类特征分词、第二类特征分词和第三类特征分词分别进行词向量转换处理，得到第一类词向量、第二类词向量和第三类词向量；将第一类词向量、第二类词向量和第三类词向量导入到预先训练好的目标归类模型中进行识别，输出识别结果，并将该识别结果作为待归类数据的归类结果。本发明的技术方案实现提高对待归类数据进行归类的效率和准确性，进而提高用户的工作效率。

资产信息识别方法、装置、计算机设备及存储介质-201910882814.5
发明人：高舒;徐冰;陈晨;李可;汪伟 -专利权人：平安科技(深圳)有限公司
申请日： 2019-09-18 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：本申请涉及数据处理领域，公开了一种资产信息识别方法、装置、计算机设备及存储介质，所述方法包括：获取法律文书并对所述法律文书进行解析，以获得目标段落，所述目标段落包括诉讼参与人段落和事实段落；对所述诉讼参与人段落进行信息提取，以获取诉讼参与人信息；根据所述诉讼参与人信息对所述事实段落进行指代消解，以获得消解后的事实段落；利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取，以获得资产信息。通过训练文本分类模型和实体识别模型，完成法律文书中资产信息的识别和提取，比传统的规则遍历法更有通用性，能够进行自动识别，并且提高信息识别的准确率。

一种面向人物属性稀疏页面的人物信息抽取方法-201910910832.X
发明人：王学宾;时金桥;王大魁;尹泽林;赵璨;高悦;陈牧谦;王美琪 -专利权人：中国科学院信息工程研究所
申请日： 2019-09-25 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：本发明公开了一种面向人物属性稀疏页面的人物信息抽取方法，其步骤包括：1)对页面的人物属性信息含量进行量化；其中，页面为根据设定检索关键词搜索到的页面；2)根据页面的量化值确定从该页面抽取的语句数n，作为该页面的文本块；其中，抽取的n个语句为与检索关键词最邻近的n个句子，页面的量化值越高，则对应的语句数n值越大；3)从各所述文本块中抽取人物属性特征，得到包含人物属性特征的候选集。本发明能够在页面人物属性稀疏的场景下依旧能达到较高的准确率、召回率以及F1值，从而为人物检索系统提供准确可靠的数据基础。

文本中事件角色的处理方法、装置、设备及存储介质-201911013208.6
发明人：刘知远;王晓智;王子奇;韩旭;李涓子;李鹏;孙茂松;周杰;任翔 -专利权人：清华大学;腾讯科技(深圳)有限公司
申请日： 2019-10-23 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：本发明提供了一种文本中事件角色的处理方法、装置、电子设备及存储介质；方法包括：通过角色处理模型中的编码器对文本中的单词进行编码，得到文本中单词的编码信息；通过编码器对文本中单词的编码信息进行特征聚合，得到所述文本的聚合特征；通过所述角色处理模型中的注意力模型，将至少一个事件角色的多个上层概念、以及所述文本中单词的编码信息进行关联，得到所述文本面向所述事件角色的语义向量；通过所述角色处理模型中的分类器对至少一个所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行分类，得到对应所述文本的事件角色。通过本发明，能够根据事件角色的上层概念，自动并准确地抽取文本中的事件角色。

一种短文本分类方法及系统-201911029298.8
发明人：姜磊;杨钊;赖招展;黄进益;漆浩;林爱恩;林春华;黄千真;田嘉武;孟禹;朱振航;何慧;沈广盈;屈吕杰 -专利权人：佰聆数据股份有限公司
申请日： 2019-10-28 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：本发明涉及文本挖掘和文本分类领域，为短文本分类方法及系统，其方法包括步骤：获取训练文本的特征，包括词特征和对应的词性特征；应用改进的互信息评估函数进行特征选择，过滤对分类贡献低的词特征；计算所选择的词特征的tf‑idf矩阵和其对应的词性特征值，结合词性特征值形成训练样本的tf‑idf‑pos矩阵；根据训练样本的tf‑idf‑pos矩阵，基于预设好参数的分类器模型，构建文本分类器；计算待分类文本的tf‑idf‑pos矩阵，对待分类文本进行分类。本发明将文本中的高贡献词特征和对应的词性特征结合起来，大大降低了特征空间维度，提高了分类的准确率。

目标物品关键词和标题生成方法、搜索方法以及相关设备-201911076047.5
发明人：段锐丰;赫阳;陶通;张雄伟;常菁 -专利权人：北京沃东天骏信息技术有限公司
申请日： 2019-11-06 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：本发明公开了一种目标物品关键词和标题生成方法、搜索方法以及相关设备，涉及目标物品关键词生成技术领域。目标物品关键词生成方法，包括：根据目标物品的评论文本中的评论词，确定评论文本的特征向量；将每个评论文本的特征向量输入到预先训练的评论文本分类模型，获得对评论文本是否可用的分类结果；将可用的评论文本中的评论词添加到候选集中；根据预先确定的类别与描述词之间的对应关系，将获取的目标物品所属的类别对应的关键词添加到候选集中，其中，对应关系是根据搜索数据、外部描述数据的至少一种确定的；根据候选集中的词语确定目标物品的关键词。从而，提取的关键词更能够反映目标物品的特色，提高了关键词生成效率、节约了计算资源。

一种基础房型自动聚合方法-201710019360.X
发明人：张猛;杨洪伟;陈艺方;林小俊;陈文哲 -专利权人：北京众荟信息技术股份有限公司
申请日： 2017-01-11 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：本发明公开了一种基础房型自动聚合方法。本方法为：1)对于同一家酒店，分别从两不同来源上获取该酒店的房型名称数据，每组房型名称数据中包括多个基础房型名称；2)对每组房型名称数据分别进行结构化处理，得到该组房型名称数据中每个房型名称的结构化信息；3)对步骤2)得到的所述结构化信息中的元素进行两两组合并计算每一组合的匹配度；4)将基础房型名称两两组合生成若干候选聚合方案，得到一聚合方案候选集合；5)根据每一候选聚合方案中的各组合的匹配度，计算该候选聚合方案的综合得分；将综合得分最高的候选聚合方案做为最终聚合结果。相较于传统的通过字符串相似度的聚合方式，本发明召回率提升了27％，准确率提高了5％。

一种考虑用户特征信息的主题-情感联合建模方法-201711145941.4
发明人：孙春华;许银洁;刘业政;孙见山;姜元春;魏琳璘;温琴 -专利权人：合肥工业大学
申请日： 2017-11-17 - 公布日： 2020-02-11 - 主分类号： G06F16/35
摘要：本发明公开了一种考虑用户特征信息的主题‑情感联合建模方法，包括如下步骤：1、构建语料特征集合；2、构建用户特征矩阵；3、将语料文本表示为向量形式；4、构建语料情感字典；5、初始化语料特征词的主题、情感和用户特征参数向量；6、更新语料特征词的主题、情感和用户特征参数向量，最终得到语料文本的情感分布、主题分布和词分布。本发明能有效解决现有主题情感联合模型因忽略用户特征而导致情感分析出现偏差的问题，从而能提高文本情感分类的准确度。

一种基于多任务学习的动态不完整数据分类方法-201910967118.4
发明人：赖晓晨;张立勇;吴霞 -专利权人：大连理工大学
申请日： 2019-10-12 - 公布日： 2020-02-07 - 主分类号： G06F16/35
摘要：本发明公开了一种基于多任务学习的动态不完整数据分类方法，属于数据挖掘技术领域。本发明包括两部分：网络模型和分类方案。在网络模型部分，本发明基于去跟踪自编码器搭建多任务学习模型，以并行学习属性的拟合函数和类标签的概率分布。在分类方案部分，本发明包括模型训练和模型应用两个模块。模型训练模块中，网络参数和训练集的缺失值作为代价函数的变量实现协同更新。模型应用模块中，本发明固定网络参数，将缺失值视为代价函数的变量以实现不完整样本的动态学习。缺失值的动态优化促使网络模型逐渐匹配于不完整数据内部的回归和分类结构，网络的准确性随着训练的深入不断提升。

垃圾信息的判断方法及装置-201610516024.1
发明人：秦秋平;陈志军;杨松 -专利权人：北京小米移动软件有限公司
申请日： 2016-07-01 - 公布日： 2020-02-07 - 主分类号： G06F16/35
摘要：本公开是关于垃圾信息的判断方法及装置。该方法包括：在接收到目标信息时，对目标信息进行分词；根据预设词向量模型，获取分词后的每个词的词向量；根据每个词的词向量和预先训练得到的目标循环神经网络，获取目标信息的第一信息分类结果；根据第一信息分类结果判断目标信息是否为垃圾信息。该技术方案，在接收到目标信息时，可以对目标信息进行分词，进而获取目标信息中的每个词的词向量，进而基于该每个词的词向量和预先训练得到的目标循环神经网络，计算出该目标信息的第一信息分类结果，以准确地判断目标信息是否为垃圾信息，从而提高了对目标信息的识别精度和准确度，有助于后期对垃圾信息进行标注或拦截，以避免垃圾信息给用户带来很大困扰。

网页中指标的分类方法和装置-201510728961.9
发明人：邓建军;樊思国 -专利权人：北京国双科技有限公司
申请日： 2015-10-30 - 公布日： 2020-02-07 - 主分类号： G06F16/35
摘要：本申请公开了一种网页中指标的分类方法和装置。其中，该方法包括：判断光标指针所在初始位置的第一对象中是否包含待分类指标，其中，第一对象为表征初始位置处网页中网页元素的对象；在判断出第一对象中包含待分类指标的情况下，获取目标位置的第二对象中的标识，其中，目标位置为光标指针移动之后的终止位置，其中，第二对象为表征终止位置处所述网页中网页元素的对象；根据获取到的标识分类待分类指标。本申请解决了现有技术中指标分类步骤过于繁琐的技术问题。

文本聚类的方法及系统-201610830223.X
发明人：李贤;陈振安;王鹏 -专利权人：广州视源电子科技股份有限公司
申请日： 2016-09-18 - 公布日： 2020-02-07 - 主分类号： G06F16/35
摘要：本发明涉及一种文本聚类的方法及系统，一种文本聚类的方法，包括以下步骤：在接收到待分类文本时，提取待分类文本的关键词；根据获取的最终词袋中的关键词，对待分类文本的关键词进行匹配，得到待分类文本的类型标签；最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的；类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。本发明通过已有标签的记录来提取每个标签对应的核心词，得到最终词袋，然后通过最终词袋中的核心词来分类每个待分类的文本，对于噪音数据有着很好的适应性，不会出现在有较多噪音情况下，准确率大幅下降的情况；通过质心大范围阈值化，大大提高模糊匹配的效果。

错误样本识别方法和装置-201610221936.6
发明人：陶玮 -专利权人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
申请日： 2016-04-11 - 公布日： 2020-02-07 - 主分类号： G06F16/35
摘要：本申请公开了错误样本识别方法和装置。所述方法的一具体实施方式包括：获取输入信息，通过输入文本所属的逻辑回归模型得出所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值；响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值，通过至少一个关联逻辑回归模型得到所述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值；响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值，将所述输入文本识别为所述输入文本所属的逻辑回归模型的错误样本。该实施方式实现了高效率地识别错误样本。

搜索关键字频度解析方法、装置、电子设备及介质-201610158328.5
发明人：兰华勇 -专利权人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
申请日： 2016-03-18 - 公布日： 2020-02-07 - 主分类号： G06F16/35
摘要：本发明提供了一种基于HLSA的搜索关键词频度解析方法和装置。本发明中，引入包含主题思想的LSA空间模型进行关键词聚合，进而解决和弥补了基于VSM向量的欧式距离模型没有考虑词本身语义信息的不足之处以及基于编辑距离模型关键词顺序发生变化时带来的误差。此外，本发明还结合汉明码计算关键词间特征向量的相似度，形成新型HLSA算法，提高了相似度计算效率；并且，利用K近邻算法分类并统计关键词频度，可以将不同粒度的关键词进行聚合，从而有效地避免了最长公共子串模型由于粒度太细所产生的误判。

一种基于半监督学习的多标签语料库文本分类方法-201910571367.1
发明人：肖清林 -专利权人：厦门美域中央信息科技有限公司
申请日： 2019-06-28 - 公布日： 2020-02-04 - 主分类号： G06F16/35
摘要：一种基于半监督学习的多标签语料库文本分类方法，包括以下步骤：基于多标签语料库文本进行半监督学习，得到分类策略知识库；对待分类的语料库文本进行预处理；对语料库分类文本进行类别划分，确定第一文本内容标识集合；在所述预设置的训练数据集合中确定第一文本内容集合，在所述第一文本内容集合中，根据所述一定个数候选类别，选择N个候选类别对应的文本内容，来确定第二文本内容集合；根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度，确定所述待分类文本的目标类别。本发明具有降低计算复杂度和计算量，提高文本文类的效率的优点。

一种基于向量空间模型的文本分类及R语言实现-201910587852.8
发明人：刘家祥 -专利权人：厦门美域中央信息科技有限公司
申请日： 2019-07-02 - 公布日： 2020-02-04 - 主分类号： G06F16/35
摘要：一种基于向量空间模型的文本分类及R语言实现，包括以下具体步骤：构建文本数据库和构建向量空间模型；对数据库中的文本进行分类，得到文本集合A；输入待分类的文本B；使用向量空间模型逐一计算文本B与文本集合A中的文本A1之间的向量夹角，得到夹角集合C；逐一判断夹角集合C中的夹角C1是否小于等于设定的阙值；若夹角C1小于等于设定的阙值，则将文本B划分至夹角C1所对应的文本A1中；若夹角C1均大于设定的阙值，则判定文本B不属于文本集合A中任意一个文本A1。本发明能大大提高对文本B的分类效率，同时也能提高对文本B的分类的准确率。

一种基于CNN的中文关系分类方法及系统-201910928313.6
发明人：王德庆;张辉;田润琦;郝瑞 -专利权人：北京航空航天大学
申请日： 2019-09-28 - 公布日： 2020-02-04 - 主分类号： G06F16/35
摘要：本发明公开了一种基于CNN的中文关系分类方法及系统，其中该方法包括如下步骤：将句子的词向量矩阵、实体距离向量矩阵，以及通过注意力机制加权的词向量矩阵进行拼接得到CNN的输入矩阵；将输入矩阵输入到CNN的卷积层，得到句子的特征向量；将句子的特征向量输入CNN的全连接层，得到每个关系类型的概率。该方法在目前主流模型的基础上，加入了基于语义依存路径的注意力机制，使得可以对于句子中表达具体关系的关键词语更加关注，分类效果得到很大的提升。

上市公司非定期公告的分类方法、装置及存储介质-201910936610.5
发明人：李炜;赵伟;王海菲;王辉 -专利权人：上证所信息网络有限公司
申请日： 2019-09-29 - 公布日： 2020-02-04 - 主分类号： G06F16/35
摘要：本申请公开了一种上市公司非定期公告的分类方法、装置及存储介质。其中，上市公司非定期公告的分类方法，包括：获取待分类的非定期公告的公告文本；对所述提取所述公告文本的特征关键词；以及利用预先训练的机器学习模型，根据所提取出的特征关键词，确定所述非定期公告的类别。通过这种方式，提高上市公司非定期公告分类的准确率，自动化公告分类流程，提高了上市公司非定期公告的自动化文本解析的精度和准确度。

一种基于随机游走的词义排歧和词义学习方法-201910976701.1
发明人：吕晨;姬东鸿 -专利权人：广东外语外贸大学
申请日： 2019-10-15 - 公布日： 2020-02-04 - 主分类号： G06F16/35
摘要：本发明涉及自然语言处理技术领域，具体涉及一种基于随机游走的词义排歧和词义学习方法，其特征在于：采用如下步骤：步骤一、采用随机游走方法指对待标数据进行分类；步骤二、判断是否需要构造新类，若需要，则构造一个新类并考虑是否和以前的类进行合并；然后再进行随机游走分类。如果没有必要产生新类，则意味着结束；步骤三、对未标注的数据进行词义判定；它将词义排岐和词义学习抽象为一个更一般的基于部分指导的词义学习问题，为词义学习增加一部分指导，同时为词义排岐减少一部分指导；其从应用上说，有助于提高词义处理系统的鲁棒性、有助于建造义项级别的词汇资源，包括检测现有词汇语义资源的一致性、补充和丰富现有的词汇资源。

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语义解析方法、装置、电子设备以及存储介质在审

专利文献下载