[发明专利]一种日志数据处理方法、装置、设备和存储介质在审

申请号：	201910824264.1	申请日：	2019-09-02
公开（公告）号：	CN110532347A	公开（公告）日：	2019-12-03
发明（设计）人：	程捷;罗俊;刘林	申请（专利权）人：	北京博睿宏远数据科技股份有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/33;G06F17/22
代理公司：	11332 北京品源专利代理有限公司	代理人：	孟金喆<国际申请>=<国际公布>=<进入
地址：	100027 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种日志数据处理方法、装置、设备和存储介质。其中，犯法包括：获取携带至少一个日志文件的日志数据存储请求；得到各日志文件的文件标识，并将各日志文件存储至预设的数据库中；根据预设分词算法对各日志文件中的日志数据进行分词，得到关键词集合；根据关键词集合以及各日志文件的文件标识，建立倒排索引，得到字典文件和文件标识文件；按照预设的分组策略将字典文件划分为至少两个数据块，对各数据块进行压缩；提取各数据块中的起始关键词和结束关键词作为索引元素，建立与数据块对应的索引结构。本发明实施例可以减小字典文件中的数据在内存中的占用空间，节省资源，提高关键词检索速度。
搜索关键词：	日志文件数据块文件标识字典文件预设关键词集合日志数据分词日志文件存储关键词检索起始关键词存储介质存储请求倒排索引分组策略节省资源索引结构索引元素占用空间数据处理减小日志算法数据库携带压缩
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种日志数据处理方法，其特征在于，包括：/n获取日志数据存储请求，所述日志数据存储请求中携带至少一个日志文件；/n对所述日志数据存储请求中的日志文件进行排序，得到各日志文件的文件标识，并将所述各日志文件存储至预设的数据库中；/n根据预设分词算法，对所述各日志文件中的日志数据进行分词，得到关键词集合；/n根据所述关键词集合，以及所述各日志文件的文件标识，建立倒排索引，得到字典文件和文件标识文件，所述字典文件为有序数组，所述字典文件中的数组元素为所述关键词集合中的关键词，以及与关键词匹配的指向文件标识文件的指针；/n按照预设的分组策略，将所述字典文件划分为至少两个数据块，对各数据块进行压缩，将压缩后的各数据块存储至所述预设的数据库中；/n提取所述各数据块中的起始关键词和结束关键词作为索引元素，建立与数据块对应的索引结构；其中，所述索引结构为有序数组，所述索引结构中的数组元素数量等于数据块数量。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京博睿宏远数据科技股份有限公司，未经北京博睿宏远数据科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910824264.1/，转载请声明来源钻瓜专利网。

上一篇：一种抽取文档中要素的方法和装置
下一篇：问答对数据的生成方法、装置及电子设备

同类专利

一种基于共指融合的篇章事件抽取方法-201910964681.6
发明人：杨理想;张侨;王银瑞 -专利权人：南京摄星智能科技有限公司
申请日： 2019-10-11 - 公布日： 2020-02-07 - 主分类号： G06F16/31
摘要：本发明提供了一种基于共指融合的篇章事件抽取的方法，用以解决针对传统的事件抽取方法并不能很好地解决事件抽取的问题，具体为通过利用对根据相同的触发词进行人工标注的数据集，进行数据结构获取及预处理后，切分句子进行文本初始化特征提取，进行模型训练后，再进行事件融合处理的方法，通过此方法，可以将篇章文本中的相同事件进行融合，去除冗余信息，获取事件的更多要素信息，得到更加全面的事件描述，同时，可有效提高事件抽取效果，具有广泛的应用前景。

基于深度挖掘和知识管理技术的智能信息检索服务系统-201911094385.1
发明人：王伟;程永军;李兵;林旺群 -专利权人：中国人民解放军军事科学院评估论证研究中心
申请日： 2019-11-11 - 公布日： 2020-02-07 - 主分类号： G06F16/31
摘要：本发明公开了基于深度挖掘和知识管理技术的智能信息检索服务系统，该系统包括：主题提取单元，实现检索主体的构建、提取、反馈学习完善；信息分类单元，实现不同主题的分类管理；知识关联展示单元，为知识信息的关联提供展示及分类关联支持；检索输入单元，设定输入的不同检索词和逻辑关系，利用前述构建的主题提取单元、信息分类单元实现检索分析过程；检索结果组织和输出单元：对检索结果输出。本申请的信息检索服务系统通过专家及专题知识对数据资源整合与动态关联，充分挖掘和利用资源间的语义关系，最大程度优化资源搜索粒度和深度，使系统在支持原数据存储、访问等功能的基础上，实现关联知识的智能检索、延伸阅读与动态展示等强化功能。

数据提取方法及装置-201410638204.8
发明人：陈娟;吴明;陈伟 -专利权人：中兴通讯股份有限公司
申请日： 2014-11-12 - 公布日： 2020-02-07 - 主分类号： G06F16/31
摘要：本发明公开了一种数据提取方法及装置，其中，该方法包括：依据数据报文确定提取的目标数据；根据预定的正则表达式对该报文数据中的内容进行匹配；在该报文数据中存在至少两个目标数据的情况下，对该至少两个目标数据进行提取。通过本发明，解决了相关技术中对目标数据的提取不准确的问题，进而能够准确提取目标数据的效果。

一种识别核心产品词的方法和系统-201710946537.0
发明人：马超义 -专利权人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
申请日： 2017-10-12 - 公布日： 2020-02-07 - 主分类号： G06F16/31
摘要：本发明公开了一种识别核心产品词的方法和系统，涉及计算机技术领域。该方法的一具体实施方式包括：获取商品的展示图像，确定所述商品的标题中包含的多个候选产品词，以及确定多个产品图像集合，多个产品图像集合中的各产品图像集合与多个候选产品词中的各候选产品词一一对应；对于所述多个产品图像集合中的每个产品图像集合，根据所述展示图像和该产品图像集合中的各个图像，确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度，从而得到多个相似度；将所述多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。该实施方式将图像信息加入核心产品词的识别，使得更直观且精准的确定出商品标题的核心产品词。

文本向量表示方法及装置-201510860394.2
发明人：祁国晟;何鑫 -专利权人：北京国双科技有限公司
申请日： 2015-11-30 - 公布日： 2020-02-07 - 主分类号： G06F16/31
摘要：本申请公开了一种文本向量表示方法及装置。该方法包括：获取测试文本；对测试文本进行特征化处理，得到多个文本特征表示的目标文本；利用预存的特征主题关系矩阵处理目标文本，得到目标文本的主题分布，其中，主题分布包括目标文本的目标主题与目标主题对应的比例；利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展，得到目标主题特征集合，并根据目标主题特征集合得到表示目标主题的向量；以及对主题分布和表示目标主题的向量进行计算处理，得到表示测试文本的向量。通过本申请，解决了相关技术中的文本向量表示方法对文本包含的语义信息的表达能力较弱的问题。

基于哈希函数的高效层级索引构建及检索方法-201710506322.7
发明人：宋伟;彭智勇;史成良;杨先娣 -专利权人：武汉图信科技有限公司
申请日： 2017-06-28 - 公布日： 2020-02-07 - 主分类号： G06F16/31
摘要：本发明涉及基于哈希函数的高效层级索引构建及检索方法，包括：对待归档文档d

一种数据操作方法、装置及系统-201910862672.6
发明人：何庆安;李晶晶 -专利权人：苏宁云计算有限公司
申请日： 2019-09-12 - 公布日： 2020-01-31 - 主分类号： G06F16/31
摘要：本申请实施例公开了一种数据处理方法、装置及系统。其中方法包括接收请求方发送的数据操作请求；数据操作请求中包括查询词和操作指令；根据查询词在内存索引数据中进行查询，确定包含有目标文档标识的第一目标数据；内存索引数据基于磁盘索引数据中的文档标识与部分关键词的对应关系建立；根据操作指令对第一目标数据执行相应的操作。本申请的技术方案使得对于更新频率高的关键词可以单独在内存索引中进行更新和后续读取，无需频繁对磁盘进行操作，且无需在磁盘内进行全量数据的更新，提高了效率并避免了对磁盘的过度使用。

一种法律咨询报告的生成方法及设备-201910935837.8
发明人：杨健 -专利权人：平安直通咨询有限公司上海分公司
申请日： 2019-09-29 - 公布日： 2020-01-21 - 主分类号： G06F16/31
摘要：本发明适用于数据处理技术领域，提供了一种法律咨询报告的生成方法及设备，包括：接收法律咨询请求；从所述咨询内容中提取咨询关键词，并通过所述咨询关键词构建所述法律咨询请求的咨询矩阵；将所述咨询矩阵导入预设的法律类型识别模型，确定所述法律咨询请求对应的咨询类型；选取所述咨询类型关联的咨询报告模板，并根据所述咨询报告模板以及所述咨询内容生成法律咨询报告。本发明能够自动生成用户的法律咨询请求对应的法律咨询报告，提高了法律咨询报告的准确性，并且上述操作均可以线上完成，降低了用户获取法律咨询报告的难度，提高了法律咨询的效率。

事件发展趋势的预测方法及装置-201710632125.X
发明人：杨阳;刘志伟 -专利权人：成都澳海川科技有限公司
申请日： 2017-07-28 - 公布日： 2020-01-21 - 主分类号： G06F16/31
摘要：本发明提供了一种事件发展趋势的预测方法及装置，涉及数据处理的技术领域，该方法包括：多个历史事件的事件量信息和多个历史事件的事件内容信息；在事件数据库中查找与当前待预测事件相匹配的目标历史事件，其中，目标历史事件的数量至少为一个；采用早期关联预测模型对目标历史事件进行预测，并基于预测结果确定待预测事件的发展趋势，缓解了现有的预测无法及时对事件的发展趋势进行准确预测的技术问题。

一种连续页版式文档结构化信息提取方法-201910742447.9
发明人：徐剑波;张诗玉;王磊;赵东岩 -专利权人：北京众信博雅科技有限公司
申请日： 2019-08-13 - 公布日： 2020-01-17 - 主分类号： G06F16/31
摘要：本发明涉及本发明涉及一种连续页版式文档的结构化方法，本发明所述的方法，通过逐页提取连续页版式文档中的文字、字体、字号、位置等信息，通过预处理识别并去除页眉页脚，识别并切分脚注，再把剩下的多页正文内容及脚注内容分别合并成一个虚拟页，再对虚拟页进行版面分析，合并文本块，进行分栏及表格处理，生成文本块表，再利用文本块表的编号、字体字号、对齐等特性按规则进行大纲提取，从而还原整个文件的逻辑结构。采用本发明所述的方法，可以有效去除页眉页脚、脚注等干扰文本，保证分栏的阅读顺序，极大提高文本的结构化正确性，降低人工纠正的工作量，提高效率。

目录存储方法、装置、计算机设备及存储介质-201910833398.X
发明人：苏智辉;侯丽;佘昊天 -专利权人：平安科技(深圳)有限公司
申请日： 2019-09-04 - 公布日： 2020-01-17 - 主分类号： G06F16/31
摘要：本发明实施例公开了一种目录存储方法、装置、计算机设备及存储介质。本发明应用于数据处理中的数据存储领域。所述方法包括：读取目标文本并记录所述目标文本中所有段落的位置，其中，所述目标文本中包括有各级标题，且每个所述标题为一个段落；根据预设格式获取所述目标文本中各级标题的标题名称；获取各级标题对应段落的位置并根据相邻的同级标题对应段落的位置确定各级标题的起止位置；创建树形结构对象，将各级标题的所述标题名称以及对应的所述起止位置存储在所述树形结构对象的节点中以形成所述目标文本的目录，其中，所述树形结构对象包括有多个节点。通过实施本发明实施例的方法可实现Word文本的目录在Java程序中存储的效果。

一种电网调度数据的搜索方法及系统-201910956870.9
发明人：喻宏元;刘慧勇;崔云生;殷智;王玉坤;许小英;吴昊;韩博文;王旭峰;肖林朋 -专利权人：国家电网公司华中分部;北京科东电力控制系统有限责任公司
申请日： 2019-10-10 - 公布日： 2020-01-17 - 主分类号： G06F16/31
摘要：本发明公开了一种电网调度数据的搜索方法及系统，属于电力系统调度自动化技术领域，依托电网新一代调控系统及电网调度生产控制云平台，基于电网调度各类数据及业务特征，发明了基于相关性排序和知识图谱的电网调度数据协同搜索方法及系统，采用模糊搜索的相关性排序和基于知识图谱的精准问答两种方法，协同搜索调控云的模型、运行、文档等关联数据及服务，为调控运行人员更准确、更全面的获取调控云的数据及服务提供了便利，简化了电网事件发生时获取信息的难度，提升了调度数据搜索的全局性、高效性、便捷性，也为泛在物联网对外部用户开放业务数据服务提供了基础，能够探索调控运行领域的泛在物联网应用需求。

支持不同大数据后端平台进行虚拟索引的方法和装置-201910850834.4
发明人：饶琛琳;梁玫娟 -专利权人：北京优特捷信息技术有限公司
申请日： 2019-09-09 - 公布日： 2020-01-14 - 主分类号： G06F16/31
摘要：本发明提供一种支持不同大数据后端平台进行虚拟索引的方法和装置，其中，该方法包括：接收网络文本数据；根据不同大数据后端平台，建立对网络文本数据进行检索的虚拟索引字节；根据虚拟索引字节对接收的待查询语句信息进行解析，确定当前待查询语句信息对应的大数据后端平台。本发明提供一种支持不同大数据后端平台进行虚拟索引的方法和装置，能够针对长期留存的数据检索分析不同的处理场景，提供了更快速和节约资源的处理方案，避免了重复建设数据平台。

基于深度学习的地址文本处理方法、装置、设备及介质-201910895054.1
发明人：徐亚东 -专利权人：京东数字科技控股有限公司
申请日： 2019-09-20 - 公布日： 2020-01-14 - 主分类号： G06F16/31
摘要：本公开提供一种基于深度学习的地址文本处理方法、装置、设备及存储介质，该方法包括：获取用于训练深度学习模型的地址文本；对所述地址文本进行预标注，获得所述地址文本的实体标签和非实体标签；根据所述地址文本、所述实体标签和所述非实体标签训练所述深度学习模型，获得目标深度学习模型。该方法实现了在不需要构建庞大词典库或设计规则的情况下构建可用于标注地址文本的目标深度学习模型，易于维护，便于修改及扩展，降低成本。

一种基于蒙特卡洛树搜索的关键词生成方法、基于强化学习的关键词生成模型及电子设备-201910903972.4
发明人：马伟诚;宋彦 -专利权人：创新工场(广州)人工智能研究有限公司
申请日： 2019-09-24 - 公布日： 2020-01-14 - 主分类号： G06F16/31
摘要：本发明涉及语言处理技术领域，尤其涉及基于蒙特卡洛树搜索的关键词生成方法及基于强化学习的关键词生成模型，包括步骤：S1、提供训练集；S2、建立蒙特卡洛树；S3、将关于文本表征向量输入至解码器中获得下一个字的表征向量；S4、将与下一个字对应的上一个字输入至蒙特卡洛树中确定下一个字的搜索空间，获得与下一个字相关的候选字；S5、将下一个字的表征向量输入至蒙特卡洛树中计算每个候选字的综合得分；S6、将综合得分最高的候选字接续在训练文本后，以生成关键词；及S7、重复步骤S3‑S6，直至达到预设的停止条件。本发明提供的基于蒙特卡洛树搜索的关键词生成方法及基于强化学习的关键词生成模型成词准确性高及成本低。

一种结合稀疏编码和结构感知机的文本事件抽取方法-201610955220.9
发明人：汤斯亮;吴飞;杨启凡;邵健;郝雷光;庄越挺 -专利权人：浙江大学
申请日： 2016-10-27 - 公布日： 2020-01-14 - 主分类号： G06F16/31
摘要：本发明公开了一种结合稀疏编码和结构感知机的文本事件抽取方法。包括如下步骤：1)将文本数据依照ACE或RichERE规范标注构建为训练样本；2)将提取得到的实体作为事件触发词和事件参数的候选实体，抽取文本特征；3)进一步抽取文本分布式词向量特征，学习稀疏编码特征；4)利用训练样本和提取的文本特征，训练结构感知机分类器，同时识别文本中与关于事件的触发词和参数；5)对于新的文本数据，经过步骤1后输入结构感知机分类器，抽取文本事件信息。本发明利用了基于神经网络的分布式词向量特征的稀疏编码表达，强化了文本特征，另一方面使用结构感知机模型同时来学习事件触发词和事件参与者的识别，据此获得了更好的事件抽取效果。

一种基于动态K-均值算法的语料库索引构建方法-201910587795.3
发明人：刘家祥 -专利权人：厦门耐特源码信息科技有限公司
申请日： 2019-07-02 - 公布日： 2020-01-10 - 主分类号： G06F16/31
摘要：一种基于动态K‑均值算法的语料库索引构建方法，包括以下步骤：获取语料库中的文本；对语料库中的文本进行格式处理；对各文本进行分词处理，并去除停用词；对各文本中的词汇进行词性标注和词义标注；对各文本进行关键词提取，生成各文本的关键词集合；基于各文本的关键词集合，获取各文本的词汇特征向量；通过K‑means算法对各文本的词汇特征向量进行聚类处理，获取多个文本集合；采用索引引擎对每个文本集合进行处理，建立各文本集合的可达性索引；生成语料库的可达性索引表。本发明优化了语料库索引构建方法，操作简单，人们能够快速有效的从语料库中查询到所需的文件，使用效果极佳。

问答模型训练方法、自动问答方法及装置-201910889316.3
发明人：崔志;李京蔚;崔建伟 -专利权人：北京小米智能科技有限公司
申请日： 2019-09-19 - 公布日： 2020-01-10 - 主分类号： G06F16/31
摘要：本公开是关于一种问答模型训练方法、自动问答方法及装置。其中问答模型训练方法包括：获取相匹配的问题句与回复句；将问题句输入第一网络，得到问题向量，将回复句输入第二网络，得到回复向量；第一网络和第二网络为结构相同参数不同的神经网络；基于问题向量和回复向量的距离生成反馈信息；并根据反馈信息对第一网络和第二网络进行参数调整，直到距离小于预设距离阈值。通过向量检索避免了只根据关键词匹配方式得到的答案的不准确；基于成对匹配问题句和回复句进行训练，降低了获取难度，并且能够获取大量的数据，使得训练效果更好，并且训练成本更低。

弹幕信息的拦截方法、装置、存储介质及设备-201910900082.8
发明人：胡陆杰 -专利权人：广州虎牙科技有限公司
申请日： 2019-09-23 - 公布日： 2020-01-10 - 主分类号： G06F16/31
摘要：本申请涉及数据处理技术领域，尤其涉及一种弹幕信息的拦截方法、装置、存储介质及设备，其中，弹幕信息的拦截方法，包括：获取弹幕信息的分词及所述弹幕信息对应的业务类型；根据所述业务类型调用预设的敏感词语匹配列表，其中，所述敏感词语匹配列表为基于树型结构，存储有敏感词语各个字符信息及其关联关系的结构列表；将所述分词的各个字符依次输入所述敏感词语匹配列表，利用所述分词的各个字符与敏感词语匹配列表的各个字符信息及其关联关系匹配敏感词语；若所述分词与任一分支的敏感词语匹配成功，则拦截所述弹幕信息。本申请提供的方案，能够提升包含敏感词语的弹幕信息的拦截准确率及拦截效率。

一种行业数据识别装置、相关方法及相关装置-201910924546.9
发明人：陈鹏飞;王培勇;陈宏仁;黄志苹;涂昶 -专利权人：税友软件集团股份有限公司
申请日： 2019-09-23 - 公布日： 2020-01-10 - 主分类号： G06F16/31
摘要：本申请公开了一种行业数据识别装置，包括：语料库构建模块，用于对获取到的多个行业的发票数据进行语料库构建处理，得到稀疏向量语料库；待识别向量获取模块，用于对待识别发票数据进行特征提取处理，得到待识别向量；识别处理模块，用于利用潜在语义索引模型将所述待识别向量和所述稀疏向量语料库进行识别，得到行业数据识别结果。通过潜在语义索引模型和收集到的稀疏向量语料库对待识别发票数据进行识别，避免人工主观因素的融入，也避免了采用机器学习的方式进行识别，提高了识别的精度和准确率。本申请还公开了一种行业数据识别方法、服务器以及计算机可读存储介质，具有以上有益效果。

多语言自动文摘方法-201611253245.0
发明人：张家俊;李浩然;宗成庆 -专利权人：中国科学院自动化研究所
申请日： 2016-12-30 - 公布日： 2020-01-10 - 主分类号： G06F16/31
摘要：本发明涉及一种多语言自动文摘方法，包括以下步骤：步骤101，获取多个目标语言文档中的多个谓词论元结构；步骤102，对所述多个谓词论元结构中的每一个谓词论元进行重要性打分；步骤103，根据所述每一个谓词论元的重要性得分，生成目标语言摘要。本发明中，实现了获取指定语言的摘要，且在保证该摘要含有更多的重要信息的信息量时，提高可读性。

一种基于双视觉注意力网络的视觉对话生成方法-201910881305.0
发明人：郭丹;王辉;汪萌 -专利权人：合肥工业大学
申请日： 2019-09-18 - 公布日： 2020-01-03 - 主分类号： G06F16/31
摘要：本发明公开了一种基于双视觉注意力网络的视觉对话生成方法，包括以下步骤：1、视觉对话中文本输入的预处理和单词表的构建；2、对话图像的特征提取以及对话文本的特征提取；3、基于当前问题信息对历史对话信息进行注意力处理；4、双视觉特征各自独立的注意力处理；5、双视觉特征相互交叉的注意力处理；6、视觉特征的优化处理；7、多模态语义融合及解码生成答案特征序列；8、基于双视觉注意力网络的视觉对话生成网络模型的参数优化；9、预测答案生成。本发明能为智能体提供更完整、更合理的视觉语义信息，以及更细粒度的文本语义信息，从而提高智能体对问题所预测生成的答案的合理性和准确性。

一种信息添加方法、装置及智能设备-201910847959.1
发明人：杜国威 -专利权人：北京安云世纪科技有限公司
申请日： 2019-09-09 - 公布日： 2019-12-31 - 主分类号： G06F16/31
摘要：本发明实施例公开了一种信息添加方法、装置及智能设备，涉及智能家居技术领域。该方法能够根据从多张照片中识别出的人脸头像得到多个分组，从而基于分组快速地确定出家庭成员，进而确定出每位家庭成员之间的家庭关系；能够基于头像设置指令从所有人脸头像中查找出第一目标人脸头像，并根据第一目标人脸头像和家庭关系为所有人脸头像设置标签信息，避免了对每个人脸头像逐一进行标签信息设置，如此，避免了对每个人脸头像逐一进行标签信息设置，减少了设置标签信息的时间成本，提高了信息添加的灵活性，减少了信息添加的时间成本。

一种案例存储方法、装置、设备及存储介质-201910853432.X
发明人：王星雅 -专利权人：腾讯科技(深圳)有限公司
申请日： 2019-08-05 - 公布日： 2019-12-20 - 主分类号： G06F16/31
摘要：本申请公开了一种案例存储方法、装置、设备及存储介质，在该方案中，利用区块链网络实现了故障案例的全网共享，同时保证了故障案例的安全性和不可篡改性。在此基础上，任一区块链节点可以将当前区块链网络中的故障案例按照故障类型进行分类，从而可获得多个特征案例，这样获得的特征案例将会全面记录故障信息和相应的修复信息，从而可实现特征案例的全面记录。进一步地，将多个所述特征案例中的特征关键字符确定为检索索引，并根据检索索引更新检索索引库；将更新后的检索索引库和多个特征案例存储至当前区块链网络，这样接入当前区块链网络的所有区块链节点便可以共享特征案例，必要时可通过检索索引检索相关特征案例。

一种支持动态更新的多关键字密文检索方法-201910608519.0
发明人：秦志光;曾星伟;秦臻;丁熠;马蓉 -专利权人：电子科技大学
申请日： 2019-07-08 - 公布日： 2019-12-13 - 主分类号： G06F16/31
摘要：本发明涉及一种支持动态更新的多关键字密文检索方法，S1，数据拥有者通过主题选取模块从原始文档中提取出原始文档中的主题数量；S2，将主题数量和原始文档一起作为输入，使用LDA对原始文档进行降维处理，得到文档‑主题分布和主题‑关键词分布；S3，利用主题‑关键词分布构建一棵主题索引树，此树为一棵平衡二叉树；S4，利用文档‑主题分布构建关于主题的倒排索引；S5，将主题平衡二叉索引树和倒排索引进行加密，将其与加密的文档一起上传到云服务器；S6，利用步骤S4、S5中的索引进行检索；S7，授权用户对文档和索引进行更新。该支持动态更新的多关键字密文检索方法中基于LDA模型先对文档进行降维处理，减少了索引所占用的磁盘空间。

实体链接方法、电子装置及计算机设备-201910699316.7
发明人：曹灵宇 -专利权人：平安科技(深圳)有限公司
申请日： 2019-07-31 - 公布日： 2019-12-13 - 主分类号： G06F16/31
摘要：本发明公开了一种实体链接方法，所述方法包括：将预先建立的知识图谱与ElasticSearch数据库的索引相关联，在实体链接系统中输入名词；基于预先建立的知识图谱在ElasticSearch数据库中搜索所述名词，以取得与所述名词相关的多个候选项；通过改进版最长公共子序列算法，根据所述名词和所述多个候选项中的术语和概念计算出最长公共子序列；通过所述最长公共子序列计算出所述名词和所述多个候选中的每个候选项的相似度，以获得多个相似度；对所述多个相似度排序，取相似度最大的候选项；及返回所述候选项对应的概念作为所述名词的链接实体。本发明提供的实体链接方法与电子装置不需要人工标注数据或构建规则，支持模糊匹配和条件限定，且具有较高的精确度。

一种字符名称的匹配方法、装置及计算机可读存储介质-201910865076.3
发明人：侯凯;陈铭;刘刚刚;李静;胡晋岚;高晓彬;孙罡;姜玉梁;何晋华;秦燕;周妍;韩淳;马顺;秦万祥;梁悦明 -专利权人：广东电网有限责任公司;广东电网有限责任公司电网规划研究中心;广东电网发展研究院有限责任公司
申请日： 2019-09-09 - 公布日： 2019-12-10 - 主分类号： G06F16/31
摘要：本发明公开了一种字符名称的匹配方法、装置及计算机可读存储介质，其中，该方法需要预先建立关于名称和关键字组合的对应关系表，并存储；然后选取源数据表中的源名称，并通过对应关系表找到源名称对应的目标关键字组合。最后依据目标关键字组合确定待核对数据表中与源名称对应的目标名称。由此可见，本发明通过建立名称和关键字组合的对应关系表，可以将源数据表和待核对数据表中不同的名称进行统一，可以应用到数量、价格等具体实施例中。该方法匹配结果准确，能够自动实现，无需人工匹配，提高了匹配的效率。

文本处理方法、存储介质和电子设备-201910833850.2
发明人：祝文博;雷欣;李志飞 -专利权人：北京羽扇智信息科技有限公司
申请日： 2019-09-04 - 公布日： 2019-12-06 - 主分类号： G06F16/31
摘要：公开了一种文本处理方法、存储介质和电子设备。通过在预定的文本索引系统中根据待处理文本确定第一候选文本集合，根据待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合，根据待处理文本的第一句法模式和第二候选文本集合中各候选文本的第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合。由此，可以比较精确地、快速地获取待处理文本的扩充文本。

基于区块链的档案管理方法、装置及存储介质-201910839047.X
发明人：刘经程;申子熹 -专利权人：腾讯科技(深圳)有限公司
申请日： 2019-09-05 - 公布日： 2019-12-06 - 主分类号： G06F16/31
摘要：本发明提供了一种基于区块链的档案管理方法、装置及存储介质；方法包括：响应于针对目标档案的存储请求，存储对应所述目标档案的第一档案信息至区块链网络；接收到针对所述目标档案的第一档案数据的第一核验请求，所述第一核验请求用于请求核验所述第一档案数据的真实性；基于所述第一核验请求，确定所述目标档案的第二档案信息；发送携带所述第二档案信息的第二核验请求至所述区块链网络，以使所述区块链网络基于所述第一档案信息及所述第二档案信息，确定并返回表征所述第一档案数据真实性的核验结果；发送所述区块链网络返回的所述核验结果。通过本发明，能够对档案数据的真实性进行快速、准确的核验。

基于语义树的索引方法和系统-201610238991.6
发明人：张留学;朱小姣 -专利权人：上海泥娃通信科技有限公司;张留学;朱小姣
申请日： 2016-04-18 - 公布日： 2019-12-06 - 主分类号： G06F16/31
摘要：本发明主要涉及全文搜索领域，公开了一种构建语义树，并提供基于语义树的索引方法和系统。按语句中的文字的顺序对语句进行增量散列编码处理，形成特定的语义信息编码，存储前置语义特征信息，文字和语义特征，构建语义树；通过语义树，语义树和文档关联表，和文档的存储，建立基于语义的索引基础，提供基于语义树的全文搜索引擎。本发明的优点是不再依赖于分词服务，存储空间小，查询速度快等特点，适合文字信息的全文索引，和基于语义树的语义理解和处理。

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种日志数据处理方法、装置、设备和存储介质在审

专利文献下载