“张发雨”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果9个，建议您升级VIP下载更多相关专利

[发明专利]一种检测职位和姓名表述错位的方法、设备及介质-CN202310588354.1在审
发明人：冯立二;张发雨;王宁;党章;孟奥;杨正云;杜宇;袁扬 -专利权人：江苏省未来网络创新研究院
申请日： 2023-05-24 - 公布日： 2023-08-15 - 主分类号： G06F16/33 文献下载
摘要：本发明涉及一种检测职位和姓名表述错位的方法、设备及介质。该方法包括：构建模型库，定义职位和职位之间、姓名和姓名之间、职位和姓名之间的合格连接词，并且每个合格连接词设有匹配规则；获取待检测文本的全文内容，查找并筛选出包括职位和姓名以及合格连接词的连接片段中符合匹配规则的合格片段；判断合格片段中职位和姓名是否正确对应，若是则职位和姓名表述无错位，否则职位和姓名表述错位。本发明与现有技术相比，其显著优点是：通过两个数组来实现职位、姓名的关联检索，利用词的共同前缀以达到节省空间的目的，还结合预置的连接词正则表达式及匹配规则，将完整篇幅的待检测文本划分为多个赋值的标识数组，进行逐一匹配判断表述。
一种检测职位姓名表述错位方法设备介质

[发明专利]一种检测行政区域名称表述错位的方法、设备及介质-CN202211717290.2在审
发明人：冯立二;张发雨;王宁;党章;孟奥;杨正云;杜宇;袁扬 -专利权人：江苏省未来网络创新研究院
申请日： 2022-12-29 - 公布日： 2023-05-12 - 主分类号： G06F40/30 文献下载
摘要：本发明涉及一种检测行政区域名称表述错位的方法、设备及介质，该方法包括构建模型库，获取样本行政区域文本，模型库包括若干个行政区域名称以及各行政区域相互之间正确的隶属关系；提取待检测文本中的所有行政区域名称，并与模型库中的各行政区域相互之间正确的隶属关系进行匹配，得到检测结果。本发明与现有技术相比，其显著优点是：通过采用双数组Trie树算法来检测文本，不需要人工校对，同时还提高了检测效率；支持多种样本语料存储、构建模型库，可应用于各大类型网站内容、新闻、媒体、国家机关等机构的文案中省(自治区)、市、区(县)表述错位的检测；同时，结合训练不同的样本语料能够实现优化模型库的目的，具有广泛的应用前景。
一种检测行政区域名称表述错位方法设备介质

[发明专利]基于分布式的网站篡改检测系统及方法-CN202211098249.1在审
发明人：孟奥;王宁;张发雨;党章;吴兴龙;冯立二;杨正云;杜宇;袁扬;王伦 -专利权人：江苏省未来网络创新研究院
申请日： 2022-09-08 - 公布日： 2023-03-31 - 主分类号： H04L9/40 文献下载
摘要：本发明涉及一种基于分布式的网站篡改检测系统及方法，该方法通过管理端创建网站篡改检测任务，各检测节点根据轮询机制获取网站篡改检测任务，并按照检测周期执行得出检测结果；对检测结果进行分析，当确认发生网站篡改时发出篡改告警。本发明与现有技术相比，其显著优点是：采用分布式数据采集检测，结合轮询机制，设置敏感词分类识别机制，能够自主获取和更新页面对比版本，实现对网站篡改的全面有效检测。
基于分布式网站篡改检测系统方法

[发明专利]基于文字密度的网页正文提取方法、设备及介质-CN202211263443.0在审
发明人：孟奥;张发雨;王宁;党章;冯立二;杨正云;杜宇;袁扬 -专利权人：江苏省未来网络创新研究院
申请日： 2022-10-14 - 公布日： 2023-03-28 - 主分类号： G06F16/957 文献下载
摘要：本发明涉及一种基于文字密度的网页正文提取方法、设备及介质，包括获取html网页，该方法通过对html网页进行预处理得到body标签部分内容；将body标签部分内容分隔成数组textArray；计算数组textArray的文本长度平均值，设定取正文内容的文字密度限定数；对数组textArray进行遍历，遍历结果满足第一行正文内容的开始条件时，开始提取正文；循环获取行正文内容并追加到正文中，直至得到最终版本的正文content。本发明与现有技术相比，其显著优点是：通过对html网页进行预处理和分析，比较html网页正文部分单行标签中文字较多与其他部分单行标签文字内容较少的情况，提取出在html网页中文字较多的正文部分内容，实现对html网页正文的精准提取，为网站数据处理提供便利，具有广泛的应用前景。
基于文字密度网页正文提取方法设备介质

[发明专利]一种基于相似度进行中文文本纠错的实现方法-CN202210348438.3在审
发明人：王宁;张发雨;孟奥;党章;王伦;冯立二;吴兴龙;杨正云 -专利权人：南京优速网络科技有限公司
申请日： 2022-04-01 - 公布日： 2022-07-01 - 主分类号： G06F40/232 文献下载
摘要：本发明提供了一种基于相似度进行中文文本纠错的实现方法，其特征在于，包括如下步骤：进行词库编译；利用编译好的词库，使用字哈希对待检测文本进行标记，得到一个待检测文本对应的序列，记录id；使用双字哈希对序列进行计算处理，找出待检测文本中所有与词库相似的词，计算后得到一个疑似相似词列表；对S3中所述的疑似相似词列表中的每个词进行相似度计算，保留相似度大于70的词，计算后得疑似错误列表；纠错。本发明可以提前查找中文文本可能存在的错误，大大减少了人力成本，并且能够提高现有文本纠错的检出率和正确率，具有广泛的应用前景，还可以应用于抄袭判断，文章查重等。
一种基于相似进行中文文本纠错实现方法

[发明专利]一种基于XLNet-BiGRU文本纠错方法-CN202111394371.9在审
发明人：王伦;张发雨;王宁;党章;吴兴龙;孟奥;冯立二;杨正云 -专利权人：江苏省未来网络创新研究院
申请日： 2021-11-23 - 公布日： 2022-02-18 - 主分类号： G06F16/33 文献下载
摘要：本发明提供了一种基于XLNet‑BiGRU文本纠错方法，其特征在于，包括以下步骤：S1、基于大规模无标注语料训练XLNet(Generalized Autoregressive Pretraining for Language Understanding)中文模型，XLNet模型主要包括排列语言模型(Permutation Language Model)、双流注意力机制(Two‑Stream Self‑Attention)及Transformer‑XL核心组件；S2、对文本纠错语料数据进行预处理并进行标注；S3、在S1训练好的XLNet预训练中文模型基础上，构建XLNet‑BiGRU神经网络模型，模型主要由检测网络和纠错网络两部分组成，同时利用S2中已标注好的数据训练此模型。本发明改进了传统基于翻译模型纠错方法耗时长的问题，将文本纠错由逐个字生成正确句子的串行程优化为只针对错误内容用XLNet神经网络进行纠错的并行过程。
一种基于 xlnet bigru 文本纠错方法

[发明专利]一种中文文本漏字自动识别的实现方法-CN202111203237.6在审
发明人：孟奥;王宁;张发雨;党章;吴兴龙;冯立二;杨正云 -专利权人：江苏省未来网络创新研究院
申请日： 2021-10-15 - 公布日： 2022-01-18 - 主分类号： G06F40/211 文献下载
摘要：本发明提供了一种中文文本漏字自动识别的实现方法，其特征在于，包括对中文文本的整体处理流程和对中文短句的具体处理流程，通过输入或者主动加载的方式获取到要检测的中文文本；对中文文本做预处理，进行utf‑8统一编码处理；将编码后中文文本依据中文本文中的“。”、“？”、“！”符号进行切分，并保留切分后的标点符号在上一句的句尾，切分后的中文文本组成中文短句列表；切分后的中文短句列表，依次循环处理每个中文短句，使用pycorrector的bert模型对可能的漏字进行预测，得到漏字结果和漏字位置等信息，并对结果进行整理输出。本发明可以提前查找中文文本可能存在的错别字和漏字，大大减少了人力成本。本发明可用于各种中文文本中，具有广泛的应用前景。
一种中文文本自动识别实现方法

[发明专利]一种中文文本多字自动检测识别的实现方法-CN202111204752.6在审
发明人：孟奥;王宁;张发雨;党章;吴兴龙;冯立二;杨正云 -专利权人：江苏省未来网络创新研究院
申请日： 2021-10-15 - 公布日： 2022-01-14 - 主分类号： G06F40/211 文献下载
摘要：本发明提供了一种中文文本多字自动检测识别的实现方法，其特征在于，包括对中文文本的整体处理流程和对中文短句的具体处理流程，具体包括运行开始，随机输入中文文本，对中文文本进行utf‑8统一编码处理，然后根据标点符号切分中文文本，输出切分后的短句列表，循环处理中文短句列表中的每个中文短句，获取中文短句中可能的多字和多字位置信息等，然后判断中文短句列表是否全部处理，如否则继续循环处理中文短句列表中的每个中文短句，如是则将所有短句中可能存在的多字信息整理后输出，运行结束。本发明实现了提前查看中文文本是否错字、多字，解决了人工查看费事费力的问题，大大减少了人力成本；适用于各种中文文本中，具有广泛的应用前景。
一种中文文本多字自动检测识别实现方法

[发明专利]一种自动识别网站目录页的方法-CN202011616331.X在审
发明人： 张发雨;王宁;党章;吴兴龙;孟奥;冯立二;杨正云 -专利权人：江苏省未来网络创新研究院
申请日： 2020-12-30 - 公布日： 2021-08-06 - 主分类号： G06F16/954 文献下载
摘要：本发明提供了一种网站目录页自动识别的实现方法，包括以下几个流程：对网站首页的处理流程、对详情页面的处理流程、对疑似目录页的处理流程、对不确定页面的处理流程、分析找出分页元素过程、分析找出下一页元素流程、最大公共XPath计算过程。使用本发明提供的网站目录页自动识别的实现方法，找出一个网站的所有目录页只需要10到20分钟即可完成。可以用于各种网站的目录页的识别，具有广泛的应用前景。
一种自动识别网站目录方法

1
共 9 条