[发明专利]一种网页识别方法、装置及电子设备和存储介质在审
申请号: | 202111137046.4 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113836899A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 王晓波;位凯志 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F40/221 | 分类号: | G06F40/221;G06F16/33 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 陈彦如 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种网页识别方法、装置及一种电子设备和计算机可读存储介质,该方法包括:确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。由此可见,本申请提供的网页识别方法,使用匹配规则判断目标网页是否符合目标网页类型,提高了页面识别的速度和准确度。 | ||
搜索关键词: | 一种 网页 识别 方法 装置 电子设备 存储 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202111137046.4/,转载请声明来源钻瓜专利网。
- 同类专利
- 一种代码方块文件的解析方法、装置、系统和存储介质-202310743064.X
- 李西峙 - 深圳市大富网络技术有限公司
- 2023-06-21 - 2023-10-13 - G06F40/221
- 本申请公开了一种代码方块文件的解析方法、装置、系统和存储介质,用于提高3D模型软件对文件的兼容性和适用性。本申请包括:接收对于代码方块文件的解析指令;根据所述解析指令确认目标文件;执行所述解析指令,调用预设的目标解析器;将所述目标文件载入所述目标解析器;通过所述目标解析器对所述目标文件中的文件头和文件块依次进行解析,以获取解析数据,所述解析数据包括文件头解析数据和文件块解析数据;根据所述文件头解析数据确定所述目标文件的合法性;当所述目标文件合法时,根据所述文件块解析数据确定代码方块的节点数据和骨骼数据;基于所述节点数据和所述骨骼数据确定所述目标文件对应的3D模型。
- 一种三维模型文件解析方法、装置、设备及存储介质-202310725631.9
- 裴贺威;夏海兵;高阳;王栋栋;沈沁宇 - 上海秉匠信息科技有限公司
- 2023-06-16 - 2023-09-19 - G06F40/221
- 本发明实施例提供一种三维模型文件解析方法、装置、设备及存储介质,涉及三维模型文件处理技术领域。所述三维模型文件解析方法包括:解压三维模型文件,得到三维模型主文件;解析三维模型主文件,得到三维模型数据;根据三维模型数据,生成目录树;将目录树的信息存储在第一结果文件。本发明实施例能够实现完整地从3DXML文件中解析出关键信息的技术效果。
- 标注数据集获取方法、装置、电子设备及存储介质-202210323975.2
- 李长林;王洪斌;蒋宁;权佳成;曹磊 - 马上消费金融股份有限公司
- 2022-03-29 - 2023-08-18 - G06F40/221
- 本申请公开一种标注数据集获取方法、装置、电子设备及存储介质,该方法包括:获取兼类词;获取兼类词在不同词性下的第一文本;针对兼类词在每个词性下的第一文本进行多次词语替换操作,得到兼类词在每个词性下的第一文本对应的多个第二文本;基于目标文本生成标注数据集。本申请实施例提供的技术方案,通过获取兼类词在不同词性下的第一文本后,通过第一文本中的词语的同义词对第一文本进行多次词语替换操作,在不改变第一文本的语义的基础上实现自动语料扩充,使得用于生成标注数据集的第二文本更为丰富、更具有多样性。
- 基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质-202310504333.7
- 王雷;汪陈笑;卢伶俐;于辉;王小燕 - 浙江邦盛科技股份有限公司;杭州邦睿科技有限公司
- 2023-05-05 - 2023-08-04 - G06F40/221
- 本发明公开了一种基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质。利用对抗网络的思想来联合训练中文命名实体识别NER和中文分词CWS数据,从CWS数据集中提取任务共享词边界信息,并防止CWS实体边界信息给中文NER任务带来影响,同时增加更多的通用信息,在少量标注的样本的情况下,提高模型在中文地址序列标注任务中的效果;本发明提出的基于跨域特征提取的联合网络中文地址标注方法可在少量标注样本的情况下,从不同领域的数据集中学习并提取到不同领域之间的共享特征,同时将我们提出的跨域模型融合到中文地址序列标注模型中形成联合网络模型,来提高中文地址标注任务的预测精度。
- 解析可扩展标记语言XML文档的方法、装置及电子设备-202310395729.2
- 张宪有 - 中国银行股份有限公司
- 2023-04-13 - 2023-08-04 - G06F40/221
- 本申请提供一种解析可扩展标记语言XML文档的方法、装置及电子设备,可用于大数据领域。该方法包括:接收第一XML文档,以及第二XML文档,第一XML文档和第二XML文档均包括第一节点,第一XML文档和第二XML文档的来源不同;根据路径配置文件,确定第一XML文档中第一节点的第一路径信息,以及第二XML文档中第一节点的第二路径信息,路径配置文件包括:多个来源的XML文档中第一节点的路径信息;根据第一路径信息,在第一XML文档中读取第一节点的第一内容;根据第二路径信息,在第二XML文档中读取第一节点的第二内容;将第一内容和第二内容映射至第一节点。本申请的方法可以提高不同来源的XML文档的解析效率。
- 一种基于OpenXml的定位文档并进行评分的方法及系统-202110217215.9
- 杨帆 - 成都环宇知了科技有限公司
- 2021-02-26 - 2023-06-16 - G06F40/221
- 本发明公开了一种基于OpenXml的定位文档并进行评分的方法,包括以下步骤:S1、通过OpeXml SDK解析目标文档结构和参考文档结构;S2、根据解析的文档结构定位到文档中某个指定样式的父样式;S3、获取所述父样式下的所有样式属性,并过滤出所述样式的属性;S4、将从目标文档和参考文档中获取到的属性以指定方式进行比较;S5、根据比较结果得出评分结果。本发明还提供了一种基于OpenXml的定位文档并进行评分的系统,系统包括解析单元、定位单元、获取属性单元、比较单元和展示单元。
- 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统-202010547455.0
- 鉴萍;张映雪 - 北京理工大学
- 2020-06-16 - 2023-04-14 - G06F40/221
- 本发明提供一种基于篇章结构图卷积网络的隐式篇章关系分析方法和系统,包括S1,输入文章;S2,通过分类器识别篇章关系,其中,分类器的构建方法包括:S21、获取语料库样本和篇章关系类别,对样本进行预处理以获得篇章段落和样本的词向量;S22、将篇章段落中的论元输入Bi‑LSTM编码,获取样本的局部句子特征;S23、构建篇章结构图;S24、篇章结构图卷积,以获得样本的全局句子特征;S25、融合样本的全局句子特征和局部句子特征,并作为输入,将篇章关系类别作为输出,训练分类器。通过本发明,有效利用了上下文信息,提升了隐式篇章关系识别的准确度。
- 一种基于FPGA的FAST协议解码方法、装置及设备-202010751254.2
- 梅国强;郝锐;郭巍 - 浪潮(北京)电子信息产业有限公司
- 2020-07-30 - 2023-03-14 - G06F40/221
- 本申请公开了一种基于FPGA的FAST协议解码方法,通过即时获取实际的XML模板并对其进行解析,生成FAST协议中间表示,并根据预先设置的解码参数确定单次读取的最大字段数,进而生成字段匹配状态机,因此该方法能够支持动态更新的XML模板,且允许根据实际网络带宽灵活设置最大字段数,适用于不同网络带宽的应用场景。在解码过程中,该方法通过字段移位寄存器和字段匹配状态机实现每次并行读取并解码多个字段的功能,显著提升了解码效率。此外,本申请还提供了一种基于FPGA的FAST协议解码装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。
- 一种曲谱的解析方法及终端-202110689772.0
- 陈勇;蔡智力 - 福建星网视易信息系统有限公司
- 2021-06-22 - 2022-12-23 - G06F40/221
- 本发明公开一种曲谱的解析方法及终端,识别待解析的曲谱中的反复记号;根据所述反复记号判断是否满足生效条件,所述生效条件包括:所述反复记号对应的目标小节的歌词中包含当前遍历次数对应的下个数字标号,或者,所述反复记号的已生效次数小于所述反复记号对应的预设生效次数;若满足,则生效所述反复记号;为反复记号增设生效条件,当满足上述生效条件时,则生效对应的反复记号,从而能够在尽量不改变原谱并且制谱的工作量基本不增加的情况下对大部分简谱进行正确走谱,实现便捷地对曲谱的正确走谱。
- 标点预测方法和装置,预测模型,存储介质和电子设备-202110659762.2
- 陈梦喆 - 阿里巴巴新加坡控股有限公司
- 2021-06-15 - 2022-12-16 - G06F40/221
- 本申请公开一种标点预测方法和装置,预测模型,存储介质和电子设备,其中预测方法包括:将无标点文本信息输入到构建的标点预测模型中的第一标点预测子模型中进行第一次标点预测,确定第一预测标点;确定所述第一预测标点是否满足设置的目标预测标点输出要求;若否,则通过所述标点预测模型中与所述第一标点预测子模型连接的第二标点预测子模型,对所述无标点文本信息进行第二次标点预测,确定第二预测标点;将所述第二预测标点确定为所述目标预测标点进行输出,从而保证标点预测无损失的前提下,减少计算量。
- 一种对卫星遥测参数位置信息自动检错的方法-201811280748.6
- 原晋谦;魏振超;张鑫;史志敏;任燕;索琬;刘佳昕 - 中国空间技术研究院
- 2018-10-30 - 2022-10-21 - G06F40/221
- 一种对卫星遥测参数位置信息自动检错的方法,针对卫星录入完毕的遥测参数库进行自动化措施检错,首先对卫星遥测信息进行分类,分为正常、应急、安全模式,然后在各个模式下进行遥测位置信息的语法检查、遥测波道占用唯一性检查,得到的检查结果能寻找出已录参数的录错及录多错误。与现有技术相比本发明方法减少了参数录入的复核工作量以及参数录入的错误率。
- 音频检查方法及电子设备-202210515666.5
- 徐强强;王昕;王凯欣;刘利明;刘鹏;于仲海;刘石勇;李洁;刘敏;许丽星 - 海信集团控股股份有限公司
- 2022-05-11 - 2022-09-02 - G06F40/221
- 本申请公开了一种音频检查方法及电子设备,属于电子技术领域。电子设备在将待检查的目标音频转换成目标拼音序列后,可以确定目标拼音序列相对于标准文本的标准拼音序列的错误拼音以及错误拼音的错误类型,并在显示的标准文本中标记错误拼音对应的文字以及错误类型。相较于人工检查对文章的掌握情况,本申请实施例提供的方法中电子设备可以自动对目标音频进行检查,以实现检查对文章的掌握情况,由此提高了对文章的掌握情况检查的效率。
- 内容提取方法及相关装置、电子设备、存储介质-202210096010.4
- 王志;黄鹏;刘杰;王瑞;于继栋 - 科大讯飞股份有限公司
- 2022-01-26 - 2022-06-14 - G06F40/221
- 本申请公开了一种内容提取方法及相关装置、电子设备、存储介质,其中,内容提取方法包括:获取各个网页元素关于若干目标维度的特征信息;其中,各个网页元素包括对照元素和若干候选元素,且若干目标维度的特征集合包含多种元素特征,特征集合为若干目标维度分别所属的元素特征所组成的集合;基于特征信息,预测得到与对照元素属于相同类别的候选元素,作为目标元素;基于目标元素,提取得到网页数据。上述方案,能够提升提取网页数据的便捷性和准确性。
- 网页文本信息提取方法及装置、终端设备和存储介质-202210377997.7
- 宋恒;何兰生;肖丽娜;耿天宝;刘道学;李亚楠 - 安徽数智建造研究院有限公司
- 2022-04-12 - 2022-05-10 - G06F40/221
- 本发明公开了一种网页文本信息提取方法及装置、终端设备和存储介质,所述方法包括:解析HTML网页源码,以获得网页文本信息;根据网页文本信息确定文本类型;在文本类型为非表格时,根据预设关键字从网页文本信息中提取目标内容;在文本类型为表格时,根据预设关键字和单元格信息块标识符从网页文本信息中提取目标内容。本发明的方法,能够将网页中的信息按照从上至下的排布结构解析为表格和非表格两种形式,并分别采用不同的提取方式提取目标内容,从而实现对网页内容的精确提取。
- 一种报文解析方法及装置-202111594763.X
- 张炎;陈超;刘永振 - 中国银联股份有限公司
- 2021-12-24 - 2022-04-22 - G06F40/221
- 本发明公开了一种报文解析方法及装置,包括:获取待解析报文;确定出待解析报文的报文节点;针对待解析报文中任一报文节点,确定报文节点的各子报文节点中是否具有相同节点名称,若是,则以数组形式创建报文节点的信息记录;否则以键值对形式创建报文节点的信息记录;根据各报文节点的信息记录生成Java对象;Java对象用于表征待解析报文。从而实现复杂结构的报文和一般结构的报文可以通过同一种解析方法进行解析;且即使各报文节点的名称发生变化,也可是确定出各报文节点的结构及信息,提升了解析方法的通用性。
- 文本断句方法及训练方法、装置、电子设备、存储介质-202111527234.8
- 余勇宏 - 上海流利说信息技术有限公司
- 2021-12-14 - 2022-03-25 - G06F40/221
- 文本断句方法及训练方法、装置、电子设备、存储介质,所述文本断句的训练方法包括:分别获取包含断句信息的第一训练语料和未包含断句信息的第二训练语料;对所述第二训练语料添加断句信息,得到第三训练语料;分别对所述第一训练语料和所述第三训练语料添加与断句信息相关的标注信息;将所述第一训练语料输入至预设的神经网络模型,对所述预设的神经网络模型进行预训练,得到初始文本断句模型;将所述第三训练语料输入至所述初始文本断句模型,对所述初始文本断句模型进行微调,得到文本断句模型。采用上述方案,能够提高断句的准确率。
- 一种预训练模型的中文训练方法、装置及存储介质-202111211094.3
- 韩庆宏;何豪杰;王思宽;王铎;李晓雅;卢辰鑫 - 浙江香侬慧语科技有限责任公司
- 2021-10-18 - 2022-01-28 - G06F40/221
- 本发明公开了一种预训练模型的中文训练方法、装置及存储介质,属于自然语言处理领域。该方法主要包括根据给定句子中预定汉字在给定句子中的位置、预定汉字的字形特征、预定汉字的拼音特征以及预定汉字的字向量,得到预定汉字的预训练向量;利用预定汉字的预训练向量对语言模型工具进行训练得到预训练模型。本发明增强了预训练模型区分同音字、近义字和近形字的能力,进一步模型提高在各种复杂场景下的效果。
- 一种网页识别方法、装置及电子设备和存储介质-202111137046.4
- 王晓波;位凯志 - 深信服科技股份有限公司
- 2021-09-27 - 2021-12-24 - G06F40/221
- 本申请公开了一种网页识别方法、装置及一种电子设备和计算机可读存储介质,该方法包括:确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。由此可见,本申请提供的网页识别方法,使用匹配规则判断目标网页是否符合目标网页类型,提高了页面识别的速度和准确度。
- 报文格式校验方法、装置以及存储介质-202010485555.5
- 赵国永;霍晓莉;荆瑞泉;胡骞 - 中国电信股份有限公司
- 2020-06-01 - 2021-12-07 - G06F40/221
- 本公开提供了一种报文格式校验方法、装置以及存储介质,涉及计算机技术领域,其中的方法包括:基于报文规则信息确定与标签相对应的属性以及属性的属性值,用以生成校验规则文件;解析待校验报文,获取待校验报文中的报文节点信息;解析校验规则文件,获取校验规则信息;基于校验规则信息对报文节点信息进行校验,获取校验结果。本公开的方法、装置以及存储介质,可以对报文的正确性进行自动化检验,提高开发和测试的效率;利用报文标签生成规则文件,不扩展原有的标签,校验规则简便,能够减少开发工作量,并可以提高报错准确性。
- 一种JSON文件解析方法、装置及电子设备-202110452208.7
- 魏少龙 - 浙江百应科技有限公司
- 2021-04-26 - 2021-07-16 - G06F40/221
- 本发明公开了一种JSON文件解析方法,所述方法包括:获取已注册的数据处理服务节点以及每个所述数据处理服务节点的处理能力;获取待处理JSON解析任务,基于所述待处理JSON解析任务的JSON文件行数、每个所述数据处理服务节点的处理能力分配解析区间任务;所述数据处理服务节点获取对应的所述解析区间任务进行解析。
- XML报文重组方法及装置-202110375806.9
- 翁景然;刘雨竹;陈伊;杨建旭 - 银清科技有限公司
- 2021-04-08 - 2021-07-02 - G06F40/221
- 本发明提供了一种XML报文重组方法及装置,XML报文重组方法包括:根据目标系统中的XML报文对应的公用语法库生成所述XML报文的正则表达式库;解析待测试XML报文;根据所述公用语法库生成解析后XML报文的正则表达式;根据所述正则表达式重组所述待测试XML报文。本发明提供一种XML报文重组方法,解决了当前XML报文检测方法只能检测报文语法,不能检测报文语义的问题,实现XML报文语法、语义同时检测。
- 告警计算方法、装置、电子设备及存储介质-202110195068.X
- 王小东;周智杰;吕文勇;赵小诣 - 成都新希望金融信息有限公司
- 2021-02-20 - 2021-06-04 - G06F40/221
- 本申请提供一种告警计算方法、装置、电子设备及存储介质,涉及数据分析技术领域。所述方法包括:将采集的数据写入消息队列;通过流数据实时计算框架,基于领域专用语言解析告警表达式,以获得所述告警表达式对应的指标;通过所述流数据实时计算框架,从所述消息队列中获取所述指标对应的指标数据;通过所述流数据实时计算框架,将所述指标数据代入所述告警表达式进行计算,以获得告警结果。该方法结合流数据实时计算和领域专用语言进行告警计算,可以对自定义的表达式规则进行语法解析及实时修改,进行告警计算,提高了告警计算的灵活性。
- 多音字的拼音转换方法、装置、计算机设备和存储介质-202011339562.0
- 李俊杰;马骏;王少军 - 平安科技(深圳)有限公司
- 2020-11-25 - 2021-03-09 - G06F40/221
- 本申请涉及人工智能技术领域,提供一种多音字的拼音转换方法、装置、计算机设备和存储介质,获取用户输入的文本,并对文本进行分词,得到多个分词文本;对分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;若分词文本存在多音字,则获取多音字所在的目标短句;根据目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;所述正确拼音与所述初始拼音不一致时,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音。本申请中针对多音字的拼音转换时,基于该多音字所在短句的所有分词文本的词性,获取对应的正确拼音,使得转换得到的拼音更加准确。
- 适用于移动终端的智能安全阅读系统-202010352589.7
- 邱震;缪炀;穆建莉;帖凯莹;臧红军 - 北京汇智凯亚信息技术有限公司
- 2020-04-29 - 2020-09-11 - G06F40/221
- 本发明公开了一种适用于移动终端的智能安全阅读系统,通过获取目标阅读文件的文件流,并对文件流进行解析生成WAP格式,同时对用户身份进行验证,验证合格后对WAP格式文件进行阅读操作,用户在阅读文件而移动终端网络中断时将用户身份验证信息放入失效连接队列进行单独管理,网络连接恢复后搜索失效连接队列中的用户身份验证信息,并选取时间段靠后的用户身份验证信息的数据进行身份信息验证,若身份验证合格,则所述阅读模块显示网络断开前的阅读内容,无需用户进行阅读操作由于网络连接断开而需要再次手动进行身份验证,只有在自动身份验证不合格时才会手动验证,同时保证了用户在移动终端进行文件阅读时的安全性和便捷性,提升了用户体验感。
- 文档解析方法、装置、设备及存储介质-202010261296.8
- 张亦鹏;张真;刘明浩;姚荣洁;郭江亮 - 北京百度网讯科技有限公司
- 2020-04-03 - 2020-08-25 - G06F40/221
- 本申请提出了一种文档解析方法、装置、设备及存储介质,涉及文档解析技术领域,具体实现方案为:接收文档解析请求,并根据文档解析请求下载对应的文档;将文档转换为可扩展标记语言XML文件;对转换后的XML文件进行解析以提取XML文件之中的文档内容,并以JS对象简谱JSON格式将提取的文档内容存储至数据库。根据本申请实施例的文档解析方法,能够提高文档解析效率。
- 专利分类