专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果9个,建议您升级VIP下载更多相关专利
  • [发明专利]基于文字密度的网页正文提取方法、设备及介质-CN202211263443.0在审
  • 孟奥;张发雨;王宁;党章;冯立二;杨正云;杜宇;袁扬 - 江苏省未来网络创新研究院
  • 2022-10-14 - 2023-03-28 - G06F16/957
  • 本发明涉及一种基于文字密度的网页正文提取方法、设备及介质,包括获取html网页,该方法通过对html网页进行预处理得到body标签部分内容;将body标签部分内容分隔成数组textArray;计算数组textArray的文本长度平均值,设定取正文内容的文字密度限定数;对数组textArray进行遍历,遍历结果满足第一行正文内容的开始条件时,开始提取正文;循环获取行正文内容并追加到正文中,直至得到最终版本的正文content。本发明与现有技术相比,其显著优点是:通过对html网页进行预处理和分析,比较html网页正文部分单行标签中文字较多与其他部分单行标签文字内容较少的情况,提取出在html网页中文字较多的正文部分内容,实现对html网页正文的精准提取,为网站数据处理提供便利,具有广泛的应用前景。
  • 基于文字密度网页正文提取方法设备介质
  • [发明专利]一种基于XLNet-BiGRU文本纠错方法-CN202111394371.9在审
  • 王伦;张发雨;王宁;党章;吴兴龙;孟奥;冯立二;杨正云 - 江苏省未来网络创新研究院
  • 2021-11-23 - 2022-02-18 - G06F16/33
  • 本发明提供了一种基于XLNet‑BiGRU文本纠错方法,其特征在于,包括以下步骤:S1、基于大规模无标注语料训练XLNet(Generalized Autoregressive Pretraining for Language Understanding)中文模型,XLNet模型主要包括排列语言模型(Permutation Language Model)、双流注意力机制(Two‑Stream Self‑Attention)及Transformer‑XL核心组件;S2、对文本纠错语料数据进行预处理并进行标注;S3、在S1训练好的XLNet预训练中文模型基础上,构建XLNet‑BiGRU神经网络模型,模型主要由检测网络和纠错网络两部分组成,同时利用S2中已标注好的数据训练此模型。本发明改进了传统基于翻译模型纠错方法耗时长的问题,将文本纠错由逐个字生成正确句子的串行程优化为只针对错误内容用XLNet神经网络进行纠错的并行过程。
  • 一种基于xlnetbigru文本纠错方法
  • [发明专利]一种中文文本漏字自动识别的实现方法-CN202111203237.6在审
  • 孟奥;王宁;张发雨;党章;吴兴龙;冯立二;杨正云 - 江苏省未来网络创新研究院
  • 2021-10-15 - 2022-01-18 - G06F40/211
  • 本发明提供了一种中文文本漏字自动识别的实现方法,其特征在于,包括对中文文本的整体处理流程和对中文短句的具体处理流程,通过输入或者主动加载的方式获取到要检测的中文文本;对中文文本做预处理,进行utf‑8统一编码处理;将编码后中文文本依据中文本文中的“。”、“?”、“!”符号进行切分,并保留切分后的标点符号在上一句的句尾,切分后的中文文本组成中文短句列表;切分后的中文短句列表,依次循环处理每个中文短句,使用pycorrector的bert模型对可能的漏字进行预测,得到漏字结果和漏字位置等信息,并对结果进行整理输出。本发明可以提前查找中文文本可能存在的错别字和漏字,大大减少了人力成本。本发明可用于各种中文文本中,具有广泛的应用前景。
  • 一种中文文本自动识别实现方法
  • [发明专利]一种中文文本多字自动检测识别的实现方法-CN202111204752.6在审
  • 孟奥;王宁;张发雨;党章;吴兴龙;冯立二;杨正云 - 江苏省未来网络创新研究院
  • 2021-10-15 - 2022-01-14 - G06F40/211
  • 本发明提供了一种中文文本多字自动检测识别的实现方法,其特征在于,包括对中文文本的整体处理流程和对中文短句的具体处理流程,具体包括运行开始,随机输入中文文本,对中文文本进行utf‑8统一编码处理,然后根据标点符号切分中文文本,输出切分后的短句列表,循环处理中文短句列表中的每个中文短句,获取中文短句中可能的多字和多字位置信息等,然后判断中文短句列表是否全部处理,如否则继续循环处理中文短句列表中的每个中文短句,如是则将所有短句中可能存在的多字信息整理后输出,运行结束。本发明实现了提前查看中文文本是否错字、多字,解决了人工查看费事费力的问题,大大减少了人力成本;适用于各种中文文本中,具有广泛的应用前景。
  • 一种中文文本多字自动检测识别实现方法

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top