“杭州火石数智科技有限公司”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果8个，建议您升级VIP下载更多相关专利

[发明专利]基于文章摘要句子的数据扩充方法以及PICOS抽取分类方法-CN202211116531.8在审
发明人：柴龙涛;金霞;刘伟 -专利权人： 杭州火石数智科技有限公司
申请日： 2022-09-14 - 公布日： 2023-03-07 - 主分类号： G06F18/241 文献下载
摘要：本发明公开了一种基于文章摘要句子的数据扩充方法以及PICOS抽取分类方法。其中，数据扩充方法的过程如下：对多篇医学文章摘要进行分句，然后对分句后的每条句子进行类别标注，并标注好每条句子在该句子所属医学文章摘要中的顺序信息；将每条句子所属医学文章摘要编号以及该条句子的句子文本、句子位置以及句子类别共同组成一个数据样本；对同一医学文章摘要且为同一类别的句子进行随机拼接生成新句子；拼接后的新句子的句子位置采用拼接前首条句子的句子位置信息；将拼接后的新句子所属医学文章摘要编号以及该新句子的句子文本、句子位置以及句子类别共同组成一个新的数据样本。本发明有效地解决了PICOS抽取分类过程中模型数据获取困难的问题。
基于文章摘要句子数据扩充方法以及 picos 抽取分类

[发明专利]分类和实体识别联合抽取方法、计算机设备及存储介质-CN202211072171.6有效
发明人：柴龙涛;金霞 -专利权人： 杭州火石数智科技有限公司
申请日： 2022-09-02 - 公布日： 2022-12-02 - 主分类号： G06F40/279 文献下载
摘要：本发明属于循证医学中PICOS抽取技术领域，公开了一种针对PICOS抽取的分类和实体识别联合抽取方法、计算机设备及存储介质。本发明方法充分考虑到医学领域文章在撰写时的书写逻辑问题，在该场景和任务中加入了句子的位置信息以及句子的类别信息，并且针对PICOS抽取场景搭建了同时包含分类模块以及实体识别模块的联合抽取模型，因而能够在进行PICOS抽取时充分考虑到句子位置信息的重要性，同时在实体信息识别时能够充分考虑到句子的位置信息以及句子的类别信息的重要性，使得本发明方法在面对医学领域文章的PICOS抽取分类时和实体信息识别时准确率明显提高，进而证明了本发明方法的有效性。
分类实体识别联合抽取方法计算机设备存储介质

[发明专利]对比学习的样本构造方法、装置、计算机设备及存储介质-CN202210985948.1有效
发明人：张星;金霞;刘伟 -专利权人： 杭州火石数智科技有限公司
申请日： 2022-08-17 - 公布日： 2022-11-11 - 主分类号： G06F40/205 文献下载
摘要：本发明公开了一种对比学习的样本构造方法、装置、计算机设备及存储介质。本发明首先利用Bert将训练集问句数据转化为向量，用余弦相似度来衡量训练集问句数据之间的相似性，选择相似度值低于相似度阈值的不相似样本作为每个batch中的负样本，规避掉可能相似的样本被作为负样本，解决了因数据集中存在相似样本，导致SimCSE模型训练误差下降慢甚至推理不佳的技术问题。此外，本发明还提出了一种正样本的构造方法，利用每达到预设字符长度阈值，随机重复当前阈值范围内的一个或几个字符，从而构建对比学习的正样本，以克服模型在训练中可能会走入误区，倾向于两个有相近字符长度的句子更有相似性，而长度不同的句子间相似性较小的技术问题。
对比学习样本构造方法装置计算机设备存储介质

[发明专利]对比学习的样本构造方法、装置及计算机设备-CN202210985929.9有效
发明人：张星;金霞;刘伟 -专利权人： 杭州火石数智科技有限公司
申请日： 2022-08-17 - 公布日： 2022-11-11 - 主分类号： G06F40/20 文献下载
摘要：本发明属于医学领域和对比学习技术领域，公开了一种对比学习的样本构造方法、装置及计算机设备。其中，本发明方法样本构造通过MeSH医学术语词库匹配出数据文本中的医学术语，并通过医学术语体偏好词进行替换，依此来改变数据样本的字符长度，并且是利用医学偏好词进行替换，原数据文本的语义不会发生变化，再利用Dropout构造对比学习的正样本，通过对训练数据进行Embedding，转化为向量，对向量进行K‑Means聚类，训练时从各个簇中随机选择一个数据，并添加到同一个batch中，作为对比学习的负样本。通过以上样本构造方法，使得模型更加有效地学习样本数据表征，利于解决利用对比学习进行召回的过程中召回率较低的问题。
对比学习样本构造方法装置计算机设备

[发明专利]一种海量短文本自适应分桶的反向去重方法-CN202011500654.2有效
发明人：杨祎聪;金霞;杨红飞 -专利权人： 杭州火石数智科技有限公司
申请日： 2020-12-17 - 公布日： 2022-05-10 - 主分类号： G06F16/335 文献下载
摘要：本发明公开了一种海量短文本自适应分桶的反向去重方法，该方法包括以下步骤：首先对全量数据进行自适应分桶；然后对每个桶内的数据进行排序，去重时将排序靠后的数据去重，对排序后的数据进行两两比较，根据相似度判断两个数据之间是高度相似、相似还是不相似，不相似的数据不被去重，相似的数据直接被去重，高度相似的数据比较特征子串，将特征子串一样的去重。最后合并各个桶被去重的数据，从全量数据中剔除被去重的数据得到去重的全量数据。本发明可以在保证尽可能将相似的数据分到一个桶的情况下有效避免数据倾斜，解决了同一个桶内本应该被去重的数据遗漏的问题。
一种海量文本自适应反向方法

[发明专利]一种基于图神经网络的表格结构识别方法-CN202010390152.2有效
发明人：杨红飞;金霞;韩瑞峰 -专利权人： 杭州火石数智科技有限公司
申请日： 2020-05-08 - 公布日： 2021-09-03 - 主分类号： G06K9/00 文献下载
摘要：本发明公开了一种基于图神经网络的表格结构识别方法，该方法将pdf文档的每一页转为图像，对每一张输入的图像，识别出表格的位置，截取出表格区域；对表格区域识别文字blob块；对每个blob找到邻近的blob集合，从而建立blob图结构；对blob图建立对偶图结构，将图结点连接预测问题转变为图结点分类问题；训练图结点分类模型；对blob之间的关系整理，得到表格的单元格结构；本发明将图神经网络应用到表格结构识别中，将表格结构识别建模为图结点分类，并加入反馈调节网络及条件随机场，对图结点分类结果进行基于表格整体结构合理性的修正，提高了识别准确率。
一种基于神经网络表格结构识别方法

[发明专利]一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质-CN202110417707.2在审
发明人：刘伟;杨红飞 -专利权人： 杭州火石数智科技有限公司
申请日： 2021-04-19 - 公布日： 2021-08-06 - 主分类号： G06F40/194 文献下载
摘要：本发明公开了一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质，其涉及计算机信息处理技术领域，所述方法包括：S1样本准备；S2模型训练；S3模型预测；在S2模型训练阶段，首先使用孪生网络结构分批训练上述样本集；然后分别计算锚样本与正样本、负样本之间的距离：利用electra模型计算样本的3)使用circle loss损失函数计算损失值，接着利用electra模型计算每个样本的特征表示，将circle loss损失函数与electra模型相结合，并使其应用到问答系统中，可得到文本相似度匹配速度与精度均较高的问题收集方法。
一种基于 circle loss 文本相似匹配方法装置计算机设备储存介质

[外观设计]医学服务机器人-CN202030204992.6有效
发明人：金霞;杨红飞;程东;何泽伟;陈甬杭 -专利权人： 杭州火石数智科技有限公司
申请日： 2020-05-08 - 公布日： 2020-09-11 - 主分类号： 15-99 文献下载
摘要：1.本外观设计产品的名称：医学服务机器人。2.本外观设计产品的用途：用于为医健领域企业及个人提供医学相关服务。3.本外观设计产品的设计要点：在于形状与图案的结合。4.最能表明设计要点的图片或照片：立体图1。
医学服务机器人

1
共 8 条