[发明专利]企业身份信息数据融合方法及装置在审

申请号：	202310656992.2	申请日：	2023-06-05
公开（公告）号：	CN116467403A	公开（公告）日：	2023-07-21
发明（设计）人：	冯婷;郭颖;王雅静;应志红	申请（专利权）人：	北京华宇信息技术有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/215;G06F16/22;G06F16/25;G06F16/27;G06F40/216;G06F40/284;G06F40/295;G06F18/22;G06F16/35;G06F9/54;G06N3/0442;G06N3/045;G06N
代理公司：	北京同清律师事务所 11799	代理人：	何磊
地址：	100084 北京市海淀区中关村***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	企业身份信息数据融合方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种企业身份信息数据融合方法，其特征在于，应用于筛选涉案企业中的合规企业，包括以下步骤：

从若干区块数据库中，以接口对接、数据库对接、文件包对接、消息队列对接的采集方式，采集包含增量同步数据和全量同步数据的同步数据，作为企业对象的身份信息数据；

将企业对象的若干身份信息数据构成原始数据集合；

对所述原始数据集合中的若干身份信息数据进行预处理，包括填充空值字段、补充必要字段、删除重复字段，更新原始数据集合为整合数据集合；

根据预设识别策略，确定整合数据集合中的唯一标识属性，作为对应企业对象的融合键；

建立整合数据集合中任意元素与融合键的关联关系，更新整合数据集合为融合数据集合；

输入融合数据集合至命名实体识别模型，得到第一信息分析数据；

输入融合数据集合至事件抽取模型，得到第二信息分析数据；

输入融合数据集合至文本相似度计算模型，得到第三信息分析数据；

输入融合数据集合至关键词提取模型，得到第四信息分析数据；

以预设结构化存储格式策略，存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据，作为企业对象在当前周期内的身份信息数据；

其中，所述输入融合数据集合至命名实体识别模型，得到第一信息分析数据，具体步骤包括：

确定融合数据集合中的文本单元；

按照预设分句策略，对所述文本单元进行分割，得到若干句子单元；

通过Jieba分词库，对所述若干句子单元进行分割，得到若干词语单元；

通过Word2Vec模型，将所述若干词语单元转变为若干词向量；

通过BILSTM-CRF模型，对所述若干词向量进行序列标定，确定所述文本单元中的命名实体、命名实体位置、命名实体类型，作为第一信息分析数据；

所述输入融合数据集合至事件抽取模型，得到第二信息分析数据，具体步骤包括：

确定融合数据集合中的文本单元；

基于预设位置编码、预设向量编码、预设句子分类编码，对所述文本单元进行转码，得到对应所述文本单元的嵌入向量；

输入所述嵌入向量至预训练的BERT模型，得到对应所述嵌入向量的编码序列；

采用与预训练的BERT模型连接的二分类器，基于所述编码序列，预测主实体；

根据主实体，从编码序列中，抽取主实体首部、尾部对应的编码向量；

基于主实体首部、尾部对应的编码向量，预测主实体对应的客实体、主实体客实体之间的关系；

提取主实体、主实体对应的客实体、主实体客实体之间的关系，组成三元组；

将若干三元组，作为第二信息分析数据；

所述输入融合数据集合至文本相似度计算模型，得到第三信息分析数据，具体步骤包括：

确定融合数据集合中的第一句子单元、第二句子单元；

基于预设位置编码、预设向量编码、预设句子分类编码，对所述第一句子单元进行转码，得到对应所述第一句子单元的第一嵌入向量；

对所述第二句子单元进行转码，得到对应所述第二句子单元的第二嵌入向量；

输入所述第一嵌入向量、所述第二嵌入向量至预训练的ALBERT模型，得到对应第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量；

输入第一文本向量、第二文本向量至全连接层进行运算，得到预测相似值；

当预测相似值大于预设阈值，确定第一文本、第二文本为相似信息，作为第三信息分析数据；

所述输入融合数据集合至关键词提取模型，得到第四信息分析数据，具体步骤包括：

确定融合数据集合中的文本单元；

按照预设分句策略，对所述文本单元进行分割，得到若干句子单元；

通过Jieba分词库，对所述若干句子单元进行分割，得到若干词语单元；

确定指定词性的若干词语单元，作为候选关键词；

将候选关键词作为节点，构建节点集合；

当候选关键词对应的词语单元在长度为K的窗口中共现时，将节点之间的关系作为边，构建边集合；

根据节点集合、边集合，构建有向有权图；

定义节点的得分函数：

；

其中，节点V_i、V_j之间边的权重为W_ji；In(V_i)为指向节点V_i的点集合；

Out(V_i)为节点V_j指向的点集合；

输入预设初值，迭代计算节点的权重值，直至任意节点的误差率小于预设极限值；

通过TextRank算法，对节点的权重值进行倒序排序；

获取前T个节点，并在候选关键词集合中，标记节点对应的词语单元；

将标记后的词语单元进行组合，得到词组关键词，作为第四信息分析数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京华宇信息技术有限公司，未经北京华宇信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310656992.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]企业身份信息数据融合方法及装置在审

专利文献下载