[发明专利]多维度特征融合相似事件计算方法、系统及电子设备有效
申请号: | 202110906530.2 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113722478B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 韩勇;李青龙;骆飞;赵冲 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F18/22;G06F18/25 |
代理公司: | 北京智宇正信知识产权代理事务所(普通合伙) 11876 | 代理人: | 李明卓 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多维 特征 融合 相似 事件 计算方法 系统 电子设备 | ||
1.一种多维度特征融合相似事件计算方法,其特征在于,包括:
获取当前事件的当前事件主题词、当前事件摘要、当前事件标题、当前事件论元、当前事件触发词、当前事件生命周期、当前事件文本类别、当前事件命名实体和当前事件发生地点;
获取每一个历史事件的历史事件主题词、历史事件摘要、历史事件标题、历史事件论元、历史事件触发词、历史事件生命周期、历史事件文本类别、历史事件命名实体和历史事件发生地点;
根据当前事件主题词和每一个历史事件的历史事件主题词得到当前事件与每一个历史事件的主题词语义相似值;
根据当前事件主题词和每一个历史事件的历史事件主题词得到当前事件与每一个历史事件的主题词语义相似值的步骤中,包括:将当前事件主题词和每一个历史事件的历史事件主题词分别输入到预训练词向量模型中,得到当前事件所包含的当前事件主题词向量和每一个历史事件所包含的历史事件主题词向量;对当前事件所包含的当前事件主题词词向量进行相加,得到当前事件对应的当前事件主题词语义向量;分别对每一个历史事件所包含的历史事件主题词词向量进行相加,得到每一个历史事件对应的历史事件主题词语义向量;将当前事件主题词语义向量分别与每一个历史事件主题词语义向量进行余弦相似度计算,得到当前事件与每一个历史事件的主题词语义相似值;
根据当前事件摘要和每一个历史事件的历史事件摘要得到当前事件与每一个历史事件的摘要句子语义相似值;
根据当前事件摘要和每一个历史事件的历史事件摘要得到当前事件与每一个历史事件的摘要句子语义相似值的步骤中,包括:将当前事件对应的当前事件摘要和每一个历史事件对应的历史事件摘要分别输入到bert预训练句向量模型中,得到当前事件摘要所对应的当前摘要句子向量和每一个历史事件摘要所对应的历史摘要句子向量;对当前事件摘要所对应的当前摘要句子向量进行相加,得到当前事件摘要的句子语义向量;分别对每一个历史事件摘要所对应的历史摘要句子向量进行相加,得到每一个历史事件摘要的句子语义向量;将当前事件摘要的句子语义向量分别与每一个历史事件摘要的句子语义向量进行余弦相似度计算,得到当前事件与每一个历史事件的摘要句子语义相似值;
根据当前事件标题和每一个历史事件的历史事件标题得到当前事件与每一个历史事件的句法相似值;
根据当前事件标题和每一个历史事件的历史事件标题得到当前事件与每一个历史事件的句法相似值的步骤中,包括:根据当前事件标题和每一个历史事件的历史事件标题分别得到当前事件标题和每一个历史事件标题的标题编辑距离;分别对当前事件标题和每一个历史事件标题的标题编辑距离进行归一化处理,得到当前事件与每一个历史事件的句法相似值;
根据当前事件论元和每一个历史事件的历史事件论元得到当前事件与每一个历史事件的论元相似值;
根据当前事件论元和每一个历史事件的历史事件论元得到当前事件与每一个历史事件的论元相似值的步骤中,包括:将当前事件论元和每一个历史事件的历史事件论元分别输入到预训练词向量模型中,得到当前事件论元所对应的当前事件论元词向量和每一个历史事件论元所对应的历史事件论元词向量;根据当前事件论元和每一个历史事件的历史事件论元分别得到当前事件论元和每一个历史事件论元的论元编辑距离;根据当前事件论元词向量、历史事件论元词向量和论元编辑距离得到当前事件与每一个历史事件的论元相似值;
根据当前事件触发词和每一个历史事件的历史事件触发词得到当前事件与每一个历史事件的触发词相似值;
根据当前事件触发词和每一个历史事件的历史事件触发词得到当前事件与每一个历史事件的触发词相似值的步骤中,包括:将当前事件触发词和每一个历史事件的历史事件触发词分别输入到预训练词向量模型中,得到当前事件触发词所对应的当前事件触发词词向量和每一个历史事件触发词所对应的历史事件触发词词向量;根据当前事件触发词和每一个历史事件的历史事件触发词分别得到当前事件触发词和每一个历史事件触发词的触发词编辑距离;根据当前事件触发词词向量、历史事件触发词词向量和触发词编辑距离得到当前事件与每一个历史事件的触发词相似值;
根据当前事件生命周期和每一个历史事件的历史事件生命周期得到当前事件与每一个历史事件的时间窗口相似值;
根据当前事件生命周期和每一个历史事件的历史事件生命周期得到当前事件与每一个历史事件的时间窗口相似值的步骤中,包括:计算当前事件生命周期和每一个历史事件的历史事件生命周期的事件共现距离;对事件共现距离进行预设倍数缩小得到当前事件与每一个历史事件的时间窗口相似值;
根据当前事件文本类别和每一个历史事件的历史事件文本类别得到当前事件与每一个历史事件的文本类别相似值;
根据当前事件文本类别和每一个历史事件的历史事件文本类别得到当前事件与每一个历史事件的文本类别相似值的步骤中,包括:分别判断当前事件文本类别和每一个历史事件的历史事件文本类别是否相同;若当前事件文本类别和历史事件文本类别相同,则文本类别相似值为第一预设值;若当前事件文本类别和历史事件文本类别不相同,则文本类别相似值为第二预设值,所述第二预设值小于第一预设值;
分别对每一个历史事件的主题词语义相似值、摘要句子语义相似值、句法相似值、论元相似值、触发词相似值、时间窗口相似值和文本类别相似值进行加权融合,得到当前事件与每一个历史事件的相似分数值;
分别判断每一个历史事件的相似分数值是否大于预设阈值;
若历史事件的相似分数值小于或者等于预设阈值,则历史事件的相似分数值保持不变,将相似分数值作为当前事件与历史事件的最终相似分数值;
若历史事件的相似分数值大于预设阈值,则根据当前事件命名实体、当前事件发生地点、历史事件命名实体和历史事件发生地点对历史事件的相似分数值进行命名实体和地域加权,得到加权后的相似分数值,并将加权后的相似分数值作为当前事件与历史事件的最终相似分数值;
根据当前事件命名实体、当前事件发生地点、历史事件命名实体和历史事件发生地点对历史事件的相似分数值进行命名实体和地域加权,得到加权后的相似分数值的步骤中,包括:判断历史事件中的历史事件发生地点与当前事件发生地点是否属于同一地域,且判断历史事件中的历史事件命名实体与当前事件命名实体是否有相同的实体;若历史事件中的历史事件发生地点与当前事件发生地点不属于同一地域,且历史事件中的历史事件命名实体与当前事件命名实体没有相同的实体,则历史事件的相似分数值保持不变;若历史事件中的历史事件发生地点与当前事件发生地点属于同一地域,且历史事件中的历史事件命名实体与当前事件命名实体没有相同的实体,则对历史事件的相似分数值进行地域加权,得到加权后的相似分数值;若历史事件中的历史事件发生地点与当前事件发生地点不属于同一地域,且历史事件中的历史事件命名实体与当前事件命名实体有相同的实体,则对历史事件的相似分数值进行命名实体加权,得到加权后的相似分数值;若历史事件中的历史事件发生地点与当前事件发生地点属于同一地域,且历史事件中的历史事件命名实体与当前事件命名实体有相同的实体,则对历史事件的相似分数值进行地域加权和命名实体加权,得到加权后的相似分数值;
根据最终相似分数值对历史事件进行排序,得到当前事件的相似事件排序结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110906530.2/1.html,转载请声明来源钻瓜专利网。