[发明专利]互联网行动类信息线索分析的方法和系统有效

专利信息
申请号: 202110443364.7 申请日: 2021-04-23
公开(公告)号: CN113268673B 公开(公告)日: 2023-06-02
发明(设计)人: 张传新;梁汝锋;解峥;王宇;刘春阳;刘巨安;张旭;陈志朋;张翔宇;王菲 申请(专利权)人: 国家计算机网络与信息安全管理中心;北京蓝光汇智网络科技有限公司
主分类号: G06F16/9536 分类号: G06F16/9536;G06F40/253;G06F40/284
代理公司: 北京远大卓悦知识产权代理有限公司 11369 代理人: 卞静静
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 互联网 行动 信息 线索 分析 方法 系统
【说明书】:

发明公开了一种互联网行动类信息线索分析的方法,包括:从互联网获取信息文本;将信息文本输入预训练的行动线索标注算法模型中,应用预训练的行动线索标注算法模型获取信息文本中的行动类信息线索单词;其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算。本发明可以对采集内容进行快速的语法分析,获取内容中用户关注的时间、地点、人物和活动等行动类线索信息,这样就可以对关键词信息进行标注或分类,最终让用户可以很清晰、明了的查看线索信息内容。

技术领域

本发明涉及计算机信息技术领域。更具体地说,本发明涉及一种互联网行动类信息线 索分析的方法和系统。

背景技术

新闻网站、移动客户端App、即时通讯等是当今生活中人们生活中获取信息的一种不 可或缺的方式。根据2020年8月沃指数APP报告数据显示,新闻类网站的月活跃人数中,今日头条为24169万人,排名第二是腾讯新闻的17822万人,第三的是网易新闻的12714 万人;

在即时通讯类软件中,腾讯发布的2018年财报显示,微信的月活跃量是11亿,QQ的月活跃用户是7亿。2018年9月27,Facebook就宣布每日就有高达3亿的活跃用户。 目前筛选不法行为信息的方法主要是通过判断关键词的方法去识别分析内容中是否包含 指定线索。在面对海量信息的时候,这种方法效率略低,并且识别度也不高,无法从多维 度去分析内容信息。

发明内容

本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。

本发明还有一个目的是提供一种互联网行动类信息线索分析的方法和系统,可以对采 集内容进行快速的语法分析,获取内容中用户关注的时间、地点、人物和活动等行动类线 索信息,这样就可以对关键词信息进行标注或分类,最终让用户可以很清晰、明了的查看 线索信息内容。

为了实现根据本发明的这些目的和其它优点,提供了一种互联网行动类信息线索分析 的方法,其包括:

从互联网获取信息文本;

将信息文本输入预训练的行动线索标注算法模型中,应用预训练的行动线索标注算法 模型获取信息文本中的行动类信息线索单词;

其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法 模型对属于自定义类型的单词的权重进行增量运算。

优选的是,所述行动线索标注算法模型的预训练方法包括:

获取训练语料,对训练语料分词,再对每个单词进行第一类标注;

选择标签体系,根据标签体系对训练语料中的每个字符进行第二类标注,生成包含第 一类标注和第二类标注的训练数据,其中第二类标注包括行动类信息线索单词所属实体类 型的标注;

选择特征模板,根据行动类信息线索单词和/或行动类信息线索单词的第一类标注和/ 或行动类信息线索单词的第二类标注确定特征模板中的特征;

将训练数据和特征模板导入行动线索标注算法模型中进行训练,以得到获取行动类信 息线索单词的最优路径。

优选的是,所述第一类标注为词性标注,所述第二类标注还包括行动类信息线索单词 中每个字符的位置标注。

优选的是,所述行动类信息线索单词的实体类型还包括:时间、地点、人物。

优选的是,行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。

本发明还提供一种互联网行动类信息线索分析的系统,其包括:

文本获取模块,其用于从互联网获取信息文本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京蓝光汇智网络科技有限公司,未经国家计算机网络与信息安全管理中心;北京蓝光汇智网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110443364.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top