[发明专利]一种疫情新闻信息提取方法及系统有效

专利信息
申请号: 202010824197.6 申请日: 2020-08-17
公开(公告)号: CN111966879B 公开(公告)日: 2023-08-08
发明(设计)人: 陈佳珊;黄景浩;杨坦 申请(专利权)人: 华南师范大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9537;G06F16/958;G06F40/284;G06F40/289
代理公司: 广东捷凯创新专利代理有限公司 44974 代理人: 何金芳
地址: 510000 *** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 疫情 新闻 信息 提取 方法 系统
【权利要求书】:

1.一种疫情新闻信息提取方法,其特征在于,包括以下步骤:

步骤01,数据爬取步骤;

基于爬虫工具对指向新闻网页的若干网址进行模拟加载,以获取新闻网页中的内容;

步骤02,数据处理步骤;

依预设规则判断所获得的网页内容中的相邻句子应否接续,对需接续的两相邻句子执行接续操作,遍历网页内容中的所有句子,以获得新闻文本;将所获得的新闻文本分割成为若干个长句子的集合,每一个长句子再分割成为若干个短句子的集合;

步骤03,路径信息提取步骤;

在分割处理后的新闻文本的句子集合中提取若干路径要素以构成路径信息,所述路径要素包括地址信息、行为事件信息、省/市/县信息、时间信息;

步骤04,居住地/常住地信息提取步骤;

在分割处理后的新闻文本的句子集合中提取若干居住-常住地要素以构成居住地/常住地信息,所述居住-常住地要素包括居住地或常住地信息、居住地/常住地所属的省、市、县级行政区信息;

步骤05,交通搭乘信息提取步骤;

在分割处理后的新闻文本的句子集合中提取若干交通要素以构成交通搭乘信息,所述交通要素包括交通工具信息、起点信息、终点信息;

所述步骤 05 的操作包括:

根据交通搭乘的常见形式预设有交通搭乘信息对照表;

将句子按照交通搭乘信息对照表中的情形依次进行匹配,若匹配成功,则执行:

S1:将匹配结果拆分为短句子,并剔除句子中的干扰词;所述干扰词包括“乘客”、“同”、“搭乘人员”、“搭乘之日”;

S2:判断句子中是否存在“→”,若不存在跳至 S3,否则 S5;

S3:若句中的“乘”字数量,若数量大于或等于 2 则跳至 S4,否则 S5

S4:若“乘”字包含在地点信息内,则将“乘”字所在的地点信息作为备注信息,否则以“乘”字为分隔符拆分句子,并依次输入 S5;

S5:从句子当中提取起点信息、终点信息和交通工具信息;其中,句子包括以下任一种形式:

1)句中存在符号“→”,则以符号“→”为分割符进行分割以获得多个子句,继而从子句中识别并获取起点信息和终点信息;

2)句中含有预设的交通触发词“乘”,则提取交通触发词“乘”后的交通工具信息;

S6:设置交通工具表,若起点信息为空值且交通工具信息未包含交通工具表中的交通工具,则将提取到的终点信息后备注识别到的行为事件信息;

步骤06,信息输出展示步骤;

通过网页动态渲染,在网页中展示所述路径信息,居住地/常住地信息,交通搭乘信息中的一种或多种。

2.根据权利要求1所述的疫情新闻信息提取方法,其特征在于:

所述步骤01的操作包括:

步骤011,通过添加适当的请求头对爬虫程序进行伪装,避免新闻网站识别出爬虫程序而进行IP封禁;使用爬虫程序加载新闻网页并等待网页的所有元素加载完成;

步骤012,利用lxml库解析所获得的页面;

步骤013,利用Xpath表达式提取相对应html元素的内容,提取内容包括网页正文,所述网页正文由网页内所有的p标签内的内容拼接而成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010824197.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top