[发明专利]一种疫情新闻信息提取方法及系统有效
| 申请号: | 202010824197.6 | 申请日: | 2020-08-17 |
| 公开(公告)号: | CN111966879B | 公开(公告)日: | 2023-08-08 |
| 发明(设计)人: | 陈佳珊;黄景浩;杨坦 | 申请(专利权)人: | 华南师范大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9537;G06F16/958;G06F40/284;G06F40/289 |
| 代理公司: | 广东捷凯创新专利代理有限公司 44974 | 代理人: | 何金芳 |
| 地址: | 510000 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 疫情 新闻 信息 提取 方法 系统 | ||
1.一种疫情新闻信息提取方法,其特征在于,包括以下步骤:
步骤01,数据爬取步骤;
基于爬虫工具对指向新闻网页的若干网址进行模拟加载,以获取新闻网页中的内容;
步骤02,数据处理步骤;
依预设规则判断所获得的网页内容中的相邻句子应否接续,对需接续的两相邻句子执行接续操作,遍历网页内容中的所有句子,以获得新闻文本;将所获得的新闻文本分割成为若干个长句子的集合,每一个长句子再分割成为若干个短句子的集合;
步骤03,路径信息提取步骤;
在分割处理后的新闻文本的句子集合中提取若干路径要素以构成路径信息,所述路径要素包括地址信息、行为事件信息、省/市/县信息、时间信息;
步骤04,居住地/常住地信息提取步骤;
在分割处理后的新闻文本的句子集合中提取若干居住-常住地要素以构成居住地/常住地信息,所述居住-常住地要素包括居住地或常住地信息、居住地/常住地所属的省、市、县级行政区信息;
步骤05,交通搭乘信息提取步骤;
在分割处理后的新闻文本的句子集合中提取若干交通要素以构成交通搭乘信息,所述交通要素包括交通工具信息、起点信息、终点信息;
所述步骤 05 的操作包括:
根据交通搭乘的常见形式预设有交通搭乘信息对照表;
将句子按照交通搭乘信息对照表中的情形依次进行匹配,若匹配成功,则执行:
S1:将匹配结果拆分为短句子,并剔除句子中的干扰词;所述干扰词包括“乘客”、“同”、“搭乘人员”、“搭乘之日”;
S2:判断句子中是否存在“→”,若不存在跳至 S3,否则 S5;
S3:若句中的“乘”字数量,若数量大于或等于 2 则跳至 S4,否则 S5
S4:若“乘”字包含在地点信息内,则将“乘”字所在的地点信息作为备注信息,否则以“乘”字为分隔符拆分句子,并依次输入 S5;
S5:从句子当中提取起点信息、终点信息和交通工具信息;其中,句子包括以下任一种形式:
1)句中存在符号“→”,则以符号“→”为分割符进行分割以获得多个子句,继而从子句中识别并获取起点信息和终点信息;
2)句中含有预设的交通触发词“乘”,则提取交通触发词“乘”后的交通工具信息;
S6:设置交通工具表,若起点信息为空值且交通工具信息未包含交通工具表中的交通工具,则将提取到的终点信息后备注识别到的行为事件信息;
步骤06,信息输出展示步骤;
通过网页动态渲染,在网页中展示所述路径信息,居住地/常住地信息,交通搭乘信息中的一种或多种。
2.根据权利要求1所述的疫情新闻信息提取方法,其特征在于:
所述步骤01的操作包括:
步骤011,通过添加适当的请求头对爬虫程序进行伪装,避免新闻网站识别出爬虫程序而进行IP封禁;使用爬虫程序加载新闻网页并等待网页的所有元素加载完成;
步骤012,利用lxml库解析所获得的页面;
步骤013,利用Xpath表达式提取相对应html元素的内容,提取内容包括网页正文,所述网页正文由网页内所有的p标签内的内容拼接而成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010824197.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于实测数据的台区线损动态计算方法及装置
- 下一篇:一种薄膜卷取机
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





