[发明专利]一种面向人物表征的新闻文本发生地抽取方法有效
申请号: | 202011336057.0 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112307364B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 张宏莉;关皓天;王星;方滨兴;杨语晨;方依;孟超 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/29;G06F40/295;G06F40/30;G06N3/04;G06N3/00 |
代理公司: | 黑龙江立超同创知识产权代理有限责任公司 23217 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 人物 表征 新闻 文本 生地 抽取 方法 | ||
一种面向人物表征的新闻文本发生地抽取方法,属于信息提取领域,用以解决在人物表征过程中现有的命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题。本发明的技术要点包括,对新闻文本数据集中新闻文本进行预处理;对预处理后的新闻文本中的实体及实体类别、段落特征、句子特征、词特征进行标注;对标注后的新闻文本中的地名关系进行抽取,构建新的地名实体知识图谱;并采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取。本发明可用于新闻事件相关人物的特性表征。
技术领域
本发明涉及信息提取领域,具体涉及一种面向人物表征的新闻文本发生地抽取方法。
背景技术
目前,众多的研究人员就事件发生地抽取工作进行了广泛的研究。其中,有一些研究政治科学(political science)的研究人员提出了一些相关的研究成果。例如在一些相关工作中,作者分别以俄罗斯高加索地区(Russia’s North Caucasus)犯罪数据以及茅茅起义数据(Mau Mau rebellion)为数据集,分析事件发生地与政治事件之间的关系,两篇文章均使用了地名字典库作为事件发生地分析的依据,这种方式的优点是提高了地点识别的精准度(precision),但缺点是如果出现了其中不存在的地名便无法识别,模型也难以在其他系统中复用。
事件的分析需要对文本信息进行处理,识别文本中的位置名称是命名实体识别(NER)的一部分。目前,众多的研究人员就NER技术以及事件提取技术等方面进行了广泛的研究工作,并取得了很多重要的研究成果。Agarwal等提出的模型结合了Stanford NER工具和基于概念的词汇表,从推文中提取位置信息。为了从提取的位置短语中滤除噪声项,他们使用了具有以下三个特征的朴素贝叶斯分类器,分别是单词本身的POS标签,该单词前后各三个单词。为了消除地名的歧义,作者从世界地名录数据的倒排索引搜索和谷歌地图API的搜索组合中提取了经度和纬度信息用于地理位置的优化。Kazama等提出使用动词和多字名词之间依赖关系的大规模聚类来构建用于检测日文文本中的命名实体的地名词典。他们认为,由于依赖关系捕获了多个单词的语义,因此他们的集群字典是NER的一个很好的地名词典。此外,他们还将群集地名录与从维基百科中提取的地名词典相结合,以提高准确性。Ozer Ozdikis等提出了运用词汇之间的范式关系抽取Twitter文本中地点发生地的方式,由于其规定的范式有限,所以算法并不具有普适性;综上所述,现有技术在解决特定人物的表征问题时缺少对语义结构信息的分析,且当新闻文本中出现多个地名时难以分辨新闻发生的地点。
发明内容
鉴于以上问题,本发明提出一种面向人物表征的新闻文本发生地抽取方法,用以解决在人物表征过程中现有的命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题。
一种面向人物表征的新闻文本发生地抽取方法,包括以下步骤,
步骤一、建立新闻文本数据集;
步骤二、对新闻文本数据集中新闻文本进行预处理;
步骤三、利用命名实体识别算法对预处理后的新闻文本的句子中的实体及实体类别进行标注;
步骤四、对预处理后的新闻文本中的段落特征进行标注,包括段落文本类别特征提取、段落词性特征标注和段落语义依存关系标注;
步骤五、对预处理后的新闻文本中的句子特征进行标注,包括新闻文本与句子的类别特征提取,句子与标题的相对距离特征提取,句子标题相似度特征提取以及相邻句子相似度提取;
步骤六、对预处理后的新闻文本中的词特征进行标注,包括地名地理特征提取和地名频次特征提取;
步骤七、对经过步骤三、步骤四、步骤五、步骤六标注后的新闻文本中的发生地关系进行抽取,构建新的地名实体知识图谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011336057.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种名片夹自动组装线
- 下一篇:一种具有揭除印刷出腔贴纸的漏揭贴纸印刷机