[发明专利]一种基于特定行为共现网络的人物共现关系图谱构建方法有效
申请号: | 201610073885.7 | 申请日: | 2016-02-02 |
公开(公告)号: | CN105760439B | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 魏笔凡;闫彩霞;郑庆华;刘均;陈艳平;郑元浩;郝亚洲 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特定 行为 网络 人物 关系 图谱 构建 方法 | ||
本发明公开了一种基于特定行为共现网络的人物共现关系图谱构建方法。首先构建标准训练数据集和触发词表,用字符串匹配的方法,对所有待测试句子进行过滤得到候选特定行为句的集合;然后抽取标准训练数据集中所有句子的全词特征向量,用于训练SVM分类器识别特定行为,用训练好的SVM分类器对候选特定行为句进行分类,识别出特定行为句;最后构建出包含命名实体及其共现关系的特定行为共现网,在特定行为共现网的基础上构建人物共现关系图谱。本发明能在大量真实网络舆情数据上有效识别特定行为句,并在此基础上构建出特定行为共现网和人物共现关系图谱,为舆情分析提供新的可视化分析方法。
【技术领域】
本发明属于计算机应用领域,具体涉及一种基于特定行为共现网络的人物共现关系图谱构建方法。
【技术背景】
移动互联网和社交媒体的广泛使用,随之而来的是网民规模的迅速增长和网络数据的急速增加。网民在网络媒体上参与热点话题讨论的过程中,会对社会热点表达自己的观点,从而形成网络舆情。由于舆情信息的传播具有开放性和隐蔽性的特点,使其容易被利用,成为影响民众情感和判断、威胁社会公共安全的因素。网络舆情中最引人关注的是现实中发生的,民众热切关注和议论并蕴含有“破坏”、“危害”、“损失”等涉及公共安全或涉及司法公正的行为,这些特定行为通常会关系广大民众的切身利益,影响社会的安定和谐。因此,及时地发现这些行为并辨别其真伪至关重要。
在网络信息更新迅速,数据量十分庞大的今天,仅仅靠传统的人工搜索和识别难以对网上的海量信息进行及时和充分的收集和处理,更无法从庞大的舆情数据中准确发现所关注的特定行为。
目前,这一领域中很少有关于特定行为识别的相关研究和应用,类似的研究主要采用信息抽取中的事件抽取方法。如,专利1:一种中文事件的抽取方法及系统[申请号:201210182651.8]。该方法包括:将待抽取事件的文本依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练数据集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。再如专利2:事件触发词的扩展方法及系统[申请号:201210321193.1]。其中实施公开了一种中文事件触发词的扩展方法及系统,该方法利用已知触发词形态结构,结合义原相似度来扩展未知触发词,这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例。进一步的,在抽取事件时,能够识别出更多的事件实例,提高事件抽取系统的召回率。
但是,上述专利1和专利2在进行事件抽取的过程中都将事件的触发词作为事件抽取的标准,仅仅通过识别触发词和扩展触发词来决定触发词所在文本的事件类型,识别不够准确。
【发明内容】
本发明的目的是提供一种基于特定行为共现网络的人物共现关系图谱构建方法,通过构建特定行为共现网和特定行为共现网中的人物共现关系图谱,能够从海量舆情数据中迅速找到特定行为信息,方便查询和分析。
为达到以上目的,本发明是采取如下技术方案予以实现的:
包括如下步骤:
(1)候选特定行为句识别:首先对网络新闻文档集进行标注,构建包含特定行为正例和负例的标准训练数据集;其次是根据标准训练数据集构建包含所有特定行为对应的触发词的触发词表;最后根据触发词表,用字符串匹配的方法对所有待测试句子进行过滤,删除不含特定行为触发词的句子,得到候选特定行为句的集合;
(2)用分类器识别特定行为句:首先是抽取标准训练数据集中所有句子的全词特征向量;其次是用全词特征向量来训练SVM分类器;最后用训练好的SVM分类器对候选特定行为句进行分类,得到其中的特定行为句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610073885.7/2.html,转载请声明来源钻瓜专利网。