[发明专利]一种面向人物表征的新闻文本发生地抽取方法有效
申请号: | 202011336057.0 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112307364B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 张宏莉;关皓天;王星;方滨兴;杨语晨;方依;孟超 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/29;G06F40/295;G06F40/30;G06N3/04;G06N3/00 |
代理公司: | 黑龙江立超同创知识产权代理有限责任公司 23217 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 人物 表征 新闻 文本 生地 抽取 方法 | ||
1.一种面向人物表征的新闻文本发生地抽取方法,其特征在于,包括以下步骤,
步骤一、建立新闻文本数据集;
步骤二、对新闻文本数据集中新闻文本进行预处理;
步骤三、利用命名实体识别算法对预处理后的新闻文本的句子中的实体及实体类别进行标注;
步骤四、对预处理后的新闻文本中的段落特征进行标注,包括段落文本类别特征提取、段落词性特征标注和段落语义依存关系标注;所述段落文本类别特征提取包括通过文本分类算法判断新闻文本所属类别;所述段落词性特征标注包括结合POS tagging词性标注方法构建Bi-LSTM模型,获得段落词性特征标注;所述段落语义依存关系标注包括通过对句子语义结构分析,获得段落语义依存关系标注;
步骤五、对预处理后的新闻文本中的句子特征进行标注,包括新闻文本与句子的类别特征提取,句子与标题的相对距离特征提取,句子标题相似度特征提取以及相邻句子相似度提取;
步骤六、对预处理后的新闻文本中的词特征进行标注,包括地名地理特征提取和地名频次特征提取;其中,所述地名地理特征提取包括对已知地名数据集及已知地名实体知识图谱信息的查询,获得地名的行政区划、经纬度;
步骤七、对经过步骤三、步骤四、步骤五、步骤六标注后的新闻文本中的发生地关系进行抽取,构建新的地名实体知识图谱;
步骤八、根据所述新的地名实体知识图谱,采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取;具体包括以下步骤:
步骤八一、使用动态扫描窗对待抽取新闻数据集进行多粒度扫描,获得待抽取新闻数据集的特征向量,以句中词语的依存关系为依据,由句中核心动词开始扫描,每次窗口中获取的特征为与当前特征存在语义依存关系的特征,直至无法获取依存关系结束;所述动态扫描窗为:
Wx=CxNx
其中,Wx表示动态扫描窗的长度;Cx表示动态扫描窗个数,Cx=1,...,Cmax,Cmax是扫描窗动态变化的最大个数;Nx表示每个特征向量的维数;
步骤八二、将得到的特征向量输入到级联森林模型中进行预测训练,获取新闻发生地抽取结果。
2.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤二中所述预处理包括缩略词处理、指代消解和词向量微调。
3.根据权利要求2所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,所述缩略词处理包括通过构建的缩略词词库将缩略词进行展开,以识别新闻文本中出现的指代性缩略词;所述指代消解包括通过对句子进行语义结构分析,将句子中的指代词替换为相对应的名词实物;所述词向量微调包括引入预训练语言模型Bert,根据新闻文本数据集对Bert模型生成的词向量进行微调,获得词向量结果。
4.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤五中所述新闻文本与句子的类别特征提取包括通过文本分类算法判断句子所属类别,并将该类别与段落文本类别特征进行比较来判断句子与整篇新闻文本的相关度;所述句子与段落标题的相对距离特征提取包括通过对新闻文本长度及句子,与新闻文本标题距离的计算,获得句子与段落标题的相对距离;所述句子标题相似度特征提取包括通过文本相似度算子计算句子与标题的相似度;所述相邻句子相似度提取包括通过文本相似度算子计算句子与其相邻句子的相似度。
5.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤六中所述地名频次特征提取包括结合地名地理特征获取的地名的出现频次特征对叫法不同但指代地点相同的地名进行分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011336057.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种名片夹自动组装线
- 下一篇:一种具有揭除印刷出腔贴纸的漏揭贴纸印刷机