[发明专利]一种基于实体抽取的产业舆情推荐方法、装置及电子设备有效
申请号: | 202110039121.7 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112395410B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 孙会峰;邢婷;李健诚;金成振;易航 | 申请(专利权)人: | 北京智源人工智能研究院 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/36;G06F40/295 |
代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 抽取 产业 舆情 推荐 方法 装置 电子设备 | ||
本发明公开了一种基于实体抽取的产业舆情推荐方法、装置及电子设备方法,包括:获取产业舆情数据;基于命名实体识别模型从所述产业舆情数据中识别实体;根据所识别的实体为所述产业舆情数据生成标签;基于所述标签向用户推荐所述产业舆情数据。该方法能够有效解决现有的未细分到各产业各地区,新闻处理颗粒度较粗,且客群大多是针对个人用户,无法满足不同产业企业用户需求的问题。
技术领域
本发明涉及新闻文本处理技术领域,尤其涉及一种基于实体抽取的产业舆情推荐方法、装置及电子设备。
背景技术
对于企业而言,需要及时获取相关的新闻等舆情情报以调整经营行为,然而伴随着互联网的发展,新闻的数据量日益繁多,企业用户如何从大量新闻中,及时准确地获取有价值的新闻成为一个难点。目前的新闻推荐通常是针对个人用户的,大都是将新闻划分为经济、体育、娱乐等类型,结合用户浏览数据进行推送,技术实现较为简单,分类颗粒度较粗,其方案无法满足企业用户的需求。
发明内容
本发明提供了一种基于实体抽取的产业舆情推荐方法、装置及电子设备,以满足不同企业类用户准确获取所需的产业舆情的需求。
根据本发明的第一方面,提供了一种基于实体抽取的产业舆情推荐方法,包括:
获取产业舆情数据;
基于命名实体识别模型从所述产业舆情数据中识别预设类型的实体;
根据所识别的实体为所述产业舆情数据生成标签;
基于所述标签向用户推荐所述产业舆情数据,包括:获取用户关联企业的企业名称;基于所述企业名称和预先构建的企业知识图谱确定所述企业的地址、所属产业以及与所述企业关联的其它企业和/或个人;根据所述地点标签查找与所述企业的地址匹配的产业舆情数据,根据所述产业标签查找与所述企业所属产业匹配的产业舆情数据,根据所述个人标签和/或企业标签查找与所述企业关联的其它企业和/或个人匹配的产业舆情数据;将上述查找到的产业舆情数据推荐至所述用户。
进一步地,所述基于命名实体识别模型从所述产业舆情数据中识别实体包括:
将所述产业舆情数据转码为文本信息;
对所述文本信息进行数据预处理,获得包含预设类型的实体的语料;
将所述语料输入预先训练的命名实体识别模型,得到所述语料中每个字的BIO标签,所述BIO标签包括预设类型的信息;
根据所述BIO标签获取预设类型的实体。
进一步地,所述对所述文本信息进行数据预处理,获得包含预设类型的实体的语料包括:
基于预先建立的关键词表,利用正则表达式匹配获得包含预设类型的实体的语料,所述关键词表包括地区名称、企业名称、企业相关的个人姓名。
进一步地,所述预设类型的实体包括人物实体、地点实体、企业实体和产业实体,所述根据所识别的实体为所述产业舆情数据生成标签包括:
根据所述人物实体生成个人标签;
根据所述地点实体生成地点标签;
根据所述企业实体生成企业标签;
根据所述产业实体生成产业标签。
进一步地,所述基于所述标签向用户推荐所述产业舆情数据还包括:
获取所述用户的浏览记录;
根据所述用户的浏览记录查找与先前浏览内容相似的产业舆情数据,推荐至所述用户。
进一步地,按照下述方式预先训练所述命名实体识别模型:
获取产业舆情训练数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110039121.7/2.html,转载请声明来源钻瓜专利网。