[发明专利]文本联系实体提取方法、装置、设备及可读存储介质有效
申请号: | 202110532086.2 | 申请日: | 2021-05-17 |
公开(公告)号: | CN112989838B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 罗震震;张少游;关涛;向永清 | 申请(专利权)人: | 北京智慧易科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 联系 实体 提取 方法 装置 设备 可读 存储 介质 | ||
本公开一种文本联系实体提取方法、系统及设备,属于计算机技术领域,特别涉及一种文本联系实体提取方法,包括:获取用户输入的文本数据;对所述文本数据进行预处理,得到预处理后的文本;对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组;获取预先存储的关键词辅助提取信息,根据所述关键词辅助提取信息从所述切分数组中提取关键词;根据所述关键词提取实体。采用本方法能够快速、全面、准确的从用户输入的文本中识别出待监控的实体,进而有效监控、发现非法摄取平台流量的用户,切实保证平台利益。
技术领域
本公开属于计算机技术领域,特别涉及一种文本联系实体提取方法、装置、设备及可读存储介质。
背景技术
随着互联网技术的发展,各互联网平台层出不穷,为推广应用,增加用户量,各家平台通常推出为自身平台用户使用的平台流量。
各平台流量获取不易的背景下,一些用户为了攫取平台流量,特意跑到竞品软件采用发广告、炸屏等方式拉人头,将本属于该平台的流量诱导到其他平台,损害该平台利益。
本公开人经研究发现,现有技术中,在屏蔽非常规用户时,单纯的通过位数或者关键字提取文本进行检查、屏蔽竞品平台摄取流量,效果差强人意。
发明内容
为了至少解决上述技术问题,本公开提供了一种文本联系实体提取方法、装置、设备及可读存储介质。
根据本公开第一方面,提供了一种文本联系实体提取方法,包括:
获取用户输入的文本数据;
对所述文本数据进行预处理,得到预处理后的文本;
对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组;
获取预先存储的关键词辅助提取信息,根据所述关键词辅助提取信息从所述切分数组中提取关键词;
根据所述关键词提取实体。
进一步的,所述对所述文本数据进行预处理,得到预处理后的文本,包括:
对所述文本数据按照预设方式进行预处理操作,使得经过预处理的文本数据形成统一格式。
进一步的,所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在转义字符的情形下,从用户输入的文本数据中提取转义字符,将转义字符转换为空字符。。
进一步的,所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在unicode码的情形下,从用户输入的文本数据中提取unicode码,将unicode码转换为中文。
进一步的,所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在停止字符的情形下,从用户输入的文本数据中提取停止字符,将停止字符转换为空格。
进一步的,所述对所述文本数据按照预设方式进行预处理操作,包括:
根据预先存储的间隔字拆分对照表,在所述文本数据中存在索引、前后部首的情形下,根据索引将前后部首合并在一起,生成新字符。
进一步的,所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在连续空格字符的情形下,从用户输入的文本数据中提取连续空格字符,将连续空格字符转换为空字符。
根据本发明第二方面,提供一种文本联系实体提取装置,包括:
获取模块,用于获取用户输入的文本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧易科技有限公司,未经北京智慧易科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110532086.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种布料加工用浆纱机
- 下一篇:一种针对交通状况事件的交通引导方法及装置