[发明专利]文本联系实体提取方法、装置、设备及可读存储介质有效

专利信息
申请号: 202110532086.2 申请日: 2021-05-17
公开(公告)号: CN112989838B 公开(公告)日: 2021-08-31
发明(设计)人: 罗震震;张少游;关涛;向永清 申请(专利权)人: 北京智慧易科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/284
代理公司: 暂无信息 代理人: 暂无信息
地址: 100085 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 联系 实体 提取 方法 装置 设备 可读 存储 介质
【权利要求书】:

1.一种文本联系实体提取方法,其特征在于,所述实体为待监控的平台实体,所述方法包括:

获取用户输入的文本数据;

对所述文本数据进行预处理,得到预处理后的文本;

对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组,所述切分数组包括字符串中所处的位置索引、字符串原值、拼音、字符串转化值和字符串前后索引的距离值;

根据所述实体,获取所述实体对应的预先存储的关键词辅助提取信息,所述关键词辅助提取信息包括:所述切分数组中的字符串原值、拼音和字符串转化值;根据所述关键词辅助提取信息从所述切分数组中提取所述实体相关的关键词;

根据所述关键词提取对应的实体;

所述对所述文本数据进行预处理,得到预处理后的文本,包括:

对所述文本数据按照预设方式进行预处理操作,使得经过预处理的文本数据形成统一格式;

所述对所述文本数据按照预设方式进行预处理操作,包括:

对于用户输入的文本数据中存在转义字符的情形下,从用户输入的文本数据中提取转义字符,将转义字符转换为空字符;

对于用户输入的文本数据中存在unicode码的情形下,从用户输入的文本数据中提取unicode码,将unicode码转换为中文;

对于用户输入的文本数据中存在停止字符的情形下,从用户输入的文本数据中提取停止字符,将停止字符转换为空格;

根据预先存储的间隔字拆分对照表,在所述文本数据中存在索引、前后部首的情形下,根据索引将前后部首合并在一起,生成新字符;

对于用户输入的文本数据中存在连续空格字符的情形下,从用户输入的文本数据中提取连续空格字符,将连续空格字符转换为空字符。

2.一种文本联系实体提取装置,其特征在于,所述实体为待监控的非常规用户平台实体,所述装置包括:

获取模块,用于获取用户输入的文本数据;

预处理模块,用于对所述文本数据进行预处理,得到预处理后的文本;

切分模块,用于对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组,所述切分数组包括字符串中所处的位置索引、字符串原值、拼音、字符串转化值和字符串前后索引的距离值;

关键词提取模块,用于根据所述实体,获取所述实体对应的预先存储的关键词辅助提取信息,所述关键词辅助提取信息包括:所述切分数组中的字符串原值、拼音和字符串转化值;

根据所述关键词辅助提取信息从所述切分数组中提取所述实体相关的关键词;

实体提取模块,用于根据所述关键词提取对应的实体;

所述对所述文本数据进行预处理,得到预处理后的文本,包括:

对所述文本数据按照预设方式进行预处理操作,使得经过预处理的文本数据形成统一格式;

所述对所述文本数据按照预设方式进行预处理操作,包括:

对于用户输入的文本数据中存在转义字符的情形下,从用户输入的文本数据中提取转义字符,将转义字符转换为空字符;

对于用户输入的文本数据中存在unicode码的情形下,从用户输入的文本数据中提取unicode码,将unicode码转换为中文;

对于用户输入的文本数据中存在停止字符的情形下,从用户输入的文本数据中提取停止字符,将停止字符转换为空格;

根据预先存储的间隔字拆分对照表,在所述文本数据中存在索引、前后部首的情形下,根据索引将前后部首合并在一起,生成新字符;

对于用户输入的文本数据中存在连续空格字符的情形下,从用户输入的文本数据中提取连续空格字符,将连续空格字符转换为空字符。

3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。

4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,所述程序被执行时,能够实现如权利要求1所述的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧易科技有限公司,未经北京智慧易科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110532086.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top