[发明专利]风险识别方法及装置在审
申请号: | 201910041221.6 | 申请日: | 2019-01-16 |
公开(公告)号: | CN110032727A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 祝慧佳;周书恒;赵智源;郭亚;张正雄 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q10/06 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 风险识别 文本 文本片段 字数 风险条件 主题内容 预设 检测 | ||
本说明书实施例提供了一种风险识别方法及装置,该方法包括:检测待识别文本的主题是否满足预设的风险条件;若是,则将待识别文本的主题内容确定为风险识别内容;若否,则确定待识别文本中是否具有包含风险词的风险文本片段,若具有,则将该风险文本片段确定为风险识别内容;基于所述风险识别内容对待识别文本进行识别;其中,待识别文本的字数超过第一设定字数。
技术领域
本申请涉及计算机技术领域,尤其涉及一种风险识别方法及装置。
背景技术
随着信息技术以及互联网技术的快速发展,现阶段,用户可以通过发帖、评论等方式,与他人进行互动,从而极大的增进了各用户之间的交流。即用户可以通过多种途径发表文本与他人进行互动。
为了保障用户之间的健康交流,一般需要对文本的内容进行审核,以查看文本内容中是否存在风险内容,如黄赌毒、暴恐政、广告等不良内容。一般情况下需要进行审核的文本长短不一,对于篇幅比较短的短文本可以直接使用风险识别模型进行风险识别,但是由于风险识别模型对于输入的文本有字数限制,因此,针对篇幅较长的长文本则无法直接输入风险识别模型进行风险识别。
因此,亟需提出一种方案,以便可以实现准确高效的对篇幅较长的文本进行风险识别。
发明内容
本说明书实施例的目的是提供一种风险识别方法及装置,在对超过第一设定字数的待识别文本进行风险识别时,先检测待识别文本的主题是否满足预设的风险条件;若是待识别文本的主题满足预设的风险识别条件,则认为待识别文本的风险内容出现在与主题相关的内容中,在这种情况下,为了提高风险识别效率,则直接对待识别文本的主题内容进行风险识别即可,识别效率较高;若是待识别文本的主题不满足预设的风险识别条件,则认为待识别文本的风险内容与主题内容无关,在这种情况下,为了提高对待识别文本的风险识别的准确性,则需要提取出待识别文本中的风险文本片段,基于风险文本片段对待识别文本进行风险识别;因此,本说明书实施例所提供的方法,可以同时兼顾风险识别的效率和准确性。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供了一种风险识别方法,包括:
检测待识别文本的主题是否满足预设的风险条件;其中,所述待识别文本的字数超过第一设定字数;
若是,则将所述待识别文本的主题内容确定为风险识别内容;若否,则确定所述待识别文本中是否具有包含风险词的风险文本片段,若具有,则将所述风险文本片段确定为风险识别内容;
基于所述风险识别内容对所述待识别文本进行风险识别。
本说明书实施例还提供了一种风险识别装置,包括:
检测模块,用于检测待识别文本的主题是否满足预设的风险条件;其中,所述待识别文本的字数超过第一设定字数;
确定模块,用于若所述待识别文本的主题满足预设的风险条件,则将所述待识别文本的主题内容确定为风险识别内容;若所述待识别文本的主题不满足预设的风险条件,则确定所述待识别文本中是否具有包含风险词的风险文本片段,若具有,则将所述风险文本片段确定为风险识别内容;
识别模块,用于基于所述风险识别内容对所述待识别文本进行风险识别。
本说明书实施例还提供了一种风险识别设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
检测待识别文本的主题是否满足预设的风险条件;其中,所述待识别文本的字数超过第一设定字数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910041221.6/2.html,转载请声明来源钻瓜专利网。