[发明专利]风险识别方法及装置在审

申请号：	201910041221.6	申请日：	2019-01-16
公开（公告）号：	CN110032727A	公开（公告）日：	2019-07-19
发明（设计）人：	祝慧佳;周书恒;赵智源;郭亚;张正雄	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06Q10/06
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	许振新;朱文杰
地址：	英属开曼群岛大开***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	风险识别文本文本片段字数风险条件主题内容预设检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供了一种风险识别方法及装置，该方法包括：检测待识别文本的主题是否满足预设的风险条件；若是，则将待识别文本的主题内容确定为风险识别内容；若否，则确定待识别文本中是否具有包含风险词的风险文本片段，若具有，则将该风险文本片段确定为风险识别内容；基于所述风险识别内容对待识别文本进行识别；其中，待识别文本的字数超过第一设定字数。

技术领域

本申请涉及计算机技术领域，尤其涉及一种风险识别方法及装置。

背景技术

随着信息技术以及互联网技术的快速发展，现阶段，用户可以通过发帖、评论等方式，与他人进行互动，从而极大的增进了各用户之间的交流。即用户可以通过多种途径发表文本与他人进行互动。

为了保障用户之间的健康交流，一般需要对文本的内容进行审核，以查看文本内容中是否存在风险内容，如黄赌毒、暴恐政、广告等不良内容。一般情况下需要进行审核的文本长短不一，对于篇幅比较短的短文本可以直接使用风险识别模型进行风险识别，但是由于风险识别模型对于输入的文本有字数限制，因此，针对篇幅较长的长文本则无法直接输入风险识别模型进行风险识别。

因此，亟需提出一种方案，以便可以实现准确高效的对篇幅较长的文本进行风险识别。

发明内容

本说明书实施例的目的是提供一种风险识别方法及装置，在对超过第一设定字数的待识别文本进行风险识别时，先检测待识别文本的主题是否满足预设的风险条件；若是待识别文本的主题满足预设的风险识别条件，则认为待识别文本的风险内容出现在与主题相关的内容中，在这种情况下，为了提高风险识别效率，则直接对待识别文本的主题内容进行风险识别即可，识别效率较高；若是待识别文本的主题不满足预设的风险识别条件，则认为待识别文本的风险内容与主题内容无关，在这种情况下，为了提高对待识别文本的风险识别的准确性，则需要提取出待识别文本中的风险文本片段，基于风险文本片段对待识别文本进行风险识别；因此，本说明书实施例所提供的方法，可以同时兼顾风险识别的效率和准确性。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供了一种风险识别方法，包括：

检测待识别文本的主题是否满足预设的风险条件；其中，所述待识别文本的字数超过第一设定字数；

若是，则将所述待识别文本的主题内容确定为风险识别内容；若否，则确定所述待识别文本中是否具有包含风险词的风险文本片段，若具有，则将所述风险文本片段确定为风险识别内容；

基于所述风险识别内容对所述待识别文本进行风险识别。

本说明书实施例还提供了一种风险识别装置，包括：

检测模块，用于检测待识别文本的主题是否满足预设的风险条件；其中，所述待识别文本的字数超过第一设定字数；

确定模块，用于若所述待识别文本的主题满足预设的风险条件，则将所述待识别文本的主题内容确定为风险识别内容；若所述待识别文本的主题不满足预设的风险条件，则确定所述待识别文本中是否具有包含风险词的风险文本片段，若具有，则将所述风险文本片段确定为风险识别内容；

识别模块，用于基于所述风险识别内容对所述待识别文本进行风险识别。

本说明书实施例还提供了一种风险识别设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：