[发明专利]一种网络不良文本内容的细粒度语义检测方法有效

申请号：	201210034888.1	申请日：	2012-02-16
公开（公告）号：	CN102609407A	公开（公告）日：	2012-07-25
发明（设计）人：	曾剑平	申请（专利权）人：	复旦大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;盛志范
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络不良文本内容细粒度语义检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于文本内容过滤技术领域，具体涉及一种网络不良文本信息内容的检测方法。

背景技术

目前互联网已经成为一种创造信息和共享信息的主要途径和空间，而随着各种网络论坛和社会化交互媒体的不断出现，每天都有大量的文本信息产生，如各种新闻报道、产品介绍、各种网络评论等等。而这其中，大量的不良文本信息内容充满各种网络空间。色情信息、暴力信息、网络谩骂等不良信息的出现对青少年的健康成长造成了很大的危害，并且对于上班族而言，不断地浏览这类信息，也导致工作效率的低下。因此，对于不良文本信息内容的检测已经成为互联网信息过滤的一个重要需求。而目前有多种检测过滤方法，可以实现网络不良信息内容的过滤。基本流程是，对要检测的Web页面进行信息提取，采用检测手段进行内容分析，根据设定的灵敏度进行结果的判定。而检测手段主要有关键词方法、文本内容分类方法、以及智能信息内容分析方法。

由于不良文本内容的制造者为了避免信息内容被计算机系统过滤，通常采用各种变换手段来实现他们的目的。而这其中最难于处理的是对具有语义不良性的文本内容的识别，也就因此成为文本内容过滤的主要技术发展方向。虽然在检测手段上人们进行了比较广泛的研究，也有不少的技术手段可以用来进行网络文本内容过滤，但是在面对语义不良内容、以及如何处理语义信息内容等问题方面，现有方法存在一定问题和不足，导致现实中的应用并不能令人满意。具体而言，所存在的问题列举如下：

1．依赖于一个关键词列表，如果是事先设定的，则难于适应内容创造者的各种形式上的变换；如果在检测中自行更新，则容易导致列表过大，并且大量并非不良的词汇被加入到列表中，导致产生大量的误检。但不管是事先设定还是自行更新，在面对语义不良内容的识别上都难于有好的效果。

2．采用分类思想来实现语义内容检测的方法需要事先建立分类模型，而模型的建立依赖于所提供的正类和反类的训练文本集。而这两类文本集在实际应用中并不容易构造，从而导致检测性能低下。

3．采用LSA（潜在语义分析）[1] 之类的简单语义分析技术的检测方法虽然考虑到语义识别，但是在语义空间的建立以及语义提取过程中，空间维数设定等主要方面存在难于解决的问题，使得在面对灵活多变的文本内容检测上性能不高。

4．在词汇、句子等细粒度层面上进行内容过滤，对于Web信息共享是非常关键的。而分类方法、简单的语义的分析方法在这方面存在一定缺陷。

由此可见，实现和提升不良文本内容的语义检测能力的同时，实现细粒度检测是非常关键的。现有方法在词汇设定、训练文本设定以及语义空间构建上存在不足，尚难于满足对不良语义文本内容检测过滤的要求。

发明内容

本发明的目的主要是针对现有各种文本信息内容过滤方法在进行语义识别中存在的不足，提出一种网络不良文本内容的细粒度语义检测方法。

本发明提出的网络不良文本内容的细粒度语义检测方法，围绕所引入的不良信息场景，构造以独立句子为基本单元的训练文本集，从而运用概率话题模型建立场景的数学描述。将待检测的Web页面进行信息内容提取，对文本信息进行句子识别，并基于所建立的概率话题模型，计算每个句子在该模型下的条件概率，在设定的内容检测敏感度下完成细粒度的语义检测。具体步骤如下：

1、场景的语义话题模型的建立。

（1）设定需要检测的不良信息场景，选择与该场景相关的句子，构造描述该场景的文本集。

（2）采用现有的分词方法[2]将文本集中的各个句子分割成独立的词序列，同时去除停用词，从而将整个文本集中的文本用单个词语来描述。

（3）为文本集构造词语频率矩阵，矩阵的行表示词语，列表示文档，矩阵中的元素表示词语在该文档中出现的频率。矩阵的大小为词语的总数×文档总数。

（4）设定话题数，并对词语频率矩阵使用LDA（隐狄利克雷分配）[3] 模型在这个空间中对这个文本集进行话题提取，得到文本集的语义话题描述。

2、基于语义话题模型的细粒度检测。

（1）对于待检测的Web页面，利用Html页面解析技术进行页面信息内容提取[4]。

（2）对提取后的文本信息，进行句子的识别和提取，并对每个句子进行如下处理：

（2-1）以话题模型的词汇表为维度，以词频为权重，建立句子的空间向量；

（2-2）计算句子向量相对于话题模型的似然值；

（2-3）判定似然值是否超过设定的检测敏感度，如果是则将该句子标注为不良；否则良性；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。