[发明专利]一种ZeroNet博客及论坛文本抓取及分析方法在审
申请号: | 202010716026.1 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111814068A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 过小宇;丁建伟;孙恩博;陈周国;黎艺泉;谢相菊 | 申请(专利权)人: | 中国电子科技集团公司第三十研究所 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 刘凯 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 zeronet 博客 论坛 文本 抓取 分析 方法 | ||
1.一种ZeroNet博客及论坛文本抓取及分析方法,其特征在于,首先调用浏览器进行模拟登陆获取网站数据,接着解析本地数据库获取文本内容,在获取文本后使用半监督LDA主题模型对文本进行建模分析并进行分类,基于建模结果能够预测新文本的类别,以实现对ZeroNet博客及论坛文本的监管。
2.根据权利要求1所述的一种ZeroNet博客及论坛文本抓取及分析方法,其特征在于,在所述获取网站数据之前,先进行初始化过程:
分析ZeroNet中主要导航网站的数据,提取其中的站点地址数据,构建网址数据库。
3.根据权利要求2所述的一种ZeroNet博客及论坛文本抓取及分析方法,其特征在于,所述获取网站数据包括以下步骤:
步骤11:打开ZeroNet应用及浏览器,利用ZeroNet网络Tracker节点通信协议与初始的Tracker节点建立网络连接以初始化网络环境;
步骤12:读取ZeroNet网址数据库中的博客及论坛网址,模拟真实环境下的访问过程,对博客及论坛网址进行遍历访问,上传访问成功的网站的本地数据存储路径,并标记为已访问;在延时后,继续循环遍历上次遍历中未成功访问的网站,延时时间能够手动设置;在循环固定次数或手动结束后。
4.根据权利要求3所述的一种ZeroNet博客及论坛文本抓取及分析方法,其特征在于,所述解析本地数据库获取文本内容包括以下步骤:
步骤21:读取成功访问网站的本地数据存储路径,解析路径中包含的网站签名集信息文件,并读取文件中的SQL数据库配置文件路径;
步骤22:根据SQL配置文件路径解析SQL配置文件,使用解析出的SQL语句解析博客及论坛网站的本地SQL数据库,获得该网站的文本内容,并进行语种识别;将语种分为中文、英文及其他语言三种语种并分别存储在不同路径下;
步骤23:对中英文文本分别进行预处理,并去除预处理后单词数小于设定个数的低语义文本,得到处理后的纯净文本。
5.根据权利要求4所述的一种ZeroNet博客及论坛文本抓取及分析方法,其特征在于,所述使用半监督LDA主题模型对文本进行建模分析并进行分类包括以下步骤:
步骤31:分别计算处理后的中文和英文文本的困惑度,返回困惑度曲线图;
步骤32:用户基于困惑度曲线设置合适的主题数,或设置自己期望的主题数;用户能够设置其他参数或使用默认参数;
步骤33:参数设置完成后,读取待建模文本进行模型初始化,接着开始建模生成初始建模结果;
步骤34:用户能够选择手动修改建模结果中的twords文件,去除每个主题下的噪声词或添加特征词到相应主题下以充当先验知识,并重新运行建模程序;此时读取上一次的建模结果和先验知识进行模型初始化,使得先验知识中每个主题下的特征词有更大的概率落到该主题中;之后每次循环运行都会重复本步骤以上内容,用户能够自由选择程序循环运行的次数,每一次程序运行结束后会储存当前建模结果,建模结束后进入步骤35;
步骤35:基于建模结果对文本使用贝叶斯推断,每次推断会重复三次取平均值,返回文本的主题矩阵,用户能够选择将概率最高的主题作为分类结果以实现文本分类,或将概率超过指定阈值的主题作为文本的标签从而实现多标签自动标记。
6.根据权利要求5所述的一种ZeroNet博客及论坛文本抓取及分析方法,其特征在于,所述步骤35能够对已存在的文本进行推断,或对新获取文本进行推断以预测从而实现对ZeroNet博客及论坛文本的监管;在已有建模结果的情况下,用户能够直接从步骤35开始开始进行推断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010716026.1/1.html,转载请声明来源钻瓜专利网。