[发明专利]一种基于区块链的自动合成新闻的检测方法及系统有效
申请号: | 202110035612.4 | 申请日: | 2021-01-12 |
公开(公告)号: | CN113158646B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 毛典辉;黄晖煜;张青川;李海生;左敏;蔡强 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/35;G06N20/00 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 江亚平 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区块 自动 合成 新闻 检测 方法 系统 | ||
1.一种基于区块链的自动合成新闻的检测方法,其特征在于,包括:
步骤S1:将区块链上的新闻样本集,输入逻辑回归分类模型进行训练,得到初始的新闻分类结果;
步骤S2:根据所述新闻分类结果,利用激励机制对所述新闻样本集进行纠错;
步骤S3:通过生成网络,得到机器合成新闻样本,并与真实新闻样本一起输入判别网络进行判别训练,直到所述生成网络生成近似真实新闻特征分布的机器合成新闻样本;
步骤S4:计算所述新闻样本集中所述机器合成新闻样本和所述真实新闻样本的比例,如果所述比例超过预设的阈值,则将所述机器合成新闻样本加入所述新闻样本集,输入所述逻辑回归分类模型进行增量训练,得到更新后的新闻分类结果。
2.根据权利要求1所述的基于区块链的自动合成新闻的检测方法,其特征在于,所述步骤S1:将区块链上的新闻样本集,输入逻辑回归分类模型进行训练,得到初始的新闻分类结果,包括:
步骤S11:按照下述公式(1),在所述新闻样本集中加入n-gram特征;
其中,P(w1,w2,…,wm)表示为长度为m的语句出现概率;P(wi|wi-n-1,…,wi-1)表示词wi与前面n个词相关;
步骤S12:按照下述公式(2),利用TF-IDF算法对所述新闻样本集进行过滤;
其中,count(w)为词w的出现次数,|Di|为新闻Di中所有词的数量,N为所有的新闻样本的总数,I(w,Di)表示新闻Di是否包含词w;
步骤S13:将过滤后的所述新闻样本集,输入所述逻辑回归分类模型进行训练,得到初始的新闻分类结果。
3.根据权利要求2所述的基于区块链的自动合成新闻的检测方法,其特征在于,所述步骤S2:根据所述新闻分类结果,利用激励机制对所述新闻样本集进行纠错,包括:
步骤S21:在区块链中,每个贡献者提交新闻数据(x,y)时,需要支付押金d;其中,x为新闻数据,y为所述新闻数据的标签;
步骤S22:经过预设时间t后,如果所述逻辑回归分类模型h的分类结果还是h(x)==y,则退还全部押金d;如果h(x)≠y,且其他贡献者提交(x,y′),其中,y′是正确的标签,则对该纠正样本的贡献者按照下述公式(3)退还部分押金:
其中,r(cr,d)为纠正样本的贡献者的退还押金,n(c)为原始的贡献者c提交的不正确或无效新闻样本的数量,n(cr)为更正数据的贡献者cr的数量;
步骤S23:将纠错后的新闻样本更新至所述新闻样本集。
4.根据权利要求1所述的基于区块链的自动合成新闻的检测方法,其特征在于,所述步骤S3:通过生成网络,得到机器合成新闻样本,并与真实新闻样本一起输入判别网络进行判别训练,直到所述生成网络生成近似真实新闻特征分布的机器合成新闻样本,包括:
步骤S31:将随机的噪声样本输入生成网络G,得到机器合成新闻样本;
步骤S32:将所述机器合成新闻样本和真实新闻样本一起输入判别网络D,进行判别训练;其中,所述生成网络G和所述判别网络D按照下述GAN公式(4),进行判别训练;直到所述生成网络生成近似真实新闻特征分布的机器合成新闻样本,判别训练结束;
其中,GAN的目标优化函数为minGmaxDV(D,G);x为真实新闻样本;z为随机样本;pdata(x)为真实新闻样本服从的分布;pz(z)为随机样本服从的分布;G(z)为所述生成网络G生成的尽可能服从真实新闻样本分布pdata(x)的样本;E为计算期望值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110035612.4/1.html,转载请声明来源钻瓜专利网。