[发明专利]一种共享图书系统中图书内容审核的方法在审
申请号: | 201811084643.3 | 申请日: | 2018-09-18 |
公开(公告)号: | CN109241013A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 蔡安;王勇 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/176 | 分类号: | G06F16/176;G06F16/33 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图书内容 审核 特征词 图书系统 用户共享 共享 逻辑回归模型 图书文字 文字内容 训练过程 元模型 准确率 解析 | ||
本发明提供了一种共享图书系统中图书内容审核的方法,首先训练图书内容审核模型,在训练过程中基于N元模型对特征词进行扩展并计算每个特征词的权值,从而提高图书内容审核的准确率;然后解析用户共享图书中的文字内容,提取图书文字内容中的特征词并进行扩展;最后根据训练好的图书内容审核模型和从用户共享图书中提取到的特征词以及训练好的逻辑回归模型判断图书内容是否通过审核,从而实现共享图书系统中对于图书内容的自动审核。
技术领域
本发明属于共享图书技术领域,尤其涉及一种共享图书系统中图书内容自动审核的方法,进一步涉及一种通过训练图书内容审核模型和提取共享图书中的特征词来进行内容审核的方法。
背景技术
随着国民阅读率逐年提升,图书作为知识与信息的载体,具有被共享的需求和客观条件。共享图书系统不仅为人们提供了一种快捷获取图书资源的渠道,而且实现了对于闲置图书资源的再利用。对于共享图书平台来说,对共享图书的内容进行审核尤为重要。内容审核机制可以防止共享图书系统成为低俗信息流通的渠道,对于提高共享图书系统的可用性来说十分重要。但目前现存的大多数共享图书系统中都缺少对于图书内容审核的机制,少数具备图书审核模块的共享图书系统也仅限于通过人工审核的方式对共享图书内容进行检查。而人工审核图书内容的方式效率较低且出错率高,无法较好的满足图书内容审核的需求。
发明内容
本发明要解决的技术问题是,提供一种共享图书系统中图书内容审核的方法,使得用户共享的图书内容可以被自动审核;本发明通过训练图书内容审核模型和提取图书内容文本特征来实现此方法。
本方法首先训练图书内容审核模型,然后解析用户共享图书中的文字内容,之后提取文本内容中的特征词并进行扩展,最后通过得到的特征词和训练好的图书内容审核模型实现图书内容进行自动审核。
为实现上述目的,本发明采用以下技术方案:
步骤1:制作正负数据集,使用数据集训练图书内容审核模型。
步骤2:提取用户共享图书中的文字内容。
步骤3:从步骤2得到的文字内容中提取特征词并进行扩展。
步骤4:将步骤3得到的特征词放入步骤1所得模型得到审核结果。
作为优选,步骤1具体为:
步骤1.1:将包含敏感信息的文本内容归类为负数据集,将不包含敏感信息的文本内容归类为正数据集;
步骤1.2:分别对正数据集和负数据集中的文本内容进行分词;
步骤1.3:基于N-Gram算法提取并扩展特征词;
步骤1.4:根据公式(1-1)和公式(1-2)分别计算步骤1.3中每个特征词在正数据集中的词频TFp和在负数据集中的词频TFn,然后根据公式(1-3)得到每个特征词的权值IDF;
步骤1.5:将每个特征词和相应的权值IDF放入词袋模型;
作为优选,步骤3具体为:
步骤3.1:对步骤2得到的文字内容进行分词;
步骤3.2:基于N-Gram算法提取并扩展特征词。
作为优选,步骤4具体为:
步骤4.1:将步骤3得到的每个特征词与步骤1得到的词袋模型中的词语相匹配,得到每个特征词所对应的权值;
步骤4.2:将步骤4.1中得到的每个特征词的权值IDF放入预先训练好的逻辑回归模型中,将得到的结果与预设阈值进行比较,得到审核结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811084643.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟机文件处理方法及装置
- 下一篇:多方安全计算方法及装置、电子设备