[发明专利]一种共享图书系统中图书内容审核的方法在审

申请号：	201811084643.3	申请日：	2018-09-18
公开（公告）号：	CN109241013A	公开（公告）日：	2019-01-18
发明（设计）人：	蔡安;王勇	申请（专利权）人：	北京工业大学
主分类号：	G06F16/176	分类号：	G06F16/176;G06F16/33
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图书内容审核特征词图书系统用户共享共享逻辑回归模型图书文字文字内容训练过程元模型准确率解析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种共享图书系统中图书内容审核的方法，首先训练图书内容审核模型，在训练过程中基于N元模型对特征词进行扩展并计算每个特征词的权值，从而提高图书内容审核的准确率；然后解析用户共享图书中的文字内容，提取图书文字内容中的特征词并进行扩展；最后根据训练好的图书内容审核模型和从用户共享图书中提取到的特征词以及训练好的逻辑回归模型判断图书内容是否通过审核，从而实现共享图书系统中对于图书内容的自动审核。

技术领域

本发明属于共享图书技术领域，尤其涉及一种共享图书系统中图书内容自动审核的方法，进一步涉及一种通过训练图书内容审核模型和提取共享图书中的特征词来进行内容审核的方法。

背景技术

随着国民阅读率逐年提升，图书作为知识与信息的载体，具有被共享的需求和客观条件。共享图书系统不仅为人们提供了一种快捷获取图书资源的渠道，而且实现了对于闲置图书资源的再利用。对于共享图书平台来说，对共享图书的内容进行审核尤为重要。内容审核机制可以防止共享图书系统成为低俗信息流通的渠道，对于提高共享图书系统的可用性来说十分重要。但目前现存的大多数共享图书系统中都缺少对于图书内容审核的机制，少数具备图书审核模块的共享图书系统也仅限于通过人工审核的方式对共享图书内容进行检查。而人工审核图书内容的方式效率较低且出错率高，无法较好的满足图书内容审核的需求。

发明内容

本发明要解决的技术问题是，提供一种共享图书系统中图书内容审核的方法，使得用户共享的图书内容可以被自动审核；本发明通过训练图书内容审核模型和提取图书内容文本特征来实现此方法。

本方法首先训练图书内容审核模型，然后解析用户共享图书中的文字内容，之后提取文本内容中的特征词并进行扩展，最后通过得到的特征词和训练好的图书内容审核模型实现图书内容进行自动审核。

为实现上述目的，本发明采用以下技术方案：

步骤1：制作正负数据集，使用数据集训练图书内容审核模型。

步骤2：提取用户共享图书中的文字内容。

步骤3：从步骤2得到的文字内容中提取特征词并进行扩展。

步骤4：将步骤3得到的特征词放入步骤1所得模型得到审核结果。

作为优选，步骤1具体为：

步骤1.1：将包含敏感信息的文本内容归类为负数据集，将不包含敏感信息的文本内容归类为正数据集；

步骤1.2：分别对正数据集和负数据集中的文本内容进行分词；

步骤1.3：基于N-Gram算法提取并扩展特征词；