明确内容检测系统:一个方法向一个安全的和道德环境

文摘

一个显式的内容检测(ECD)系统检测不适合工作(NSFW)媒体(即。,提出了图像/视频)的内容。拟议中的儿童早期开发系统是基于网络(即残余。,deep learning model) which returns a probability to indicate the explicitness in media content. The value is further compared with a defined threshold to decide whether the content is explicit or nonexplicit. The proposed system not only differentiates between explicit/nonexplicit contents but also indicates the degree of explicitness in any media content, i.e., high, medium, or low. In addition, the system also identifies the media files with tampered extension and label them as suspicious. The experimental result shows that the proposed model provides an accuracy of ~ 95% when tested on our image and video datasets.

1。介绍

随着现代技术的出现,信息及其在互联网上可访问性大大增加。此外,人们越来越容易获得一般信息+成人信息(成人图片,视频和动画)尤其是年轻人这是一个令人担忧的迹象。为了防止年轻人访问这样的成人内容是现代社会所面临的重大挑战之一。一个解决方案是建立一个机制,可以检测和过滤数据量的成人内容。然而,准确地确定成人媒体内容从一堆信息是一个重要的需要考虑的约束条件。成人媒体内容可分为暴露身体的内容,详细的性感部分内容,和色情行动1]。

与成人内容过滤媒体在互联网上是必要的,以避免攻击性内容的。在文学,不同的应用程序来限制这种成人内容的可访问性等电脑存在阻止不受欢迎的网站(有人称“万维网”)表示担忧,CyberPatrol NetNanny, Family.net和K9 Web保护(2])或确定明确的内容媒体(SurfRecon,色情检测(3])。此外,许多研究人员将他们的研究重点放在发展明确内容检测机制,媒体内容使用不同的技术,如皮肤的识别区域,皮肤检测,YCbCr空间颜色和HSV颜色模型(1- - - - - -4]。

一个显式的内容检测(ECD)系统开发和实施研究工作通过使用深度学习的解决方案不适合/安全工作(NSFW)媒体(图片、视频)的内容。基于图像处理的方法,肤色检测和模式识别技术。在第一步中,YCbCr颜色空间是用来变换图像分类各种对象不感兴趣的。其次,肤色检测图像的阈值计算过滤各种段内现有的图像。最后图像明确性概率估计确定图像包含明确的内容。

的关键亮点提出儿童早期开发系统包括以下:(i)是一个开源的系统,(2)计算效率,(iii)高度健壮,和(iv)易于部署在多个模式,包括独立的个人桌面,代理服务器,专用服务器内容过滤系统来检测或限制明确的内容。本文组织如下。节2,明确内容检测相关研究工作进行了探讨。整个系统架构提出了部分3,紧随其后的是一个详细的解释模型中描述的部分4。部分5提出并讨论了所有的仿真结果。最后,本文的结论部分6。

研究的主要目标是强调如下:(一)开发一个显式的内容检测(ECD)系统(b)儿童早期开发的软件应用系统(我)检查所选文件破坏扩展。(2)检测图像和基于显式的明确性将它们标记为高,中,低。(3)检测明确视频和基于明确性将它们标记为度高,中,低。

许多以前的作品已经专注于发展明确内容检测机制等媒体内容基于不同的技术鉴定的皮肤区域,皮肤检测,YCbCr空间颜色和HSV颜色模型。这些作品中可以找到的细节(1- - - - - -10]。

一个显式的内容检测算法,利用支持向量机(SVM)分类,提出了(1]。支持向量机方法是建立在统计学习理论基础,有助于预测,分析,优化,确定明确的内容在一个图像。该模型是一个三步过程包括(i)皮肤过滤(皮肤是最重要的一个特征在图像检测直言不讳,(ii)属性(皮肤百分比,pornography-weight,皮肤区域几何分布,皮肤像素相关性,hair-inside-body,和skin-region-smoothness),和(3)SVM-prediction(训练SVM模型使用了六个属性)。然而,拟议的工作已经非常低的预测精度,即。,the model predicts images in which people wear short clothes (bikinis, shorts) as explicit; that is not true. In addition, the work is not valid for videos.

所做的功(2)采用皮肤区域识别方法。提出工作采用HSV颜色模型是一个综合的方法分组和YIQ YUV模型。该方法首先使用白平衡算法来实现更好的皮肤区域。接下来,基于灰度级的纹理模型comatrix和人类几何结构应用于降低干扰的背景区域,类似于皮肤区域。最后,SVM模型用于转换图像成功形象明确和nonexplicit进行分类。

在[3),调查各种皮肤的建模和分类方法中使用颜色信息的视觉范围。评审关注空间用于肤色建模和检测和使用肤色恒常性和动态适应技术采用各种方法来改善皮肤的检测性能在模棱两可的环境条件。此外,本文还指出了各种因素下皮肤检测技术表现良好。

在[4检测算法),一个明确的内容,这使得使用皮肤区域检测算法。拟议的工作是基于HSV颜色模型,而不是RGB颜色模型来检测皮肤图像的RGB颜色模型是接触到一些照明问题。HSV模型不仅提高了照明问题,而且图像的肤色的可见性。提出系统制定只有皮肤像素输出和基于像素值图像检测到的明确性。肤色像素的图像有较大的值被称为明确。进一步在5),作者扩展中提出的方法(4),评估其性能复杂的数据集。

在对比中提出的方法(5),一个明确的内容检测模型,提出了利用YCbCr空间颜色(6]。该模型的关键目标是应用法医分析或色情图片的模型检测硬盘等存储设备,USB记忆等。该模型估计图像中的颜色像素百分比,皮肤易受是一个基调。换句话说,皮肤比和比例的内容在一个给定的图像对的总图像计算(#肤色像素/ #图像像素总)。一旦皮肤百分比计算它与一个特定的阈值定义显式或nonexplicit标记图像。如果该值大于阈值则分为显式定义和其他nonexplicit。该方法只适用于识别和分类明确性/ nonexplicitness(即图像。,而不是适用于视频)。

一种新方法检测介绍了色情图片(7]。该方法显示两个新特性,即。,Fourier descriptors and signature of boundary of skin region. These two features in combination with other simple traditional features provide decent difference between explicit and nonexplicit images. Moreover, a fuzzy integral based information fusion is applied to combine MLP (Multi-Layer Perceptron) and NF (Neuro-Fuzzy) outputs. The proposed method attained precision was 93% in TP and 8% in FP on training dataset, and 87% and 5.5% on test dataset.

在[8),深层神经网络实现检测明确内容。深层神经网络通常是困难的训练。提出利用剩余工作基础学习放松训练过程和明显比传统的。识别和检测精度提高通过增加深度。此外,雅虎还开发了一个模型称为Open_NSFW。雅虎模型使用CaffeOnSpark(分布式学习框架)培训模型实验。我们使用这个模型转换为系统识别是否输入图像是显式的。

色情图像识别使用皮肤概率和主成分分析(PCA) YCbCr彩色空间提出了(9,10]。本文旨在优化的准确性和虚假的废品率皮肤概率和使用PCA融合基于描述符的识别系统。该方法实验证明它能提高精度约4.0%,减少20.6%的色情识别使用的玻璃钢融合描述符在大型数据集上测试过。拟议的方法也可以快速识别需要0.12秒/形象。

上述讨论明确内容检测模型暴露一些问题,如不当检测肤色,闪电的问题,和不准确的预测,大部分模型仅局限于图像内容。此外,大多数的研究工作只是建模和仿真水平有限,没有适当的在应用程序级别实现。

特别是,我们建议的模型是基于剩余网络由雅虎适应援助直言不讳的检测在图像和视频。关键的区别是,提出明确的内容检测(ECD)系统不仅限于建模和模拟的水平,而且在应用程序级别实现。该系统可以检测任何NSFW媒体内容的存储设备。此外,我们雅虎NSFW重新训练模型,基于CaffeOnSpark框架,使用薄Resnet-50 1×2(基于Resnet-50) [11体系结构如图1pretrained网络,来调整权重的模型基于我们自己的图片和视频创建数据集。

3所示。概述提出明确的内容检测(ECD)系统

从早前的讨论中,有必要开发明确内容检测(ECD)系统,不仅内容分类明确,nonexplicit,和怀疑,但也应该需要可伸缩、快速、准确。

在我们提出儿童早期开发系统如图2(也就是,我们把一个文件或目录。,multiple files) as an input and check for the content types’ (i.e., image/video/non-image file). Each identified image/video file will be passed to ECD-CNN model for the classification of content as explicit, nonexplicit based on predefined threshold probability.(我)图像文件的系统只是将文件转发ECD-CNN模型内容分类。(2)的视频文件系统只从视频中提取帧,将每个提取帧视为一个图像。分析每一帧视频可以繁琐和麻烦。主要有至少15 fps(即。,frames per second) in each video (i.e., a 5-minute video would have 4500 frames). To encounter such issue the video frames are randomly shuffled and optimal stopping criteria are applied on them that will help in boosting the software system. Later, it will be forwarded to ECD-CNN model for content classification.(3)如果内容是一个图像或视频,但扩展干扰,则系统简单的标签是可疑的。对于非文件系统会简单地忽略它,继续进一步处理。

Tika类的一个对象调用检测(文件文件)方法返回一个字符串,其中包含文件类型(即。指定文件扩展名)和文件内容类型(即。,extracted from the header of the file) which represents the original file type separated by “/”. If both parts of the string represent same type then our application marked it as normal file (i.e., non-image file), whereas if the first part is a non-image file type and second part represents an image file, then our application marks the file as suspicious.

在接下来的部分,我们将讨论的不同阶段提出了儿童早期开发系统的图像和视频文件。

3.1。阶段1:搜索和内容类型检测

在此阶段,所选目录转发媒体文件的扫描。在扫描过程中,内容类型(图片/视频/非)文件的检查。在非图片文件的情况下,如果对应的头文件任何合法的图像格式文件扩展名是调和,然后提出了系统标签(即是怀疑。,我们已经将Apache Tika API验证文件的内容分配的扩展);其他文件(即它忽略了。,it is not a valid image/video file; therefore no further action is required) as shown in Figure2。

3.2。阶段2:分类为显式和Nonexplicit内容

一旦内容类型确定为图像或视频,内容是通过下一阶段。、明确内容检测模块如图2。这一阶段对每种内容类型产生不一样的效果(图片、视频),可以分为图像明确内容检测模块对图像和视频的内容检测模块视频,解释如下。

3.2.1之上。明确内容检测

扫描图像的内容首先被编码成BASE64字符串,然后一个接一个传递给web服务器。在服务器端,接收到的BASE64编码的字符串解码图像到图像文件和传递给我们的ECD-CNN模型(即。,我们ECD-CNN模型使用CaffeNet深度学习框架(8)分类成显式/ nonexplicit如图3。拟议中的ECD-CNN是Resnet-50 1×2卷积深度学习神经网络的扩展形式实际Resnet-50架构(8]。CaffeNet是一个强大的框架,该框架允许使用其他研究者提出的现有模型,扩展任何现有的模型,或从头开始构建一个新的模型。我们可以扩展或创建一个新的模型通过定义所需的数量和类型的层CaffeNet配置文件(即。必须,CaffeNet配置文件。prototxt文件扩展名)。

图4定义了细节提出使用CaffeNet Resnet-50 1×2体系结构。拟议中的ECD-CNN(即。,Resnet-50 1 by 2) consists of 50 layers divided into 5 convolutions in total, with each layer having stride size of 2. Relu function is applied to each layer to gain output for the said layer, which becomes the input for the next layer and to the layer after that. Each color differentiates one convolutional layer from others. After 1st convolutional layer maximum pooling is done and output is forwarded as input to the next convolution layer. For the remaining convolutional layers (i.e., from 2nd to 5th convolutional layer), output of the current convolutional layer will become input for the next convolutional layer. The dotted line after each convolution is called shortcut which is added to prevent the vanishing gradient problem. The proposed Resnet-50 1 by 2 architecture uses half (i.e., 1/2) number of inputs as compared with the existing Resnet-50 architecture. In the proposed ECD-CNN architecture (i.e., Resnet-50 1 by 2) the number of inputs is reduced to achieve better computational complexity without compromising the classification accuracy of the model (i.e., we have proved the accuracy of the model using our prediction accuracy in the result section).

2日卷积3残余网络各有三层。第三层有4个残余网络各有三层。第四层有6残余网络各有三层。第五层有3个残余网络各有三层。完成后5日卷积层平均池和softmax函数应用在输出层获得概率从0到1。

在第四步中,我们训练和优化模型,得到训练模型在一个文件中。caffemodel。现在我们可以使用训练有素的训练后模型的预测。数据库用于测试该模型可以发现12]。

我们剩余网络模型处理后图像返回一个概率值介于0和1的NSFW得分的形象。比分是比较的阈值设置为0.6 (nonexplicit < 0.6≥显式)来定义图像内容明确或nonexplicit。阈值0.6是被广泛运行和试验方法。2000数据集显式/ nonexplicit图片用于训练系统找到合适的阈值。系统测试在不同的阈值从0.1到1的间隔0.1和接受者操作特征(ROC)曲线,如图5获得了卓越的阈值区分明确和nonexplicit图像。

此外,如果图像被标记为显式图像基于内容的系统还检查图像内容的明确性,即。,低、中或高基于阈值标准中定义的表1。


水平	阈值

低	概率值> = 0.6 < 0.7

媒介	概率值> = 0.7 < 0.8

高	概率值> = 0.8 < 1

整个过程的伪代码中定义图像基于内容的系统1。

函数ImageModule (ImageFilePath)
如果不是一个合法的映像扩展延伸
/ /标签的文件可疑的
其他的
Image.Encode ();/它base64编码的字符串
Base64字符串传递到web服务。
Web服务将返回的概率
我的形象。e文件NSFW(或SFW。/
如果returnedProbabiltyValue > = 0.6和< 0.7然后
模型。状态=低;/映像包含低水平明确的内容/
其他的如果returnedProbabiltyValue > = 0.7和< 0.8然后
模型。状态=媒介;/映像包含中等水平明确内容/
其他的如果returnedProbabiltyValue > = 0.8和< 1然后
模型。状态=高;/映像包含高度明确的内容/
其他的
模型。状态= Non_Explicit;/图像不包含任何显式的内容/
ENDFUNCTION

3.2.2。基于内容的视频系统

的视频内容,明确的视频内容模块如图6被选中。它最初提取所有的帧(视为图像)使用“javacv.FfmpegFrameGrabber”从随机打乱的视频和应用最优停止标准,提高软件系统的效率的提取和处理视频需要大量的计算。

最优停止标准算法的第一选择帧的视频编码(基地64)然后解码成图像文件在服务器端为NSFW概率的决心。在服务器端,解码图像文件通过CaffeNet模型,该模型首先发现最大概率在所有框架,并使用这个概率继续进一步分析。(即ECD-CNN模型将图像。,a video frame) as input and returns the probability of the associated explicitness in the given image.

如果最大的概率低于0.6就停止进一步的处理和声明当前视频nonexplicit(即。,这是最好的情况下计算时间,因为我们只有扫描帧)。然而,如果概率是0.6或更多则将使用这个概率作为阈值概率剩下的视频帧。它进一步检查每一帧一个接一个的概率阈值概率。如果任何框架超过阈值的概率(即。设定的,帧),那么它立即停止进一步的执行和当前视频显式(即声明。,this becomes average case in terms of computational time because on average we have scanned onlyFrames_Count / 2帧)。然后,如果现有的框架都没有超过阈值概率则声明为nonexplicit(即当前视频。,this becomes worst case in terms of computational time because we scan all individual frames of the video that need to be scanned).

整个过程的视频基于内容的模块中定义的伪代码2。

函数VideoModule ()
如果模型检测是视频
如果不是一个合法的视频扩展延伸然后
标签文件可疑的
其他的
numberOfFrames =得到numberOfFrames (Video_Path)
/做抽样总帧数的平方根/
n = doRandomShuffle (numberOfFrames)
/选择rFrames = ()帧到服务器并得到其概率值从0 - 1/
ArrayList <二> rFramesVals新ArrayList < > ();
/存储tempVar没有概率值/
FOREACHf rFrames
rFramesVals.add (getExplicitProbability (f))
/现在,每一帧的概率在rFrames并将它存储在rFramesVals列表/
如果所有在rFramesVals <阈值的值然后
模型。isExplicit =假;
其他的
/的价值就是rFramesValsand高于阈值的数组
将其存储在变量opt_threshold/
/现在挑选剩下的帧异常和比较值与opt_thresholduntil所有帧
检查或任何框架大于opt_thresholdis发现/
如果任何框架大于opt_thresholdis发现然后
模型。isExplicit =真正的;
其他的
模型。isExplicit =假;
ENDFUNCTION

儿童早期开发系统的整个流程中定义的伪代码3。

输入:一个文件或目录
输出:报告识别SFW NSFW和可疑的内容。
函数儿童早期开发
而没有完全遍历目录
ArrayList <模型> data = getfile (Paths.get (currentFilePath));/把所有所选目录中的文件/
结束时
FOREACH模型数据
每个模型的数据类型使用ApacheTika.detect (CurrentFilePath)
FOREACH结束
如果CurrentFileisMedia然后
如果CurrentFileisImage然后
ImageModule ();
其他的如果CurrentFileisVideo然后
VideoModule ();
其他的
/ /忽略,去下一个
GenrateReport ();
ENDFUNCTION

4所示。明确内容探测器(ECD)系统软件

在本节中,提出儿童早期开发作为应用软件系统实现进行了探讨。前端的软件包含一个进度条,选择开车,开始搜索按钮,浏览位置,取消按钮和信息区域,如图7。

4.1。进度条

使用进度条显示了扫描文件夹或驱动器的状态中寻找明确的内容。在图所示的进展8。

4.2。选择开车

它允许用户选择驱动器必须明确内容的扫描。

4.3。开始搜索

一旦被选中的驱动器或文件夹开始搜索按钮用于启动扫描选定的驱动器或文件夹,如图9。

4.4。浏览的位置

浏览位置选择的特定文件夹扫描。单击browse定位按钮后会出现一个对话框显示列表的图片被选中的文件夹。

4.5。信息

图10显示每个媒体文件的扫描进度与位置、文件名和类型(即。,either explicit or nonexplicit) of selected folder/drive being scanned by the ECD system.

4.6。取消

在扫描的过程中如果单击取消按钮时,扫描将会停止,输出结果到取消的时间将显示出来。

4.7。输出结果

这个盒子显示扫描文件和驱动器的输出结果。

5。实验结果

以下的评价提出了儿童早期开发系统的图像和视频内容。一组测试媒体数据(即。,images and videos) is applied to evaluate its performance. In order to obtain a significant amount of testing data for the proposed approach, we have created datasets of 2000 explicit/nonexplicit images and 1000 explicit/nonexplicit videos from the Internet with the content categorized as low, medium, and high. The explicit content contains naked as well as seminaked people with various skin tones whereas nonexplicit content by its nature does not contain explicit content and includes dressed people, trees, wildlife, flowers, automotive, cartoons, and landscapes. The images are about 640 × 480 pixels (cropped to the field of interest, still more challenging than standard ones), while the videos are of 1 MB each containing 100 frames. Each image and video was selected with different exposures, skin tones, and lighting conditions and are labeled as “highly explicit”, “medium explicit”, and “low explicit” for high content, medium content, and low content, respectively, to efficiently train the proposed ECD system for accuracy. In addition, an optimal stopping criterion is applied for video after running ECD on dataset to get balanced output.

实验装置涉及的实现提出了儿童早期开发系统的图像和视频内容。儿童早期开发系统需要效率和准确性;然而,两者都是亦然。为了获得大量的效率和准确性ECD必须检查在不同的视频和图像通过它可以训练儿童早期开发的效率和准确性。此外,分类误差采用混淆矩阵也计算来评估系统的性能。分类误差允许更详细的分析数据的精度,精度可能会导致某些误导的结果如果不平衡数据集(大的变化观察不同的类)。

5.1。儿童早期开发系统的应用程序显式/ Nonexplicit图像数据集

在本节中,提出了儿童早期开发系统的性能评估为显式/ nonexplicit图像数据集来验证它的效率和准确性。

结果呈现在图11显示,该系统在1000年应用到数据集显式图像不仅检测暴露图片正确而且分类根据内容类型为低,中,高(显示为蓝色圆点)。此外,还观察到的图像错误检测(显示为红点)。

图12显示的结果提出了儿童早期开发系统应用到一个1000 nonexplicit图像的数据集。该方案检测nonexplicit图像准确(显示为蓝色圆点)只有几个实例不准确的图像的检测(显示为红点)。

在图13,2000年的完整数据集显式/ nonexplicit图片是用来评估该系统的性能。该方案执行,检测明确(蓝点)和nonexplicit图像准确(红点)以及强调明确内容图像低,中,和高(显示为黑色虚线)。除此之外,还应该指出的是,只有少数的实例不准确的图像的检测与黑色圆(绿点)也在场。错误是由于数据集包含各种图像有不同的肤色,闪电,暴露可能导致一些预测错误。

表2代表明确的分类精度,nonexplicit和总和。从表中可以观察到,该系统提供91.3%和98.5%的准确率的数据集显式和nonexplicit图像,分别。此外,结合分类精度显式和nonexplicit是95%。


类型	总图像	正确的输出	错误的输出	精度

显式的	1000年	913年	87年	91.30%

Non-Explicit	1000年	981年	19	98.10%

结合	2000年	1894年	106年	94.70%

表3显示了混合矩阵和TPR,玻璃钢,精度,提出了儿童早期开发系统的准确性,f1分数的测试数据集显式和nonexplicit图像。测试数据集包含相同数量的明确和nonexplicit图像(即。,1000明确和1000 nonexplicit图片)。混淆矩阵,它可以观察到,该方法正确分类913暴露图片和981 nonexplicit图像。只有87个明确和19个nonexplicit图像被提议的系统被误诊。


N = 2000	实际的显式	实际NON-EXPLICIT

预测:显式	913年	19

预测:NON-EXPLICIT	87年	981年

真阳性率(灵敏度)= 0.913,假阳性率= 0.019
精度= 0.9796,精度= 0.9470,F1的分数= 0.9451

表4显示了混合矩阵和TPR,玻璃钢,精度、准确性,f1的分数提出YCBCR分类算法基于相同的测试数据集使用的显式和nonexplicit图像作为我们的儿童早期开发系统。混淆矩阵,它可以观察到YCBCR方法正确分类578暴露图片和780 nonexplicit图像。422年,明确和220 nonexplicit图像分类错误的。


N = 2000	实际:显式	实际:NON-EXPLICIT

预测:显式	578年	220年

预测:NON-EXPLICIT	422年	780年

真阳性率(灵敏度)= 0.578,假阳性率= 0.2200
精度= 0.7243,精度= 0.6790,F1的分数= 0.6429

提到这是很重要的,我们的知识(即。,literature search on renowned research literature repositories) none of the other schemes have published their code and datasets due to the nature of the data. Therefore, we have implemented YCBCR algorithm and tested it on the same dataset to compare with our proposed ECD approach. The results for YCBCR as shown in Table4得到实施后[中提到的方法6),相比之下,结果见表3儿童早期开发的方法。比较分析表明,该方法提供了重要的改进的TPR 0.913和0.578,玻璃钢是0.019和0.22,精度是0.9796和0.7243,精度是0.9470和0.6790,和F1得分0.9451和0.6429 YCBCR方法。

5.2。儿童早期开发的应用系统显式/ Nonexplicit视频数据集

在本节中,提出儿童早期开发系统的性能评估明确/ nonexplicit视频数据集来验证它的效率和准确性。

结果呈现在图14表明,该系统在500年应用到数据集显式视频检测明确视频基于内容类型为低,中,高(显示为蓝色圆点)正确。此外,它还可以看到一些视频的错误检测(显示为红点)。数据准确性93%被发现只有7%的错误检测。

图15显示的结果提出了儿童早期开发系统应用于数据集500 nonexplicit视频。该方案检测nonexplicit图像准确,即。,97% (blue dots), with only little inaccurate images' detection, i.e., 3% (red dots).

在图16,1000年的联合数据集显式和nonexplicit视频是用来评估该系统的性能。该方案有效地检测明确(蓝点)和nonexplicit(红点)视频,色情视频标记为低,中,高(显示为黑色虚线)基于内容。此外,还应该指出的是,只有少数的实例不准确的图像的检测(绿点黑色圆)也在场。准确的百分比检测是在更高的方面,即。,95%,只有5%的准确检测。错误是由于各种因素(肤色、闪电和暴露)的视频数据集包含可能导致一些预测错误。

在表5,分类提出了儿童早期开发系统的误差进行了分析通过使用混乱表视频数据集。表中给出的结果3500年数据集显式,500 nonexplicit视频。的结果,它可以观察到,正常工作分类465年提出明确的视频,只有35被错误地归类为nonexplicit 500。同样,500年nonexplicit视频,485被正确分类,15被错误地归类为显式。


N = 1000	实际:显式	实际:NON-EXPLICIT

预测:显式	465年	15

预测:NON-EXPLICIT	35	485年

真阳性率(灵敏度)= 0.9300,假阳性率= 0.0300
精度= 0.9688,精度= 0.9500,F1的分数= 0.9490

6。结论

这个系统的主要目的是提供父母的监视这些内容或材料不符合伦理道德的行为对社会有益。提出了儿童早期开发系统的关键点(i)是一个开源的系统,(2)计算效率,(iii)高度健壮,和(iv)易于部署在多个模式,包括独立的个人桌面,代理服务器,专用服务器内容过滤系统来检测或限制明确的内容。

获得的结果通过应用提出系统真实数据(即。、图像/视频)明显证明了其准确性(即。,~95%) in classifying NSFW contents from non-NSFW content. Further, the accuracy of the proposed technique also significantly outperforms the accuracy of YCBCR based approach on the same test dataset [12]。因此,我们强烈建议,提出系统在现实环境的部署。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

引用

林y . c、h·w·曾和c . s .,“色情使用支持向量机检测,”学报16 IPPR会议在计算机视觉、图形和图像处理(CVGIP ' 03),19卷,第130 - 123页,2003年。视图:谷歌学术搜索
h·朱周,j . Wang和z阴,“色情图像检测的算法,”第四届国际会议上图像和图形学报》,ICIG ' 072007年8月,页801 - 804。视图:谷歌学术搜索
p . Kakumanu s Makrogiannis n .布尔巴基,“肤色建模和检测方法的调查。”模式识别,40卷,不。3、1106 - 1122年,2007页。视图:出版商的网站|谷歌学术搜索
j . a . m .巴西利奥·g·a·托雷斯g·s·佩雷斯,l·k·t·梅迪纳h . m . p . Meana和e·e·Hernadez“明确内容图像检测,”信号和图像处理:国际期刊,1卷,不。2,47-58,2010页。视图:谷歌学术搜索
j . a . Marcial-Basilio g . Aguilar-Torres g . Sanchez-Perez et al .,“色情数字图像检测,”国际期刊的电脑,5卷,不。2、298 - 305年,2011页。视图:谷歌学术搜索
j . a . m .巴西利奥·g·a·托雷斯g·s·佩雷斯,l·k·t·梅迪纳和h . m . p . Meana”明确的图像检测使用YCbCr空间模型作为肤色检测,”应用数学和计算机工程,第128 - 123页,2011年。视图:谷歌学术搜索
r·s·m·克钦独立军,h,压力Mortezaei, m·e·穆贾达姆和A . Namazi”小说方案智能识别色情图片,”https://arxiv.org/abs/1402.5792。视图:谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”学报2016年IEEE计算机视觉与模式识别会议,CVPR 20162016年7月,页770 - 778。视图:谷歌学术搜索
i g p s Wijaya i b . k . Widiartha和s e . Arjarwani“色情图像识别基于概率和eigenporn皮肤roi图像,”TELKOMNIKA电信计算电子和控制,13卷,不。3、985 - 995年,2015页。视图:出版商的网站|谷歌学术搜索
i g p s Wijaya i b . k . Widiartha k .内村和g . Koutaki“色情图像拒绝使用eigenporn简化LDA的皮肤roi图像”学报》第14届国际会议上QiR研究的(质量),QiR 15idn,页77 - 80年,2015年8月。视图:谷歌学术搜索
a b·伯吉斯和c . a . Mattmann”自动分类和解释极地数据集与Apache Tika,”学报》第十五届IEEE国际会议信息重用和集成,IEEE IRI的14,第867 - 863页,2014年。视图:谷歌学术搜索
明确和Non-Explicit数据集,http://drive.google.com/open?id=1ivxuwwNQuFjxLy4fY2OUo3ehNwj2oNQG。