文摘

基于颜色(RGB)过滤的原理,一种改进的自适应视频字幕检测和提取方法。首先,颜色滤波算法的原理用于视频字幕检测和提取方法进行了分析,然后是算法改进的自适应地根据标题像素大小过滤噪音。最后,实验验证该方法的效果从视频中提取字幕。实验结果表明,检测的准确性和提取字幕颜色节高达99.3%。

1。介绍

目前,视频媒体形式出现在互联网的各个方面;人们的学习,工作,和生活高度依赖视频。视频字幕提取的相关算法计算复杂度高,大量的视频数据,特别是视频数据的快速增长在互联网环境中,它的性能提出了越来越高的要求视频字幕检测与提取(1]。视频标题通常分为两种类型(2]:一个是文本信息由对象本身或环境在书籍和视频等文本广告板,车牌,行人的衣服,统称为背景说明(场景标题)和其他类型的文本字幕是人为添加到视频,与现场无关信息的视频和通常称为“硬字幕。“硬字幕,如水印,结合视频图像,不能简单地分离并不能直接分析(3]。本文研究的方法提取标题颜色过滤原理的检测。

从本质上讲,研究视频字幕检测与提取是研究如何探测、定位和段视频有效和迅速,形式的标题二进制图像。目前,视频字幕提取的检测主要有以下四种方法:佐藤等人提出了基于边缘检测字幕的视频帧4]。首先,检测到的边缘特征信息视频字幕,然后标题外的区域中根据标题的大小和密度等条件然后在水平和垂直投影方向,分别。标题终于决定根据投影。该方法可以快速检测说明,但其缺点是阈值需要调试前几次检测,提高成功率。阈值并不适用于其他视频,错误率很高时,背景是复杂的。金等人提出了纹理分析字幕检测(5),确定某一像素点或基于图像纹理的像素属于文本块。这种方法的优点是,它可以有效降低错误率在复杂的背景,但它也有缺点造成的低效率算法的复杂性和大量的计算不准确的标题区域的定位。Lienhart和韦尼克提出的基于机器学习字幕检测机器构造一个机器学习分类图像子块通过学习支持向量机和神经网络6]。该方法的检测错误率很低,但是计算非常复杂,和影响检测效果的样品之前的训练,所以容易出现偏差。连接的域的标题江等人提出的检测方法使用Niblack方法将图像分解成许多连接组件,然后使用一个两阶段分类模块组成的级联分类器和支持向量机分类器来验证连接组件的文本特征(7]。该方法的设计很复杂,虽然精度相对较高,但很难的检测和处理大量的视频字幕。

虽然上述方法检测精度高,他们也有自己的缺点。仍有很大的研究空间,进一步提高精度。如今,视频通常都是彩色的,标题大多是白色的,与其他一些颜色。自适应颜色滤波算法采用本文第二校正后颜色过滤精度,方向性和排他性。与其他方法相比,它可以提高字幕的整体检测和抑制噪声点周围的文本。特别是在电影视频,在黑色背景白色字幕检测的准确性高达99.3%。该方法的有效性通过实验验证了模型的视频字幕提取。

2。传统的颜色滤波算法

视频或一系列的视频字幕经常使用统一的颜色通过滤色器使用基于特征聚类和其他一些方法。视频成功的标题统一颜色的背景有很好的检测效果,但是当标题有不同的颜色,它需要设置测试多次。它具有实际操作意义的设计一个算法基于颜色过滤原理,更好地发现和提取视频标题文本。颜色过滤的本质是强调标题的主要颜色,同时削弱其他背景视频的颜色,也就是说,将RGB三个通道值或重叠归一化灰度值作为颜色特征。

2.1。RGB数据集的投影六边形

R(红色),G(绿色)和B(蓝色)是光的三原色,和三个主要的颜色是最简单的颜色。大多数颜色本质上可以得到在一定比例混合这三种原色;相反,任何一种颜色可以分解为这三种原色。一般来说,R, G, B是由三个值的范围(0 255),代表一种颜色在三维空间中,和三个值R, G, B对应X,Y,Z坐标系中的值。RGB数据集上倾斜45°x轴,然后35.264°Y轴。第二倾斜后,黑色的顶点在底部,顶部的白色的顶点,他们都在Z轴。当立方体从上往下看,一个六角形的外貌和色度投影(色调)秩序。同样大小的六角画立方体的顶视图。所有角度的六角对应立方体的角度,和颜色也应该对应。白色立方体的顶点角落投射到中心的六边形,黑色是省略了。如果每种颜色映射到一个六边形,一个标准的全彩色的六边形。用RGB值点的位置坐标(51、153、204)六角图所示1

2.2。灰色的颜色过滤的处理算法

当标题的背景颜色是纯色或半透明的地带,该算法可以检测和提取文本利用连通域分析的方法(8]。这样的标题可以生成如下: 在哪里 , , ,分别代表原始视频图像的像素值,半透明的地带的像素值(纯色)背景、标题的像素值,最终的图像的像素值

当视频标题背景是复杂的,需要将彩色图像转换为灰度图像。彩色图像中的每个像素是由R, G, B组件,每个组件价值[0,255]。因此,像素变化很大的范围。在灰度图像中,R, G, B组件采取相同的值,所以每个像素点的范围是255,白色是255,和黑色是0。灰度图像计算比彩色图像,灰度图像也可以反映图像的整体和局部颜色和亮度分布。有四种常用的图像灰度的方法(9]:组件法、平均法、最大值法和加权平均法。

2.2.1。组件的方法

的光度R, G, B组件在彩色视频图像作为图像的灰度值。采取R频道作为一个例子,这个公式可以表示如下:

2.2.2。平均值的方法

的平均亮度值R, G, B组件在彩色视频图像的灰度值,公式表示如下:

2.2.3。最大值的方法

的最大亮度R, G, B组件在彩色视频图像的灰度值作为灰色图表,公式表示如下:

2.2.4。加权平均法

R, G, B组件彩色视频图像的加权平均和不同的权重。其中,人眼对绿色更敏感和不敏感的蓝色。这个公式表示如下:

它可以从图像灰色的传统方法,前三个算法都是基于亮度值。尽管他们简化计算过程,提高计算速度,他们有良好的效果图片和文字说明在不同的颜色系统,但当他们在类似的颜色系统,大型检测将生成错误。最后一个方法采用加权平均的方法,简化了人眼模拟成比例的计算方法。虽然提高字幕的检测效果,加权平均的独特性导致越来越大的噪声点,严重干扰后的认可。

3所示。自适应颜色滤波算法的实现

传统的颜色滤波是基于图像亮度灰度变化,例如,组件法、平均法、最大值法,加权平均法。这些方法都有一个固定的公式,即R, G, B有一个固定值。本文自适应颜色过滤算法首先将RGB转换为H(浓度)值,然后根据色度阈值的样本,发现标题文本周围的粒子特性进行了分析和处理,并进行二次修正的消除,从而实现加强样品色度标题文本的功能来抑制干扰因素,最后,完成视频字幕的检测和提取效率。

3.1。RGB模型转换

转换应该遵循一定的原则。当RGB视频的颜色与颜色之间的差距所选的标题大于设定值,它需要过滤。当视频颜色和颜色区别的颜色选择标题大于设定的值,它需要过滤。当视频颜色的亮度低于设置值,它需要过滤。当视频颜色的亮度高于设定值,它需要过滤。最低饱和度:当电影的色彩饱和度低于设置值,它需要过滤。当电影的色彩饱和度高于设定值,它需要过滤。主要项目的价值范围如表所示1

其中,RGB差距大约是字幕的定义。过滤期间被选中的值越高,越清晰。然而,价值越高,噪声干扰将出现在nonsubtitles,这将影响下一步的提取效果。使用高速逻辑过滤时,判断的顺序如下:最低最高⟶颜色⟶最低亮度⟶最高亮度⟶RGB差距⟶色相差距。

执行计算之前,浓度H定义如下。浓度大约是向量之间的夹角和投影点,和红色的是0°。色调H′的距离是六边形的边缘。浓度之间的换算公式H和RGB模型分为四个部分:(1) , (2) , (3) , (4) ,

公式如下所示:

如图2坐标位置,六边形(51、153、204)检测。首先,的值R, G, B是规范化的范围[0,1],如以下所示的计算过程:

最大和最小值的R, G, B是如下:

色彩饱和度值C(浓度)六角然后计算和定义为指向原点的距离。这里的色彩饱和度是六角通过点的相对大小:

执行条件检查后R, G, B,C值确定。的坐标(51、153、204)=B, 就会被使用。再次检查六角,(RG)/CBP线段的长度。

内六角的线段,开始为R(红色)在0°。如果线段的长度是正的,它应该是在变化中;如果它是负的,它应该在RM。

因为它是−0.666666666666,在RM的边缘。

如图3,因为=B,P指出B当移动的位置。蓝色的颜色是240°在图中,六角6国,每一方都对应于60°,240/60 = 4,P需要移动(增加)4 *(因为它是240°)。位于移动后的结束位置P位置,RYGCP的长度如下:

六边形的周长等于6,这对应于360度。距离坐标(53、151、204)0°是3.333333333335。如果我们用3.333333333335乘以60,我们将得到这个职位的角度。

在的情况下=R,因为线段的一端放置在R(0°),当线段的长度是正的,不需要移动的线段R和的位置P是正的。当线段的长度是负的,它需要搬了6次因为一个负值表明大于180°角位置,和一个完整的旋转是必需的。因此,无论方案色调(1)= 或计划色调(2)= ,它并不适用于负线段的长度。该方案使用色相= ,这是正确的正面和负面的价值。

3.2。自适应颜色过滤

过程中颜色过滤块状背景图片相同的颜色就和标题文本一起被发现,导致影响周围的文本块(10]。一般来说,平滑图像,块效应越明显。为了减少块效应和提高图像质量,本文改进了平均去除方法在相邻图像块效应。中风的像素大小标题文本的视频一般小于9×9,也就是说上面颜色的像素块9×9应该过滤。lR代表水平相邻子图象过滤,如图4。将会有一块子图象相邻边界的影响lR。为了消除块效应水平相邻子图象,意味着执行过滤操作在边界像素相邻lR,该算法公式表示为如下方程:

模板的尺寸是 , 是一个整数,1≤n0≤9。

UD代表了相邻子图象过滤由当地同态在垂直方向。块效应将出现在邻近的子图象边界UD。为了消除垂直相邻的块效应子图象,进行过滤是毗邻的边界像素UD,该算法公式表示为如下方程:

模板的尺寸是 是一个整数,1≤0≤9。

如图5,如果颜色不进行移除,会有少量的分散的部分相同的颜色颜色过滤后,和这些大点(块)将形成干扰因素在标题文本,往往会被misrecognized和误读后的识别检测。自适应颜色过滤方案提出的块删除一定大小和颜色斑点干扰删除具有良好效果,反复实验表明,与传统的颜色过滤检测相比,本文提出的自适应方案可以大大提高检测精度。精度提高约10%。这种方法达到的目的减少块(噪音)干扰而不影响检测到字幕文本为进一步识别和扫清了障碍。

4所示。实验结果分析

为了测试该方法,说明检测实验进行的视频新闻,电影和电视节目。每种类型的视频材料在实验中包括一个或两个颜色的标题。选择视频的长度超过15分钟,和标题的总数超过1000人。图6展示了电影的截图说明检测实验的三种类型的视频字幕检测。检测精度的不同类型的视频通过实验计算:

由于存在两种颜色字幕在电视节目视频实验,检测准确率只有92.2%低于其他两种类型在一个检测过程。如图7,检测的精度的主要颜色是保证,只有少量的小像素噪声,但第二字幕的颜色以外的主要颜色出现空白或其他颜色块在过滤和字幕红盒子需要检测两次,进一步提高精度。

新闻视频与电视相比,视频背景环境是相似的,但新闻视频标题更加统一的颜色;精度可以达到94.5%,如图8;当视频背景的一部分,标题显示相同的颜色系统,它会干扰检测。在自适应颜色过滤、检测精度会下降,小噪声将会出现在本地,少量的重复句子或破碎的句子将会离开。

由于标题背景是纯色和图片充满颜色,很少有字幕检测的干扰因素。除了一些对话和重复检测困难的句子,所有其他人都能准确地检测到没有任何噪音。如图9,发现标题文本清晰的边缘,这张照片没有噪音。在实验中,自适应颜色过滤的准确性在电影字幕的检测是99.3%,和重复对话标题单独视频可以准确地判断和检测。

实验比较了检测精度与传统的颜色过滤方法和其他三种方法11),即基于帧差检测标题的方法,检测说明基于边缘检测的方法,检测说明基于颜色聚类的方法。根据的比较说明检测的准确性的四个方案表2,该方法研究了在检测精度高的字幕提取的视频中,尤其是在检测与纯色背景和标题的视频标题一个颜色。可以得出结论,因此,自适应视频字幕检测与提取方法本文基于颜色过滤原理达到提高精度与传统颜色过滤相比,检测效果优于其他三种方法。

5。结论

自适应视频字幕检测和基于颜色过滤的原理提取方法可以检测和提取视频标题文字更加理想,在精度和速度都有很大的优势。本文实验的视频帧图像都是1920×1080高清视频。没有实验低清晰度视频和更为清晰视频和没有检测和提取实验滚动字幕,pop-frame标题,变色标题,和其他multitype字幕,所有这些需要进一步的实验数据。同时,应该注意的是,自适应颜色过滤标题的方法检测也需要改进,和未来的研究工作将继续改进算法来进一步提高在复杂背景视频字幕检测的准确性。

数据可用性

每种类型的视频材料的数据用于支持本研究的发现正在禁运而研究成果商业化。请求数据,本文的发表(6/12个月)后,将被相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

本文由江苏大学的哲学社会科学研究项目(2020 sja1406)。