文摘

足球是一种受欢迎的运动。有很多人实时收听足球比赛在电视或互联网。美式足球的游戏持续90分钟,但为了节省时间,观众可能只是希望看到几个亮点。据我们所知,没有这样的工具,可以用来提取智能强调从一场足球比赛。在这个研究中,我们提出一个聪明的编辑技术现场足球比赛。我们的技术允许自动提取关键球员的目标,射击,角球,红色和黄色卡片,和关键球员的存在从足球比赛的直播。在2018年世界杯期间,我们的解决方案是融入直播平台和运作令人钦佩。

1。介绍

广泛的研究了视频分析技术,以便为客户提供更快速和容易获得参与或电影的关键部分1- - - - - -3]。高性能的图像和视频索引和检索需求的解决方案已经飙升多媒体视频的数量大大增加了。从他们的角度来看,视频摘要对他们是非常重要的(4]。用户只需要查看一些关键领域节省时间。它需要相当多的时间和精力来手动评估和总结录像。鉴于不同序列的数量和需要的时间,自动运动视频序列强调策略是很有价值的。

体育游戏是研究最多的视频类型由于其庞大的观众和更一致的特征比其他视频类型(5- - - - - -8]。强调战略,其重点是如何组合匹配回顾包含所有的重要方面,是一种有效的体育电影的抽象技术(9,10]。先前的研究人员提供了一些突出的策略范围广泛的体育竞赛,从最基本的最专业的。最后,在体育视频,郑伊健和Tekalp发现玩耍和休息事件(11]。其他研究利用慢动作回放来描述体育视频(12- - - - - -14]。然而,评估一般体育比赛仍然困难由于奥运会的多样性和复杂性。篮球,跳水,足球只是几个院士的运动选择了集中。本研究侧重于从足球视频中提取亮点的方法。安科纳等人提出的SVM分类器是作为认识工具足球目标(15]。当一个视频序列分为不同的类型,然后组织成更小的视频镜头使用Zawbaa和他的同事描述的技术(16]。使用支持向量机和一个人工神经网络方法,然后系统挑选部分有杰出的表现。随后该设备检测垂直门柱和球门网。最后,在足球视频回顾,游戏最重要的时刻将被突出显示。专注于低级和基于文本的处理,对足球电影,Fendri等人开发了一个基于科学原理的分割和索引系统(17]。自动化的方法来评估和总结足球电影基于电影——和基于对象的标准已经被郑伊健等建议。18]。为了总结这部电影,Lofti Pourreza想出了一个方法删除不必要的画面(19]。Tabii和Thami提出了一种新的方法自动创建足球视频镜头识别的基础上,总结分类的镜头,和有限状态机技术(20.]。所有下列方法处理视频使用人为创造品质,缺乏普遍性和挑战来实现在现实中。一个创新的“关键”概念由燕等人的目标是提高小组活动的检测通过聚合时间动力学关键球员之间跨时间的不同程度的参与21]。它是快速和有知识的,但它不能识别的区别游戏的最佳时刻。自动化和智能的生活正在变得越来越普遍,和未来的多媒体处理技术将是更复杂的和有效的。

近年来,深度学习已广泛应用于图像处理(22- - - - - -25和模式识别26- - - - - -29日]。使用深度学习,我们已经开发出一种技术,允许智能编辑创建了从在电视上看足球比赛或观看在线直播,同时解决问题,深入研究可能导致。特征提取技术不需要手工创建,和算法不需要更新为不同的场景,用之前的方法一样。直播结束后,技术可能会产生各种各样的有趣的短视频,比如进球庆祝,点球大战,红色和黄色卡片,角落里踢,等等。该方法实现不会忘记在2018年世界杯!

2。系统概述

深度学习在足球教学中发挥了积极作用。深度学习的训练目标是一致的,与足球的教学特点有关。深度学习能激发学生积极参与课堂教学,积极观察,思考,总结,内化,和练习他们所学到的东西,这是符合足球项目的教学特点。教师应积极设计教学情境在足球教学中,让学生练习足球技巧在主题,有针对性,和实践教学情境,培养学生的高级运动能力通过完成具有挑战性的学习任务。的过程中发展学生的足球技能,我们应该通过连续评价促进学生的全面发展,实现的多维价值运动,并培养学生的终身体育意识。为了捕捉从现场直播的足球比赛最好的时刻,我们创建了一个自动编辑系统。足球比赛的现场录像是用于创建镜头边界框架,特别行动框架,和明星球员框架通过镜头分割,红色和黄色卡片识别,角球检测、点球检测、射击和庆祝检测,检测,和面部识别。之后,数据集成提供了一个集成模块。图1描述了我们的系统流程图。要做到这一点,我们标注的对象从足球比赛我们需要电影,如2018年世界杯在巴西,足球,球员,红色和黄色卡片。

3所示。方法

3.1。分割的照片

亮点是由合成以来连续照片为了避免不连续,镜头分割是我们的核心技术。图2的镜头边界框架就是我们正在寻找的。足球比赛的录音,我们采用直方图技术来确定边界,这可能减少振荡引起的运动对象的框架。最基本的直方图方法比较两个连续帧的直方图灰度或颜色,分别。当两个直方图比较,bin-wise区别是用来确定一个镜头边界。确定边界,建筑师等人转向了颜色直方图变化率(30.]。相反,他们只是雇佣两帧之间的绝对值比颜色直方图;因此,结果是不敏感的。

一枪的平均DAV被认为是比不同D坏蛋镜头边界之间的框架和前面的框架。D坏蛋Davg是由以下几点: 在哪里h(·)是一个功能和直方图计算c是帧索引。ϵ任意小正值防止分母为0。这是设置为0.0001。当的比率D坏蛋Davg超过一个阈值,我们使用最后一帧作为一个边界框。交叉验证一组足球比赛视频产生阈值。

3.2。发现红色/黄色卡片

在一些体育、违规处罚的呈现红色或黄色的卡片。黄牌作为警示,而红牌作为一个逃跑的迹象。如果一个玩家在游戏收到两张黄牌,他们将发布一个红牌。

必须使用对象识别技术来识别红色和黄色卡片在足球比赛记录。多级、两级和单程目标识别技术是可用的。早期的例子cross-strategic网络R-CNN和SPPNet31日- - - - - -33]。每个阶段的搜索可能会教自己或与他人。同时可以训练R-CNN特征提取,位置回归和分类。出于这个原因,两级的过程被称为一个“两步走”的过程。移除region-proposal网络,单程网络,SSD Yolo系列意思能够显著提高对象的识别速度。SSD是用于我们的目标识别算法的发展以达到良好的平衡速度和精度。足球比赛视频的每一帧,如图3,我们应用SSD和输出帧有红色或黄色的卡片进行分析。

3.3。角球

当球越过球门线不得分,感动对方的一名球员,游戏重新开始一个角球。很多球迷喜欢看的角球,因为他们被认为是攻击团队出色的射门得分的机会。

SSD还负责检测角球。角球框架应该表现的球员,球,角落国旗同时见图4。SSD,教授认识到在一个框架是我们用来处理框架。我们输出一个角球时关键帧的球员,球,国旗和角落都可以发现在同一帧。

3.4。点球检测

在竞争激烈的足球,游戏的目标是赢。选择一个合适的策略是非常重要的比赛之前的准备。在分析战术行为时,战术的概念被定义为一些研究者的球员采取行动以适应游戏的动态变化情况。其他研究人员试图区分战术和战略,相信战略可以被描述为一个预先计划的竞争元素在考虑信息的影响。从这个角度看,战术和战略之间的区别在于时间和它们之间的关系。战略的实现允许更长时间规划和慎重考虑,在战术行为进行强烈的时间压力。策略决定一个团队管理空间、时间和个人行动来赢得比赛。在这种背景下,空间指的是特定的行为发生在该地区法院或法庭的团队想要覆盖在攻击和防御。时间描述诸如事件的频率和持续时间(比如控球)或发起行动的速度。个人行为指定执行的操作类型,如错误,传球,传球。 According to the number of players, it can be further divided into individual tactics, group tactics, team tactics, and game tactics. Tactical behavior analysis at the personal level can be used to study the kinematic relationship between a player and his opponents or teammates, such as the interaction between a full back marking a winger or two central defenders. At the group level, the team’s tactical movements of the selected group of players can be analyzed, such as the offside “trap” created by the consistent movement of the guard line. At the team level, tactical behavior analysis can capture the variables of all players’ team actions, such as analyzing the space occupied by the team. Tactical behavior at the game level can be studied by examining the interaction of team actions between two opposing teams, such as the distance between teams. In some cases, strategic success depends on tactical success at different organizational levels.

点球的恢复是在足球中一个球员是允许尝试一枪的目标,而对方的门将是唯一一个捍卫它。获得当一个球员犯规犯在他或她自己的禁区,结果在一个直接任意球。这个模块还利用SSD。显示在图5,我们必须确定球员的和目标的位置。只要有超过十个对方球员在一个团队,这一时期用于点球射和输出。

3.5。火和纪念检测

我们到最后玩的足球游戏。球迷游戏迷住了,因为他们知道,每一个镜头他们有可能导致一个目标。庆祝也是一种荣誉主要出现在一个人的生活。为了完成这节课中,我们必须找到目标的例子和庆祝活动在全国现场直播的足球比赛。尽管拍摄和庆祝都是短暂的活动,我们需要一个稳定的框架来帮助我们追踪他们。作为一个动作识别问题,我们考虑拍摄和庆祝的区别的人类活动在一个电影。深度学习的广泛使用之前,IDT是最稳定可靠的技术动作检测,但它也是最慢的(34]。匹配光流两帧之间的视频和冲浪关键地方减少相机运动的影响。深入学习了,有几个动作识别系统基于深度学习。每两帧的视频序列,生成一个密集的光流和CNN模型训练的视频图像,这密集的光流。到达最后的分类结果,两个独立的网络融合在一起,每个网络的类分数直接比较。为了处理视频,C3D雇佣了3 d卷积和3 d池。Pre-trained动力学数据集,I3D有更好的架构,可用于更广泛的任务。P3D进行研究强调在动作识别的时域的相关性信息。图6显示了使用众所周知的行为检测模型的结果I3D识别镜头和庆祝活动。数据增加必要是因为游戏的限制数量的照片和庆祝活动。我们利用剪辑枪声或欣喜的例子很好的例子。I3D将从积极训练使用足够的数据样本随机抵消来回的时间。接受某种形式的视频后,一个模块创建一个点的视频中,被确认为解雇或庆祝活动的视频。

3.6。检测成绩

最激动人心的一场比赛是我们的目标,这是一个强调最重要的组成部分。通过密切关注分数如何变化,我们开发一个评分系统,可以识别目标。这个系统的三个部分是文本区域识别、文字识别、后处理。CTPN用于识别文本区域。识别文本区域在足球比赛的每一帧画面,我们训练我们的模型在一个大量的文字图片。然而,在足球比赛录像,分数占有相对较少的空间,导致不稳定的结果。结果,我们设计了一个简单的方法来减少得分区域差距的大小,当使用CTPN输入框。为了得到更精确的结果,我们重新进入文本部分包含分数,我们发现到CTPN。盒(B1(c),B2(c),…BN(c)这个框架中的文本区域,在哪里Nc是盒子的数量。只要交点在联盟(借据)他们之间大于一个阈值,我们认为这些地区在后续帧尽可能得分区域。据几位定义,两个地点之间的借据如下:

如果你看一下cth的框架th盒,你会发现有一个之间的借据th和jth盒(c)。框架c将扩大到包括更潜在的网站。我们的系统的长度和宽度都增加了150像素。作为最后一步,我们运行的潜在地区通过CTPN为每个人创造成绩。为了识别文本,我们使用OCR技术来确定单词在文本字段。我们使用超正方体,因为它是一个开源和成熟。该组件是一个列表的结果发现所有的单词。很高兴有一长串的单词。后处理需要检索这个序列的分数。正则表达式是一个完美的工具。可以发现在一个字符串符合分数的结构。 We note the score and verify the time range when the score goes from 0 colon 0 to 1 colon 0.

3.7。识别一个人的脸

长期以来,网络与一个纯粹的级联设计导致外部面临的挑战。MTCNN探测器,进行人脸检测和地标,是最常见的应用之一。网络分为三个子网:P-Net R-Net, O-Net。第一步是粗糙的人脸检测,导致建议区。non-maximum抑制方法下最小化重叠盒装的数量地区,导致更多的提供给R-Net的特定区域。R-Net改进选择建议,虽然O-Net确实面临具有里程碑意义。MTCNN仍被推荐用于描述的尖端的面部识别系统。在这里,我们想使用人脸识别技术来识别足球明星匹配记录。由于足球比赛录像的默默无闻,这是一个具有挑战性的任务,但这是可以做到的。面部识别的大部分训练数据集使用的照片前面的人的脸。 In the end, performance is harmed because of the data bias. It is not necessary to finetune the ArcFace face-recognition model since the current model performs well. We used the MTCNN face detection model, which is a quick and effective model. Prior to recognizing a face, a picture needs to be registered. Since registration pictures are often current front-facing shots of the subject to be recognized, we are unable to collect recent front-facing photos of soccer stars. In our opinion, soccer match films benefit more from the use of photos than web images do. As a result, we recommend a two-step approach to spot soccer stars in match films. The first step is to find soccer stars in recent match videos by utilizing web photographs as registration images. For registration photos, we search the Internet for front-facing photographs of these superstars. Every five frames in a match video, a face is detected and preprocessed in the same way as a picture is registered on a discovered face area. After preprocessing, we send the identified facial regions to ArcFace for face recognition. In order to get as many star face shots as possible in match records, we have lowered the bar. Second, we personally look for a clean front-face photograph of each celebrity. Each star has a total of around 15 official photographs. During the trial period, the previously prepared registration photographs are utilized. What the face-recognition module produces is the frame number and location of each star’s face.

3.8。集成模块

突出了关键帧的位置和镜头边界框架由上述模块输出。我们持续一分钟左右的短片结合照片包含与邻近镜头关键帧。我们系统的重点是这些捆绑短视频,如图7

4所示。系统细节

每个模块需要它自己的速度设置,以确保整个系统实时测试期间。镜头分割模块用于每一帧。输入流评估每8帧为红色和黄色卡片,以及角球检测。共计2.56秒的电影是由从直播每八个选择一帧,在整个检测过程中所示。为了进口这些电影,将使用I3D。检测成绩,脸,和识别每25帧进行。

5。实验

5.1。长宽比的计算

镜头分割测试三个2014年世界杯比赛:哥斯达黎加与希腊、葡萄牙和加纳,和比利时和阿尔及利亚。第一个10000帧的每720 p视频都包含在每一部电影。图8显示测试结果的统计分析。作为显示在图9,我们的方法优于竞争对手的准确性和稳定性。图8显示了每个类的应用程序以及应用程序列表,已被选定。

5.2。检测射击和庆祝活动

在一场足球比赛视频中,我们检查了C3D, P3D或I3D效果图,看哪一个是最好的。基于电影,我们提取1000段,每个是2.56秒的长度,由16帧。换句话说,我们选择从每四可用一帧。除了1000镜头,有13枪声和五个庆祝活动。结果如图所示6。不会有进一步的关注和小于0.5别人的结果。假阳性的比例大于使用I3D C3D已经见过的测试样品,但是实验数据表明,它能够识别所有必要的行动。我们更关心的是模型的能力区分摄影和庆祝,因为我们希望看到该模型是否有能力这样做。

5.3。发现分数

简单匹配影片是用来比较的结果与精制CTPN CTPN。图10显示结果。正确认识分数的比例是总出现决定了系统的准确性。前面的技术相比,我们的新方法是更准确的。

5.4。人脸检测

视频从巴西的两场世界杯比赛中用于评估面部识别模块的有效性。图11显示结果。我们的方法的识别精度超过98%对于大多数恒星。即使在极其复杂的风景,见图12,这些恒星可能可靠地确定。

5.5。系统作为一个整体

在2018年世界杯期间,我们的方法是使用。亮点是简短的电影封面拍摄,红色和黄色卡片,角落里踢,点球大战,目标,和庆祝活动。在比赛期间,我们的系统获得100%的召回,但不是很精确的。在上传小电影网络之前,手动过滤是必要的。因此,回忆比完美更重要。

6。结论

在这个研究中,我们提供了一个独特的技术,自动从足球中提取亮点回放电影或匹配。这个系统是由深上优于动作识别,物体识别和人脸识别组件。提取边界框架,我们起初用颜色直方图特征。突出的关键帧和明星照片然后发现使用深度学习算法。最后,通过合并使用关键帧图片,创建的电影和明星短片。实验结果表明,该系统功能的不同组件。在2018年世界杯期间,我们的解决方案也在实现直播平台和运作令人钦佩。

数据可用性

所有的数据、模型和代码生成或使用在研究出现在提交文章。

的利益冲突

作者宣称他们没有利益冲突,他们没有任何商业或关联的兴趣与提交的工作。

确认

这项工作得到了艺术和科学学院、长江大学。