编辑|开放获取
基于学习的多媒体分析与应用
多媒体分析方法通常结合不同来源/形式的信息,如文本、音频和图像,以解决各种与广告、教育、艺术等相关的实际任务。近年来,机器学习得到了广泛的应用,并被广泛应用于处理各种多媒体问题。然而,无论在算法设计上还是在多媒体应用上,都有大量的问题有待解决。
本期特刊由四位客座编辑组织,共收录八篇研究论文。录用论文的主题涵盖范围广,集中在多媒体分析的许多关键方面,如行为检测、音频恢复、图像检索、人的重新识别等。这些作品在相关研究领域有了重大发现和突破。
J. Li等。研究奶牛在遭受双翅虫侵袭时的自我保护行为,以评价奶牛的繁殖环境和奶牛的选择性育种。具体来说,他们开发了一种基于视频分析的自动监控系统。该方法结合头、腿、尾运动的形态学特征,有效减少了Shi-Tomasi点的数量,消除了背景运动的干扰,从而降低了算法的计算复杂度,同时提高了检测精度。
C. Jin等。调查历史音频和视频数据的失真问题。本文基于深度学习网络,设计了一个客观的历史音频/视频数据质量评价系统,从特征提取和网络参数选择的角度对系统性能和音频信号质量进行评价。
B. Yang等。提出了一种利用深度神经网络学习生成模型的异常检测方法。他们提出了一种加权卷积自编码器(AE)和长-短期记忆(LSTM)网络来重构原始数据,并基于重构误差进行异常检测,解决了复杂背景下异常检测的难题。卷积AEs和LSTMs分别用于编码输入帧的时空变化。提出了一种加权欧几里得损失,使网络能够集中在移动前景上,以抑制背景的影响。
阮玉华等。研究为有听力障碍的人提供的自动音频广播系统。本文提出了一种基于智能手机的听力受损人群语音通知检测与识别方法,并开发了银行场景下的手机应用程序。针对音频公告检测问题,提出了一种基于音频段分类和后处理的音频公告检测方法,该方法使用基于音频公告和环境噪声的SVM分类器。在语音识别方面,利用基于gmm - hmm的声学模型和基于有限状态传感器(FST)的语法,开发了ASR引擎。
H. Xu等。提出了一种将卷积神经网络和马尔可夫随机场相结合的图像语义检索方法。与以往逐一使用单概念分类器的工作不同,本文采用多概念场景分类器检测语义多概念。具体来说,他们首先训练一个CNN作为一个概念分类器,进一步包括两种分类器:最适合单概念检测的单概念全连接分类器和有效用于整体场景检测的多概念场景全连接分类器。然后提出了一种基于mrf的后期融合方法,该方法能够有效地学习单概念分类器和多概念场景分类器之间的语义关联。
赵伟等。考察京剧唱腔的合成。京剧的演唱带有一定的言语特征,但它有自己独特的发音规则和节奏,不同于普通的说话和演唱。首先利用现有算法提取源说话人和目标说话人的语音信号。然后,通过GMM的训练,完成语音控制模型,输入需要转换的语音,并输出转换后的语音。最后,通过对基频、音长和频率分别建模,利用GAN构建旋律控制模型,实现京剧片段的合成。
Q.冷等人。研究了智能视频监控中的关键技术——人的再识别。摘要为了将小样本问题与小标签学习模型联系起来,提出了一种新的半附加学习框架,用于学习标签不足的人再识别的判别马氏距离矩阵。与典型的多视图协同训练任务不同,该任务首先将单视图人物图像分解为伪两视图,然后基于伪标签和参考文献迭代生成度量学习模型并共同更新。
F. Kang等。研究猪场中仔猪的分割。针对视频监控系统的非交互式和实时性要求,提出了一种基于改进的非交互式GrabCut算法的图像分割方法。通过双边滤波实现了图像的保边降噪功能。采用自适应阈值分割方法计算局部阈值,完成前景目标的提取。
总之,这个特别的问题提供了一个全面的概述目前的学习为基础的多媒体分析。重点介绍了近年来在技术和应用方面的研究进展,为今后的研究提供了有价值的参考。
的利益冲突
作者声明,本文的发表不存在任何利益冲突。
致谢
编辑们想要感谢所有的作者谁提交了他们的研究这个特别的问题,以及所有的评论家为他们的宝贵贡献。
陈龚
Zechao李
小常
勇罗
版权
版权所有这是一篇开放获取下发布的文章知识共享署名许可,允许在任何媒体中不受限制地使用、发布和复制原创作品,只要原稿被正确引用。