文摘
和弦在音乐情感表达的作用,和生成的旋律通过和弦的约束效果更加丰富。本文基于GAN网络音乐一代模型基于弦特性,格勒乌网络用于和弦特征提取,以自主学习和弦在1:t−1时刻并生成和弦t时刻,通过保存每一批的隐层状态,构建一层格勒乌与发电机相结合,从而实现自动学习和弦的整体风格的影响。四个模型的性能逐渐优化加权平均,和所有四个模型生成的旋律愉快与音乐的连贯性和创造力有显著的正相关。
1。介绍
音乐在我们的生活中是一个重要的艺术表现形式,与我们密切相关,不可分割的一部分,我们的生活。它可以用来安抚情绪和表达情感,和不同的曲调和旋律可以表达不同的情绪,导致无数的经典。这就是为什么有各种风格和流派的音乐,可分为流行音乐,古典音乐和流行音乐(巴赫,贝多芬,莫扎特),爵士,蓝调,摇滚,声乐和器乐(1]。近几十年来,随着互联网行业的兴起,计算机硬件的性能显著改善,生成一系列的数字音频文件的费用关于音频制作,音频剪辑,录音,等显著降低了阈值为非专业人士进入领域的音乐,使音乐作品的数量成倍增长,和音乐产业已经成为文化市场的一个重要领域,与一系列跳吉特巴舞,赛车,等。随着流媒体的出现和互联网的成熟,对音乐平台的竞争逐渐从竞争竞争音频版权和内容的多样性和多通道结合图形和视频内容。用户的需求,这也成为更加紧迫2,3]。
人工智能(AI)组成技术生成数字音乐使用算法,神经网络,和其他执行(4]。人工智能技术,使计算机学习和模仿人的思维过程和行为能力通过培训。随机算法,如高斯噪声,通常使用在AI成分作为输入,经过一个有限数目的状态转换和条件约束生成最后的音符序列(5]。组合是一个音乐创造者创造音乐的过程通过一系列的理论系统,如复调,谐波,编排等。它是一个表达创意的过程6]。作曲对数是作曲的新方法。与传统的作曲模式相比,它可以结合人类的创造力,情感表达,美学,和其他智能操作计算机的计算能力,人机交互系统,自动化控制,和其他技术突破人类组成的专业技术约束和创造更多新颖的音乐效果,同时节省人力成本和提高效率的音乐成分。这使得非专业音乐家更容易进入大厅的音乐创造和享受创造的快乐,而专业的音乐家是由计算机辅助音乐作品以不同形式和风格开发新创意和作曲家的缪斯。
最新的音乐生成神经网络模型使用递归神经网络(RNNs)及其变体。神经网络用于音乐一代通常使用的所有信息从先前的事件作为生成当前音乐、条件和生成的音乐信息也会过于重复,这大大减少了音乐的兴趣(7]。当只使用氮化镓生成音乐,他们容易不稳定的训练,梯度消失,和模式运行,而不考虑时间依赖性,这可以减少生成的音乐的真实性。甘和弦基于网络音乐生成模型(DCC_GAN)和整体就模式化GAN网络音乐生成模型(DCG_GAN)生成音乐发生器的CNN和CNN主持人一起训练并生成音乐旋律和弦CNN模块的约束下,和生成的结果是美联储鉴别器CNN,这提交反馈发生器(8,9]。
音乐是一种听觉艺术,不仅带来了听觉的感受,还能直接触及人们的心灵,表达自己的情感,其中流行音乐是一种风格,可以完全通过流行的旋律和语言表达人类情感,可以结合不同的文化背景在世界不同的国家和地区,形成一个非常不同的风格的流行音乐,和深度学习的发展,中国已经取得了一些成就在自然语言处理,语音识别,图像处理,等等,但研究领域的音乐一代仍处于初级水平,和有很多的发展空间10]。在传统合成领域,作曲家需要坚实的音乐技能和音乐才能,和需要很长时间来创建优秀的作品,这是相对困难的人喜欢音乐但不强烈的音乐。使用深层神经网络生成音乐可以为热爱音乐的人提供一个庞大的创意平台,把一个巨大的市场和经济效益,和未来是不可估量的11,12]。
2。卷积敌对的生成基于网络模型
卷积GAN symbolic-domain音乐一代理查德•杨在2017年提出了基于的原则将甘卷积模型应用到音乐一代域形成卷积GAN symbolic-domain音乐一代(MidiNet)。对抗网络symbolic-domain音乐一代(13]。美联储模型是数据集预处理的音乐旋律,训练由一台发电机CNN和CNN的主持人,和生成的结果是美联储鉴别器CNN,鉴频器的输出CNN的feed生成器CNN,这样整个模型形式游戏过程,最后输出一个更好的音乐旋律。
2.1。数据集
音乐生成模型的输入基于卷积敌对的生成网络是流行音乐旋律的集合不格式再加工的旋律栏数50496 (789 MB),弦杆数50496 (5.01 MB), 5.01 MB的内存大小,13的维度,和钢琴卷格式与16个注意单位,C4-B5音高范围,随机噪声的高斯白噪声,长度10014]。
2.2。模型结构
本文使用的模型是基于氮化镓的优化,开辟了一个新时代的神经网络自2014年甘伊恩·格拉汉姆·古德费勒提出(15]。
一个人工神经网络(ANN),称为神经网络(NN)是一种数学模型,模拟生物神经网络的行为特征和过程数据实现人类的人工智能16]。人类的人工智能机器学习技术(17]。一个神经网络图所示1作为一个典型的三层神经网络框架,包括一个输入层、隐藏层,一个激活层、输出层和正常化过程的输出。
神经网络图有三个神经元在输入层和四个隐层神经元。激活函数添加后隐层添加一个非线性因素矩阵运算的结果,将特征映射到一个高维非线性区间解释。输出层有两个神经元,输出层的输出归一化,这样的数据被限制在一定范围内,从而消除不良影响造成的奇怪的示例数据(18]。
神经网络的内部结构:此结构如图2作为一个神经网络处理单元,是输入的我th神经元;连接的重量吗我th神经元,相当于特征值。的绝对值大小的重量代表神经元的输入信号的影响,是偏见,也被称为阈值,在激活函数得到的输出结果,输出结果显示在方程(1),(19]。
2.3。生成对抗的网络
氮化镓主要是发电机和鉴别器神经网络训练,两个网络在哪里获得更好的结果的两个网络。高性能鉴别器是用来识别(20.]。输入音乐,这可能是由生成器,生成标识鉴别器,如果它是真实的音乐,鉴定的结果是正确的,如果是生成音乐,鉴定的结果是错误的。鉴频器的识别的结果反馈给发电机,以改善其性能在创造音乐,和发电机也给反馈产生音乐的鉴别器,以改善其性能(21]。氮化镓的初期网络(如图3)主要用于图像生成的两个网络玩游戏,每个试图击败其他实现自己的性能改进。最终目标是网络使用生成器生成音乐旋律可以伪造的。
2.4。基于卷积GAN音乐生成模型
发电机之间的氮化镓是一场游戏神经网络和一个鉴别器神经网络的两个网络训练给最好的两个网络的结果,生成和识别真正的音乐描述(22]。两个网络最终更好;发电机网络训练,这样生成的音乐非常类似于真正的音乐和鉴别器网络是高度歧视。甘的初始阶段网络主要用于图像生成、发电机和鉴别器网络被用来生成真正的音乐。每个网络试图击败了其他改进自己的网络的性能。最终目标是网络使用生成器生成音乐旋律可以错误地描述为真正的(23]。
MidiNet模型,它由一个主持人CNN,发电机CNN和鉴别器CNN。在CNN的主持人,输入是一个二维起动杆,复杂到四层,每层输出对应的起动杆结合发电机CNN;发电机CNN的输入是一个一维的弦和随机噪声,这也是守恒的四层,每一层结合起动杆由主持人来生成一个新的旋律24];在CNN的鉴别器,输入是一个真正的旋律或鉴别器中生成CNN,输入是真正的旋律或生成的旋律,和酒吧和和弦开始添加通过卷积两层和一层完整的连接,导致歧视的输出。
2.5。模型的目标
总目标公式如方程(2)。鉴频器CNN方程(3),发电机CNN是方程(4)。在哪里x∼数据(x从真实数据)表示抽样,z∼个人电脑(z)表示从一个随机的抽样分布,D表示鉴别器网络,G表示发电机网络。在鉴别器网络方程(3),目标是确定输入是一个真正的旋律或生成的旋律,和生成过程如图4。如果数据来自真实数据,鉴别器的概率最大,做对数转换的目的类似于对数似,这并不影响函数的单调性,但使操作更简单25];如果数据来自一个高斯噪声分布,鉴别器的输入生成器生成的结果,然后鉴别器网络的概率就会下降,1−D(G(z)将上升,然后取对数转换的概率方程(3)的最大价值。发电机网络方程(4),我们的目标是生成可以愚弄的旋律鉴别器网络,生成过程如图5,数据x即来自生成的数据。,the result generated by the Gaussian noisez,然后的概率D(G(z))的概率上升和日志(1−D(G(z))下降,最后发电机网络的最小值。
3所示。实验结果和分析
3.1。实验结果
本文采用音乐理论基于规则的生成模型,DCC_GAN模型和DCG_GAN模型来生成大量的音乐旋律与和弦训练后约束和时间依赖性。与和弦约束和时间训练模型生成大量的音乐旋律。生成的旋律更连贯的,愉快的,创新比基线生成的模型。DCG_GAN模型,例如,生成旋律在纽约格式如图6,执行不同的轮(1)时代,100时代,200时代)。(100期,200期)迭代,所有选择第一个短语的前两个酒吧每一轮的观察,以及训练轮的数量增加,notes变得更加多样和由此产生的旋律更加多样化26]。
在midi格式显示生成的音乐的钢琴卷帘MidiEditor软件通过选择每个旋律的前四条如图7。
基线模型的实验结果如图所示7,这表明生成过程趋于平整和弦和旋律部分。
3.2。评估和分析
目前没有科学严谨、客观评估标准对音乐旋律的一代,和主要的评价方法是基于用户的主观评价。评价的角度是基于相干,ear-friendliness,和兴趣生成的音乐旋律,与基准模型的生成音乐旋律作为对照组,和音乐理论基于规则的生成模型,甘和弦基于网络音乐生成模型,生成模型和整体甘就模式化了的音乐。GAN网络音乐生成模型是基于弦特性和氮化镓网络音乐生成模型是基于整体的风格。的四组模型训练了200发子弹,和生成的音乐文件是通过python库处理。生成的音乐文件从纽约格式转换的midi格式的Python库钢琴卷,然后midi格式的旋律由midi 3 Pro软件转换成MP3格式,最后,生成的音乐旋律进行评估和分析27]。
共有50人被评估,40人一般听众和10人音乐专业人士(与音乐相关的学习者或乐器演奏家),和三组结果评估的旋律连贯性,恐惧,和创造力。结果评价分(满分为5分),1是最有效,5是最有效的,等等,和50的加权平均成绩产生以下结果如表所示1,(28]。
使用加权平均法分析了评价结果的双轨音乐代基于chord-constrained GAN网络。四组的模型,计算结果为40 40%普通听众和60% 10音乐专业人士,如方程(5)。三个绩效评估指标的权重的一致性,早熟,和创新进行了分析,5:3:2,导致模型的四组的性能分析表2。模型的性能逐渐提高,和生成的旋律更现实的和很悦耳29日,30.]。
在音乐中,生成结果的核心是生成的音乐的恐惧。因此,恐惧的旋律由四组生成模型与连贯性和创造力,分别根据皮尔逊相关系数如方程(6)。分析结果如表所示3(31日]。
4所示。结论
介绍了基准模型在这个实验中,基于卷积敌对的音乐一代模型生成网络,它分为两个部分:第一节介绍了模型训练过程中使用的数据集,包括数据格式,数据类型,数据总量,和数据单元;第二节介绍了基线模型的模型结构,包括氮化镓。通过引入基线模型、基线模型可以更好地为后续优化工作。
数据可用性
原始数据支持了本文的结论将由作者没有提供过度的预订。
的利益冲突
作者声明,关于这项工作他们没有利益冲突。