文摘
本文定量分析的综合影响音乐网络。首先,11音乐特性选择从能源、流行,和其他方面建立一个综合评价指数的音乐影响,网页排名算法是用来量化音乐的影响。其次,使用多目标逻辑回归构建音乐相似性度量模型,结合音乐的影响力和相似性,判断的影响不同的音乐家是实际的影响。第三,影响和相似相同的音乐体裁和不同音乐流派进行了分析通过使用双向聚类分析方法。最后,套索地区用于特征选择获取音乐的变化因素在这一过程中进化和分析音乐发展的动态变化过程。因此,本文运用网络科学建立动态网络分析音乐的相似性,进化过程,以及音乐文化的影响,具有一定的研究意义和实用价值领域的音乐、历史、社会科学和实践。
1。介绍
作为人类文明的重要组成部分,音乐对人类社会的发展有着深远的影响。在创作音乐的过程中,艺术家受到许多因素的影响,如其他音乐家、音乐学校、音乐、社会活动和政治活动。反过来,音乐家的不断创新也促进音乐的发展。近年来,学者尝试使用机器学习和深度学习模式探索音乐发展的影响。根据我们的任务和初步的思考,我们搜索和阅读文章对音乐体裁分类和识别,音乐影响评估,等等。的研究内容相关的音乐流派分类,主要从单一的角度分析音乐的影响。一些文献认为音乐流派的角度分类,并在此基础上,具有较好的现实意义评价音乐的影响。
nas和萨哈1]分析了音乐对情绪的影响和创造力模型通过建立一个鸡蛋。Banerjee et al。2)使用确定性和非确定性的方法研究不同音乐的影响。在严肃的分析,从两个维度分析了音乐派别音响和音乐特征(3]。Suganda et al。4和李et al。5)建造了一个深层神经网络模型对音乐分类利用频谱,评估和综合的概念融合段特性提出的戴et al。6),音乐功能分割和提取的有效性验证,并介绍了长期短期记忆(LSTM)领域的音乐类型识别。Sim et al。7)使用多级MRA人工神经网络方法来理解和预测音乐的影响力和影响之间的关系。持续集成的基础上的传统过滤方法和包装方法,各种新的搜索算法和评价分类标准是不断变化的,如神经网络剪枝方法(8)和模糊熵评价特性集(9),它们提供了一个好主意,支持向量机(10)和高斯混合模型(11]。但和我们12)基于crnn算法分类音乐类型。程等。13]分析了音乐流派的优点强度测试。尼尔森et al。14]音乐情感识别方法的研究分析基于数据特性和李的(15LDA模型过程音乐标签,和加权处理提高了分类精度。甄et al。16]MFCC特征输入资讯模型并进行了gtzan实验数据集(17),验证了音乐流派中的资讯模型识别的有效性。Tzanetakis和做饭18)相比,梯度增强的能力模型和额外的树模型来提取多维数字音乐类型的特性和证明了两个模型可以有效地识别音乐类型的特征信息。高斯-赛德尔方法提出的唐纳德·戈德法布(19)和聚类的基本原理和思想提出的戈德法布等。20.)还提供思想创建音乐影响的指标。
本文构造一个全面、多维网络和音乐的影响,在此基础上,构造了一个音乐相似性度量模型的影响,探讨音乐,音乐学校的相似性,并详细音乐的动态变化。它主要包括以下几方面:创建音乐影响网络:PageRank是用来构造一个有向网络的类型之间的交互音乐家和音乐;研究构建音乐相似性度量模型:监督分类模型是用来计算样本的音乐相似;双向聚类:分析和内部流派之间的相似性和影响力;和套索回归:使用套索来识别指标显著解释动态因素和解释类型或艺术家如何随时间变化。现有的模型进行了分析,提出了一种通用模型考虑各种数据。整个想法是如图1。
2。数据源和基本假设
本文的数据来自于问题D2021年美国大学生数学建模竞赛。为了促进问题的解决方案,我们提出以下假设:(我)我们假设所有的音乐的平均特征由一个音乐家在一年内可以代表一个音乐家的音乐特点(2)我们假设所有的音乐家在一年内的平均特征可以代表整个的音乐特点(3)我们假设缺失的数据没有在模型中起着重要的作用(iv)我们假设没有偏差的内部指标之间的关系模型
3所示。探索性数据分析
当我们得到初步的数据集,我们首先用归一化法处理数据,通过数值评估现有的数据信息处理和比较,和我的数据之间的相关性和变化趋势,从而帮助我们理解原数据集的最大程度。这是我们发现的东西。
3.1。勘探数据损失的价值
通过数据集的分析,我们发现,没有缺失值的所有数据集,但还是有一些数据集之间的信息不对称。这是我们的分析。
ID为477787的音乐家没有信息“data_by_artist”,所以我们删除它。一些音乐家“data_by_artist”,没有“influence_data”中的数据,今年他们缺乏信息和流派的影响力。考虑大量的音乐家的信息,很少有音乐家缺乏信息。为了方便后续分析和建模,我们提取这些音乐家的“data_by_artist”的数据,删除之后,我们仍然有5602名音乐家的数据。与此同时,有很多人组成一个小比例的音乐。为方便分析,我们也删除它们。删除之后,我们还有91731音乐数据。
3.2。数据标准化
有时,由于模型的需要,我们需要规范连续变量在数据建模之前,也就是说,使用下面的公式: 在哪里元素的行吗我和j在数据集,列的平均值吗j,的标准偏差列j。
3.3。变量分析
我们计算均值、中值、分位数、最大、最小值和连续变量的“full_music_data”,结果如表所示1。
离散变量可以分为显式变量模式变量,和关键变量。其中,有88361个显式变量类型的0到3370 1型的变量。0型变量的数量是1型变量的26倍。根据经验,我们可以删除这个变量在未来的分析。有25324个显式变量类别0,66407年一级显式变量,在类别1和12个关键变量,用直方图的形式表达,如图2。
从图可以看出2“full_music_data”,有更多的类别0,2和9和更少的类别3和6的数据集,上面是一个探索性的分析每个数据集。在接下来的模型,我们将根据实际情况选择变量和观测的数据集的内容问题,背景知识,模型的应用范围。
4所示。定量排名基于PageRank算法的网络音乐的影响
4.1。PageRank原则
网页排名是基于超链接的搜索引擎技术。根据节点之间的联系,联系的重要性划分从0到10列,和10分是满分。高PR值表示该节点是非常重要的21]。PageRank示意图如图3。
4.2。计算音乐影响
本文的重要性有影响力的网络是按使用改进的PageRank算法[22,23计算,音乐家的影响。例如,对于音乐家的影响者和追随者,PageRank的原则如下。
首先,我们构造一个维度的邻接矩阵之间的关系n音乐家:
如果值的我行和j列的矩阵等于1,那么音乐家j有影响的音乐家吗我。相反,如果一行的值我和列j在矩阵等于0,那么音乐家j对音乐家没有影响吗我。
为了避免分歧,我们正常的列矩阵,矩阵中每一列的总和等于1:
为了避免算法收敛失败由于算法的死链,我们沿着连接跳音乐家有一定概率之间的关系。我们一起跳音乐家有一定概率之间的关系并跳转到任何音乐家有一定概率的 。数学语言来描述它是构造一个矩阵 。 在哪里是 与所有内部元素维度邻接矩阵 。我们设置了 。最后,我们初始化向量的影响程度 维度;也就是说, ,在哪里 ,通过下面的迭代公式,直到收敛,我们得到最终的影响向量 。
4.3。分析计算结果
我们使用了PageRank公式计算了5602名音乐家的影响和重要性。结果如表所示2。
从表2,我们发现音乐家ID 36106、3495279和3480388三个最有影响力的音乐家。1960年、2010年和2010年的第一个十年是他们的音乐生涯中,分别。流行/摇滚音乐家组成75%的前20名,和拉丁音乐家占15%。从音乐家开始写的时候,50%的人开始写在2010年和2000年的25%,和75%的前20名音乐家在21世纪开始写。
为了进一步探索之间的关系影响,流派,音乐家在目标网络,我们进行了一次深入分析影响力的音乐家5062名音乐家之一。200最具影响力的音乐家的影响占10.12%的第一个最有影响力的音乐家。基于评估的音乐家的影响在先前的研究中,我们定义了前200名音乐家的影响力。选择有影响力的音乐家,我们比较他们的音乐流派,他们开始自己的职业生涯。结果如图4来5。
从图4,我们发现最具影响力的音乐类型是流行/摇滚,占65.5%,其次是乡村音乐,电子音乐,和R&B音乐,分别占11.5%、5%和5%。而言,当音乐家开始职业生涯的时候,45.5%的人开始他们的职业生涯在2010年和2020年的21.5%,这意味着67%的最具影响力的音乐家在21世纪初开始自己的事业。在1990年,26.5%的音乐家在音乐中开始工作,1980年,4.5%的在音乐中开始工作。到20世纪末,31%的音乐家开始写音乐。基于上述分析,我们可以得出初步结论:自20世纪末以来,受经济和社会稳定、科学和文化的发展,和其他因素,流行/摇滚,国家,电子、R&B、和其他音乐学校迅速发展,这些学校的数量和影响力的音乐家都增加了。
5。音乐相似性度量模型
5.1。监督分类模式的原则
当响应变量是二进制,逻辑回归(24通常使用)模式。响应变量为代表 ,在哪里 ,和需要的价值元素的标签是任意的。逻辑回归模型使用预测的线性函数来表达类条件概率:
或quasi-conditional概率的对数公式:
线性逻辑回归模型可以扩展到多元逻辑模型时分类反应变量的水平k>2。传统的方法是延长的条件概率的对数公式二进制对数回归模型对数k−1。
这是维向量的系数 。我们选择了一种不对称的方法。我们的模型如下:
如果没有约束,没有有价值的参数。因此,我们调整最大似然(多项式)拟合模型。换句话说,让 和 是我th反应;我们估计的参数通过最大化惩罚对数的概率。 在哪里y是指标响应矩阵的维度 ,和元素
5.2。音乐相似模型的建设
我们使用多目标物流模型25构建音乐相似性指数,具体过程如下:(我)以20音乐体裁为因变量和音乐特征作为独立变量,构造多目标物流模型获取每个音乐在20音乐流派的概率值。然后,我们选择K类型概率最高的流派中,每个音乐是最有可能属于 ,我们组 ;也就是说, 。(2)我们得到了 ,音乐在六个音乐流派和计算在十字路口的元素数量 ,最后,我们得到的相似性 。
这种观点认为,每一个音乐流派都有自己的特点,所以很容易认为每个音乐流派都可以被视为一个完整的音乐特性。如果两种音乐非常相似,他们的音乐特点应该是非常相似的,最高的前六的音乐类型物流模型获得的概率应该高相似性巧合。我们把两首歌,厄尼和流浪的眼睛,音乐家178301作为一个例子。通过多目标物流分析,概率最高的前六个类型如表所示3。
如此,他们的相似度是1。可以说,这两个相似的音乐片段仍然是非常高的。
此外,我们还可以使用物流背景音乐相似性的度量模型来计算相似性的音乐家。如左边的图所示图6,颜色越深的表达在不同的音乐家,他们的音乐特性越接近,这意味着他们的音乐之间的相似性越高。
(一)
(b)
5.3。案例分析
不同的音乐家的音乐特征影响的音乐家之间的距离,也影响音乐家之间的相似性。所以,类似的音乐家在一个类型必须超过cross-genre音乐家吗?为了研究这个问题,我们从5062名音乐家和分析随机选择100名音乐家之间的相似之处同样的音乐家和不同类型的音乐家。结果正确的图在图所示7。
下面可以看到从不同类型图之间的相似度值7相似:一般来说,音乐在一个统一的风格通常是高于不同流派。音乐相似性超过0.6相同的类型,和相似的选择1是由于样本规模小,导致少数音乐家从一个特定的类型。它可以通过扩大样本来解决。对于一些流派,他们更类似于一些流派,甚至高于这个流派中的相似。例如,声乐音乐家和乡村音乐的音乐家之间的相似度为0.65,大于乡村音乐的音乐家之间的0.64。最初这一现象的原因可以推测的普及声乐学校早于乡村音乐,和声乐体裁的音乐特征有一定的基础。在乡村音乐的发展,声乐体裁可以得到更多的引用从音乐风格的声乐体裁,而且有很高的相似性。
6。分析音乐学校
6.1。双向聚类原理
双向聚类的目的(26)是找到子矩阵满足条件在基因表达数据矩阵,这样的特性集的子矩阵的表达式设置的相应的观察是一致的。这类似于最好的子集选择回归问题。正如最好的选择问题是成功地解决了通过求解凸子集(套索)代理问题,我们将使用凸轻松组合问题选择行和列的分区。然后,双向聚类模型相当于棋盘平均模型,详尽的因为每个矩阵元素是分配给一个双向的 集群。这是不同于其他双向聚类模型,识别可能重叠的行和列的子集,但并不详尽。棋盘的参数估计模型包括分区,每个分区的平均价值。
6.2。双向聚类过程
我们确定分区通过最小化凸标准如下: 在哪里J , ,和代表了 - - - - - -一个矩阵的列(行)。二次项量化的近似程度来 ,和正则项惩罚偏离棋盘格。参数 调整这两个术语和之间的权衡 。
本文提出的交替最小化算法(AMA)气埃里克和兰格(27)用于解决凸聚类问题。惩罚系数的增加从小型到大型(1 5.62 31.62177.82),我们得到数据的聚类过程8(一个)- - - - - -8 (d)。
(一)
(b)
(c)
(d)
可以看出,与惩罚系数的增加,重建的U矩阵x逐渐提出了棋盘的整体模式。接下来,我们只看惩罚系数的聚类结果。
6.3。双向聚类的结果分析
基于响度、价、能源、节奏、danceability, speechiness,活泼,acousticness、持续时间、和instrumentalness分类如图20个不同的音乐学校9。
根据双向聚类的结果,20种不同的音乐类型分为5组。根据节奏的比较,五个音乐的异同特征值的拉丁文,国家,儿童,雷鬼音乐,蓝调,流行/摇滚,R&B,电子,和宗教都有良好的节奏和积极的活力。国际之间有明显的相似之处,民间和声乐,所有这些都有一定的节奏感和温和的整体响度。通过声音的对比、持续时间和乐器,我们可以看到,有一些明显的相似之处在古典,新时代,阶段,和屏幕音乐学校,类似的曲目和更高程度的乐器。同样的,轻松的音乐非常类似于爵士乐,有特定的声乐曲目。喜剧/口语分成组。在19日音乐学校,只有喜剧/口语话语和活泼的积极价值,这表明喜剧/口语是一个音乐学校演讲或朗诵诗歌的观众。
7所示。追随者的影响
7.1。实际影响的筛选原则
音乐家可以列出十几个或更多的音乐家们产生影响。ICM为我们提供了一个数据集,包括对他们的关系与他们的追随者的影响。但这些有影响力的音乐家真正影响他们的追随者的音乐?为了进一步探索影响有影响力的人的追随者,我们使用数据集之间的关系影响者和追随者,以及音乐家之间的相似矩阵构造一个矩阵,可以过滤掉的实际影响。
首先,一个0 - 1矩阵米的 由使用的数据集,其中0表示没有关系两个音乐家和1代表两位音乐家之间的关系。例如,我们可以设置米如下:
然后,5602名音乐家之间的相似矩阵是用来构造0 - 1矩阵 ;也就是说,当音乐家之间的相似度矩阵中的元素是大于阈值,相应的位置的元素矩阵作为1;否则,当他们不大于阈值,相应的位置的元素矩阵是0。结合之前的研究,我们设置阈值的相似度为0.8。例如,从相似矩阵的转换P矩阵是
最后,一个新的矩阵对应元素相乘得到的0 - 1矩阵和矩阵。矩阵中的每个元素的含义如下:相似的叠加和影响力两个音乐家,我们定义为实际的影响。如果没有影响两位音乐家之间的关系,实际的影响是0。如果有两个音乐家之间的影响关系,实际的影响取决于它们之间的相似度大于阈值。当相似度大于阈值时,有一个真正的影响两个音乐家之间的关系。 在哪里 。
7.2。案例分析
我们随机选择5602名音乐家和带着音乐家ID 816890(约翰尼·卡什)作为一个例子。基于音乐家之间的交互和相似数据集与ID 816890(约翰尼·卡什)和其他音乐家,筛选矩阵构造的实际影响。我们终于找到了真正影响他的音乐家,如表所示4。
在得到真正的有影响力的音乐家ID 816890(约翰尼·卡什),我们进一步认为:音乐家真的影响约翰尼·卡什有更多的“传染性”音乐特点,还是他们都扮演相同角色,影响约翰尼·卡什的音乐吗?为了探究这个问题,我们做了以下。
首先,我们得到规范化数据ID为816890的音乐家(约翰尼·卡什)和音乐特点,真正影响他的音乐家,如表所示5。
然后,追随者的绝对距离的总和计算ID为816890 9音乐功能。例如,对于舞蹈的音乐特性,得到绝对距离的总和:
九个功能,绝对距离的总和计算如图10。
最后,看看图10。我们发现,与其他音乐特性相比,绝对的和声学和工具之间的距离很小。音乐和谐是两个音乐特征,音乐家身份证号816890有一个真正的影响这两个特征。
8。音乐的演变
8.1。革命的特点的分析
音乐进化的过程中,一些革命性的变化,音乐特征可能导致重大飞跃进化(28,29日]。所以,音乐特点是革命性的数据?为了找到革命音乐的特点,我们做了以下工作。
我们使用“data_by_year”数据集,分析了从1921年到2020年各种音乐的波动特征。为了消除的影响变量的水平值和不同计量单位对测量值的离散程度,我们选择使用色散系数来分析音乐的波动特征。计算公式如下:
我们计算色散系数的十个音乐特点和设置阈值为0.5。然后,当一个音乐特性的色散系数大于0.5,它将在一定程度上是革命性的。每个音乐特性的色散系数如表所示6。
从表6,我们可以看到,声学的弥散系数,乐器,音乐和语音功能大于0.5,这是一项革命性的音乐特性。
8.2。重大变化的影响
革命音乐的特点往往反映在创造的歌曲的音乐家。所以,在音乐家的定向网络影响力,有什么有重大影响力的音乐家重大变化的影响者是谁?为了找出答案,我们做了以下工作。
首先,我们得到acousticness的变化趋势,instrumentalness, speechiness从1921年到2020年。
从数据11- - - - - -13,我们发现acousticness大大改变了1926年,1927年,1929年、1930年和1946年。1924年、1929年和1946年,巨大的变化发生在instrumentalness。1929年、1930年和1935年,speechiness改变了很多。
其次,我们以三个革命音乐特征的值为标准,当他们都发生了巨大变化,寻找最小的绝对距离的歌曲的音乐特点和标准的价值对应的年。在1924、1926、1927、1929、1930、1935年和1946年,共有10与革命性的应用程序跟踪特征被发现(如表所示7)。
其中,1924年革命音乐特色曲目不是“influence_data”结构,所以我们寻找相似的轨迹在过去的几年里。所以,在1921年,我们发现创建的曲目音乐家ID 26350是最近的一个革命性的音乐。
最后,根据曲目与革命音乐的特点,我们决定创建这个剧目的音乐家和计算他们的音乐的影响通过定向网络音乐家的影响。结果如表所示8。
8.3。音乐学校的进化
8.3.1。坐标轴的方法解决套索回归
拉索是一个线性模型估计稀疏系数。它倾向于选择解决方案以更少的非零系数,从而有效地减少的数量给定的解决方案所依赖的特性。在一定条件下,拉索可以准确地恢复一组非零系数(30.]。
在数学上,它由一个线性模型和一个额外的正则化项。最小化的目标函数如下:
因此,套索估计解决了最小二乘法最小化损失增加 ,在哪里是恒定的,是l1范数的系数向量。
套索使用坐标轴下降法的拟合系数算法。坐标轴下降法是沿着坐标轴的方向,这是不同的梯度下降法。它通过启发式方法迭代一步一步找到函数的最小值。
8.3.2。套索回归
为了分析某一音乐流派的影响过程随着时间的推移,我们使用套索回归筛选的指标可以揭示动态影响因素,然后研究音乐流派和音乐家如何随时间变化(31日]。
首先,艺术家的规范化数据用于设置数据集。独立变量作为音乐家的音乐特点,和相关变量设置如下:
套索回归结果如下:
它显示了三个独立变量的影响,即价,响度,和acousticness因变量。y是更重要的,它可以揭示动态影响者。
其次,我们随机选择一个音乐家和分析结果显示随时间变化的套索回归。我们选择一个音乐家的ID号码是26350。数据14- - - - - -16显示音乐的变化的三个特点:价,响度,acousticness时间。
正如你所看到的数字14- - - - - -16音乐家的价与ID 26350 0和0.8之间波动,但在大多数情况下,它仍将在0.2和0.5之间。随着时间的流逝他的响度逐渐减弱,但仍在一个典型的范围。他acousticness随时间波动,但波动强度非常小,通常保持一个相对稳定的值。只有几次,会有较大的波动。
最后,我们选择任何类型,使用同样的方法来分析其随时间变化。我们选择乡村音乐的类型,和三个音乐特征变化随着时间的推移,如图17- - - - - -19:
从图17- - - - - -19的价,我们发现乡村音乐流派显示一个下降的趋势随着时间的推移,从0.65到0.5,这表明乡村音乐的风格正在从高兴难过。乡村音乐音量的增加随着时间的流逝,但变化很小的范围,它一直保持在-10左右。乡村音乐的acousticness逐年下降,从0.7到0.2,这已经改变了很多。
9。敏感性分析
在问题6中,我们使用套索回归筛选变量,我们设置惩罚系数为0.1,以及由此产生的公式如下:
现在,我们指的是实证研究(32),设置惩罚系数0.01区间,0.08,0.09,0.1,0.11,和0.12和测试回归系数的变化在不同的相应公式。最后,我们画出折线图,结果如图20.。
可以看出,增加的惩罚系数,轻轻回归系数的变化,也没有暴力的振动,这说明我们的模型不敏感的惩罚系数和具有良好的稳定性。
10。结论
网页排名的基础上,本文建立了一个动态分析的网络音乐影响通过使用11个特征指标,分析不同类型和音乐家的音乐的影响。使用多目标逻辑回归建立音乐相似性度量模型,分析不同流派之间的音乐相似和音乐家结合音乐影响网络分析音乐家之间的交互是否产生实际影响他们的作品。同时,从音乐的角度,采用双向聚类的方法,分析不同音乐流派之间的相互影响和相似和相同的音乐流派。最后,套索地区方法用于选择特性,探索音乐的变化因素在这一过程中发展,并分析音乐的动态变化过程(33- - - - - -36]。
在本文中,我们选择多目标逻辑回归,双向聚类,和其他方法;这些方法有精度高的特点,易于理解。与此同时,使用可视化工具来帮助分析很多次,这有助于消化和掌握信息直观的。但本文的分析也不够。相似性指数建设的过程中,相比之下,直接计算距离,计算复杂度比较高,需要更多的计算时间,面对大量的数据。由于数据的可用性和量化,本文并没有充分利用一些离散的音乐特征。
在模型改进的工作,我们将减少错误通过增加变量和样本的数量和分析方面的不足,可能会导致错误的数据处理、模型建立、模型求解。建立一个模型,可以分析更多的音乐特性(包括虚拟特性),我们收集更多关于音乐家的信息,扩大分析对象的数量,使模型在实际应用更加普遍。
综上所述,我们使用网络科学建立动态网络分析音乐的相似性,演化过程,音乐文化的影响。我们的研究结果可以提供一个理论依据评估不同音乐学校的影响有一定的研究意义和实用价值领域的音乐、历史、社会科学和实践。
数据可用性
使用的数据来支持本研究的结果包括在本文中。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究是由哲学和社会科学的一般项目规划安徽省:研究对政府R&D补贴促进安徽高新技术产业的绿色创新效率(不:AHSKY2019D085),教育部的教学与研究基金项目的安徽(2020 jyxm0017),“一流的课程”,安徽财经大学(acylkc202008)和教学与研究基金项目的安徽财经大学(acjyyb2020011和acjyyb2020014)。