音乐风格分类数学建模.docx
- 文档编号:27113764
- 上传时间:2023-06-27
- 格式:DOCX
- 页数:23
- 大小:327.61KB
音乐风格分类数学建模.docx
《音乐风格分类数学建模.docx》由会员分享,可在线阅读,更多相关《音乐风格分类数学建模.docx(23页珍藏版)》请在冰豆网上搜索。
音乐风格分类数学建模
一、问题重述
随着互联网的发展,流行音乐的主要传播媒介从传统的电台和唱片逐渐过渡到网络下载和网络电台等。
网络电台需要根据收听者的已知喜好,自动推荐并播放其它音乐。
由于每个人喜好的音乐可能横跨若干种风格,区别甚大,需要分别对待。
这就需要探讨如何区分音乐风格的问题。
在流行音乐中,传统的风格概念包括Pop(流行)、Country(乡村)、Jazz(爵士)、Rock(摇滚)、R&B(节奏布鲁斯)、NewAge(新世纪)等若干大类,它们分别可以细分成许多小类,有些小类甚至可以做更进一步的细分。
而每首歌曲只能靠人工赋予风格标签。
这样的做法有许多不足:
有的类别之间关系不清楚,造成混乱;有的类别过度粗略或精细;有的类别标签没有得到公认;有的音乐归属则存在争议或者难以划归。
二、问题提出
建立合理的数学模型,对流行音乐的风格给出一个自然、合理的分类方法,以便给网络电台的推荐功能和其它可能的用途提供支持。
三、问题分析
对于流行音乐风格的分类,要从以下三个方面进行考虑:
(1)探究影响流行音乐风格分类的主要因素。
目前,旋律、音高、和声、音色、复调和节拍等都是体现音乐风格的因素。
通过建立递阶层次结构,构造判断矩阵并赋值、层次单排序(计算权向量)与检验、主成分分析的数学模型等方法,确定影响流行音乐风格的主要因素;
(2)音乐特征提取。
通过FFT进行频谱分析,利用不同类别音乐的统计规律提取特征向量;
(3)进行归一化处理;
(4)利用BP神经网络分类算法进行分类。
四、模型假设
4.1忽略主观因素对流行音乐风格分类的影响
4.2假设每个音乐分类是明确的
4.3假设流行音乐市场处于稳定状态
4.4其他所发生的偶然因素对模型无影响
五、主要符号说明
神经网络的输入值
神经网络的预测值
、
神经网络权值
a
隐含层阈值
b
输出层阈值
数据序列最小数
数据序列均值
学习速率
六、模型建立与求解
6.1探究影响流行音乐风格分类的主要因素
6.1.1旋律对音乐风格的影响
6.1.1.1分析
旋律亦称曲调,是经过艺术构思而形成的若干乐音的有组织、有节奏的和谐运动。
它建立在一定的调式和节拍的基础上,按一定的音高、时值和音量构成的、具有逻辑因素的单声部进行的。
在音乐作品中,旋律是表情达意的主要手段,也是一种反映人们心感受的艺术语言。
对于流行音乐风格分类来说,每个风格各异,歌曲旋律也不尽相同。
如rap舞曲它以人声的吟唱加上鼓的清晰浓郁节奏,歌词通俗,朗朗上口;乡村音乐在唱法上多用民间本嗓演唱,形式多为独唱或小合唱,用吉他、班卓琴、口琴、小提琴伴奏。
6.1.1.2模型的建立
因为影响旋律的因素有很多,我们采用层次分析法来解决这一问题。
所谓层次分析法,是指将一个复杂的多目标决策问题作为一个系统,将目标分解为多个目标或准则,进而分解为多指标(或准则、约束)的若干层次,通过定性指标模糊量化方法算出层次单排序(权数)和总排序,以作为目标(多指标)、多方案优化决策的系统方法。
6.1.1.2.1建立递阶层次结构
AHP递阶层次结构三个层次组成:
目标层、准则层、指标层,如图所示:
6.1.1.2.2构造判断矩阵并赋值
构造判断矩阵时用到1-9标度,对重要性程度按1-9赋值(重要性标度值见下表)
重要性标度
含义
1
表示两个元素相比,具有同等重要性
3
表示两个元素相比,前者比后者稍重要
5
表示两个元素相比,前者比后者明显重要
7
表示两个元素相比,前者比后者强烈重要
9
表示两个元素相比,前者比后者极端重要
2,4,6,8
表示上述判断的中间值
倒数
若元素I与元素j的重要性之比为aij,则元素j与元素I的重要性之比为aji=1/aij
6.1.1.2.3层次单排序(计算权向量)与检验
层次单排序是指每一个判断矩阵各因素针对其准则的相对权重,所以本质上是计算权向量。
计算权向量有特征根法、和法、根法、幂法等,这里简要介绍和法。
和法的原理是,对于一致性判断矩阵,每一列归一化后就是相应的权重。
对于非一致性判断矩阵,每一列归一化后近似其相应的权重,在对这n个列向量求取算术平均值作为最后的权重。
具体的公式是:
需要注意的是,在层层排序中,要对判断矩阵进行一致性检验。
在特殊情况下,判断矩阵可以具有传递性和一致性。
一般情况下,并不要求判断矩阵严格满足这一性质。
但从人类认识规律看,一个正确的判断矩阵重要性排序是有一定逻辑规律的,例如若A比B重要,B又比C重要,则从逻辑上讲,A应该比C明显重要,若两两比较时出现A比C重要的结果,则该判断矩阵违反了一致性准则,在逻辑上是不合理的。
因此在实际中要求判断矩阵满足大体上的一致性,需进行一致性检验。
只有通过检验,才能说明判断矩阵在逻辑上是合理的,才能继续对结果进行分析。
一致性检验的步骤如下:
第一步,计算一致性指标C.I.(consistencyindex)
第二步,查表确定相应的平均随机一致性指标R.I.(randomindex)
据判断矩阵不同阶数查下表,得到平均随机一致性指标R.I.。
平均随机一致性指标R.I.表(1000次正互反矩阵计算结果)
矩阵阶数
1
2
3
4
5
6
7
8
R.I.
0
0
0.52
0.89
1.12
1.26
1.36
1.41
矩阵阶数
9
10
11
12
13
14
15
R.I.
1.46
1.49
1.52
1.54
1.56
1.58
1.59
第三步,计算一致性比例C.R.(consistencyratio)并进行判断
当C.R.<0.1时,认为判断矩阵的一致性是可以接受的,C.R.>0.1时,认为判断矩阵不符合一致性要求,需要对该判断矩阵进行重新修正。
6.1.1.2.4.层次总排序与检验
总排序是指每一个判断矩阵各因素针对目标层(最上层)的相对权重。
这一权重的计算采用从上而下的方法,逐层合成。
很明显,第二层的单排序结果就是总排序结果。
假定已经算出第k-1层m个元素相对于总目标的权重w(k-1)=(w1(k-1),w2(k-1),…,wm(k-1))T,第k层n个元素对于上一层(第k层)第j个元素的单排序权重是pj(k)=(p1j(k),p2j(k),…,pnj(k))T,其中不受j支配的元素的权重为零。
令P(k)=(p1(k),p2(k),…,pn(k)),表示第k层元素对第k-1层个元素的排序,则第k层元素对于总目标的总排序为:
w(k)=(w1(k),w2(k),…,wn(k))T=p(k)w(k-1)或
I=1,2,…,n
同样,也需要对总排序结果进行一致性检验。
假定已经算出针对第k-1层第j个元素为准则的C.I.j(k)、R.I.j(k)和C.R.j(k),j=1,2,…,m,则第k层的综合检验指标
C.I.j(k)=(C.I.1(k),C.I.2(k),…,C.I.m(k))w(k-1)
R.I.j(k)=(R.I.1(k),R.I.2(k),…,R.I.m(k))w(k-1)
当C.R.(k)<0.1时,认为判断矩阵的整体一致性是可以接受的。
6.1.1.2.5结果分析
通过对排序结果的分析,得出最后的决策方案。
6.1.1.3.模型的求解
通过使用AHP软件,我们得到了以下数据:
旋律
曲调
主题
节奏
曲调
1
1/2
1/3
主题
2
1
1/2
节奏
3
2
1
单层权重
0.1634
0.2970
0.5396
注:
lmax=3.0092;CI=0.0046;RI=0.58;CR=0.0079
曲调因素
声音腔调
声音高低
语势轻重缓急
声音腔调
1
3
2
声音高低
1/3
1
1/2
语势轻重缓急
1/2
2
1
单层权重
0.5396
0.1634
0.2970
注:
lmax=3.0092;CI=0.0046;RI=0.58;CR=0.0079
主题因素
歌词
作者情感
背景音
歌词
1
1/2
1/3
作者情感
2
1
1/2
背景音
3
2
1
单层权重
0.1634
0.2970
0.5396
注:
lmax=3.0092;CI=0.0046;RI=0.58;CR=0.0079
节奏因素
乐器特点
节拍快慢
乐器特点
1
2
节拍快慢
1/2
1
单层权重
0.6667
0.3333
注:
lmax=2;CI=0;RI=1E-6;CR=0
通过上述分析,我们可以得到节奏在旋律因素中起到主要的影响,其次是主题因素和曲调因素。
在曲调因素中,声音腔调对其影响很大;在主题因素中,背景音到很大的影响;在节奏因素中,乐器特点对其影响占有很大的比例。
综上所述,旋律因素对音乐风格分类有很大的影响。
6.1.2音高对音乐风格的影响
音高即音的高低。
音乐如语言,孤立的音是构不成乐句的,有了乐句才能构成乐段,从而表达完整的乐思。
由一组高低不同的音按照一定的调式关系和节奏关系组织起来,并体现着相对稳定的乐思,便形成了旋律。
由于音高之间的次第变化,使旋律进行形成上行、下行、平行、波浪等多种进行方向。
6.1.3和声对音乐风格的影响
两个以上不同的音按一定的法则同时发声而构成的音响组合称为和声。
和声有明显的浓,淡,厚,薄的色彩作用;还有构成分句,分乐段和终止乐曲的作用。
在调性音乐中,和声同时具有功能性与色彩性的意义。
和声的功能,是指各和弦在调性所具有的稳定或不稳定的作用、它们的运动与倾向特性、彼此之间的逻辑联系等。
和声的功能与调性密切相关,离开了调性或取消了调性,和声也就失去了它的功能意义。
和声的色彩,是指各种和弦结构、和声位置、织体写法与和声进行等所具有的音响效果。
和声的色彩是和声表现作用的主要因素,无论在调性音乐或非调性音乐中,它都具有重要意义。
6.1.4音色对音乐风格的影响
音色是指声音的感觉特性。
我们可以通过音色的不同去分辨不同的发声体。
音色是声音的特色,根据不同的音色,即使在同一音高和同一声音强度的情况下,也能区分出是不同乐器或人发出的。
音色的不同取决于不同的泛音,每一种乐器、不同的人以及所有能发声的物体发出的声音,除了一个基音外,还有许多不同频率的泛音伴随。
正是这些泛音决定了其不同的音色,使人能辨别出是不同的乐器甚至不同的人发出的声音。
6.1.5复调对音乐风格的影响
复调是若干旋律的同时结合。
音乐从声部的组合方式上分为单音音乐,主调音乐,复调音乐三类。
复调是音乐的重要手段之一。
它通过旋律与旋律的结合,既能现时刻划两个或几个具有鲜明性格的音乐形象和表达一个音乐形象的不同侧面。
又能促进乐思形成连续不断的发展,还能够加强乐曲结构上的统一性。
6.1.6节拍对音乐风格的影响
当音乐的节奏按照某种时值长度和轻重关系进行有序的组织时,就形成了节拍。
所以,节拍即数列对音乐时值、节奏的逻辑组织。
现代音乐中的各种变节拍,也常反映为另外一些数列控制。
如斯特拉文斯基的《春之祭》中就有等差数列节拍等,被西方视为现代手法。
特定的节奏、节拍可能具备特定的体裁特征,如圆舞曲、马祖卡、波罗奈兹都是三拍子,但圆舞曲的强拍在小节第一拍,马祖卡的节拍重音在第二拍,而波罗奈兹的特定节奏更给人一些进行曲似的感受。
从而也使三种舞曲获得了完全不同的风格特点和气质。
6.2对各影响因素进行主成分分析
6.2.1模型的建立
6.2.1.1主成分分析基本思想
主成分分析是数学上对数据降维的一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。
通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。
但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?
在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。
为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0。
称F2为第二主成分,依此类推可以构造出第三、第四、…、第p个主成分。
6.2.1.2主成分分析的数学模型
设有n个样品(多元观测值),每个样品观测p项指标(变量):
X1,X2,…,Xp,得到原始数据资料阵:
其中Xi=(x1i,x2i,…,xni)',i=1,2,…,p。
用数据矩阵X的p个列向量(即p个指标向量)X1,X2,…,Xp作线性组合,得综合指标向量:
简写成:
Fi=a1iX1+a2iX2+…+apiXpi=1,2,…,p
为了加以限制,对组合系数ai'=(a1i,a2i,…,api)作如下要求:
即:
ai为单位向量:
ai'ai=1,且由下列原则决定:
1)Fi与Fj(i≠j,i,j=1,…,p)互不相关,即Cov(Fi,Fj)=0,并有Var(Fi)=ai'Σai,其中Σ为X的协方差阵
2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,即
,其中c=(c1,c2,…,cp)'
F2是与F1不相关的X1,X2,…,Xp一切线性组合中方差最大的,…,Fp是与F1,F2,…,Fp-1都不相关的X1,X2,…,Xp的一切线性组合中方差最大的。
满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值i,每一个主成分的组合系数
ai'=(a1i,a2i,…,api)
就是相应特征值i所对应的单位特征向量ti。
方差的贡献率为
,i越大,说明相应的主成分反映综合信息的能力越强。
6.2.1.3主成分分析的步骤
(1)计算协方差矩阵
计算样品数据的协方差矩阵:
Σ=(sij)pp,其中
i,j=1,2,…,p
(2)求出Σ的特征值及相应的特征向量
求出协方差矩阵Σ的特征值12…p>0及相应的正交化单位特征向量:
则X的第i个主成分为Fi=ai'Xi=1,2,…,p。
(3)选择主成分
在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。
一般用方差贡献率
解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率
达到足够大(一般在85%以上)为原则。
(4)计算主成分得分
计算n个样品在m个主成分上的得分:
,i=1,2,…,m
(5)标准化
实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。
消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:
其中
,
,j=1,2,…,p。
标准化后的数据阵记为X*,其中每个列向量(标准化变量)的均值为0,标准差为1,数据无量纲。
标准化后变量的协方差矩阵(CovarianceMatrix)Σ=(sij)pp,即原变量的相关系数矩阵(CorrelationMatrix)R=(rij)pp:
i,j=1,2,…,p
此时n个样品在m个主成分上的得分应为:
Fj=a1jX1*+a2jX2*+...+apjXp*j=1,2,…,m
6.2.2模型的求解
利用spss软件,我们进行分析:
从碎石图可以看出,与特定乐曲联系最为密切的是旋律和音高。
当旋律和音高确定了,无论演奏的音色如何,速度快慢,音量大小,听者都能辨认出乐曲,所以旋律和音高是比较适当的音乐特征。
需要注意的是,绝对的音高不能作为音乐特征,因为同一乐曲是可以移调演奏的;同样地,节奏速度的改变也不能作为音乐特征,因为同样的乐曲演奏的速度也会有变化。
6.3用matlab进行音乐特征提取
6.3.1利用FFT进行频谱分析
若信号本身是有限长的序列,计算序列的频谱就是直接对序列进行FFT运算求得
,
就代表了序列在
之间的频谱值。
幅度谱
相位谱
若信号是模拟信号,用FFT进行谱分析时,首先必须对信号进行采样,使之变成离散信号,然后就可按照前面的方法用FFT来对连续信号进行谱分析。
按采样定理,采样频率
应大于2倍信号的最高频率,为了满足采样定理,一般在采样之前要设置一个抗混叠低通滤波器。
用FFT对模拟信号进行谱分析的方框图如下所示。
截取20秒时长的乡村音乐,得到波形和频谱图如下:
6.3.2特征提取分析
上文中我们知道了与特定乐曲联系最为密切的是旋律和音高。
根据旋律的不同,可将音乐分为平缓部分、高潮等部分,决定音乐风格的基本是高潮部分,如高潮出现的时间、次数,以及强度等。
特征的提取的工作就实际上就可以是一个分类的过程:
将每
一个帧分类,将高潮部分和相对激烈的帧提取出来作为特征向量。
首先,将音乐划分为一系列的帧,对每一个帧用下式计算FE:
根据
,计算得到静音阈值,并依次阈值对FE进行过滤,剩下的片段认为是非背景声。
6.3.3特征提取结果
我们选取了15个音乐片段进行实验,每段音乐截取20秒时长进行分析,依据以上算法得到的结果画出分布图如下:
图中,红色圆点表示Piano样本;绿色方块表示Rock样本;蓝色星号表示Pop样本。
可以看到,由于Piano风格的音乐相对比较舒缓,“高潮”部分就比较稀疏,而且距离的方差较大;而与其风格截然不同的Rock风格的音乐节奏比较紧快,“高潮”迭起,表现为高潮段落之间相隔较短,距离方差也相对较小。
上图的结果正好符合这样的分析。
从图中还可以看到,各种不同风格类型的音乐其特征向量虽然差别较大,但有明显的聚簇。
从而证明了这样提取出来的特征向量是有效的。
6.4基于BP神经网络的分类算法
6.4.1BP神经网络介绍
BP神经网络是一种多层前馈神经网络,该网络的主要特点是信号前向传递,误差反向传播。
在前向传递中,输入信号从输入层经隐含层逐层处理,直至输出层。
每一层的神经元状态只影响下一层神经元状态。
如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值和阈值,从而使BP神经网络预测输出不断逼近期望输出。
BP神经网络的拓扑结构如图所示。
,
,…,
是BP神经网络的输入值,
,
,…,
是BP神经网络的预测值,
和
为BP神经网络权值。
从图可以看出,BP神经网络可以看成一个非线性函数,网络输入值和预测值分别为该函数的自变量和因变量。
当输入节点数为n,输出节点数为m时,BP神经网络就表达了从n个自变量到m个因变量的函数映射关系。
6.4.2BP神经网络训练步骤
BP神经网络预测前首先要训练网络,通过训练使网络具有联想记忆和预测能力。
BP神经网络的训练过程包括以下几个步骤。
步骤1:
网络初始化。
根据系统输入输出序列(X,Y)确定网络输入层节点数n、隐含层节点数l,输出层节点数m,初始化输入层、隐含层和输出层神经元之间的连接权值
,
,初始化隐含层阈值a,输出层阈值b,给定学习速率和神经元激励函数。
步骤2:
隐含层输出计算。
根据输入向量X,输入层和隐含层间连接权值
以及隐含层阈值a,计算隐含层输出H。
式中,l为隐含层节点数;f为隐含层激励函数,该函数有多种表达形式,本文所选函数为:
步骤3:
输出层输出计算。
根据隐含层输出H,连接权值
和阈值b,计算BP神经网络预测输出O。
步骤4:
误差计算。
根据网络预测输出O和期望输出Y,计算网络预测误差e。
步骤5:
权值更新。
根据网络预测误差e更新网络连接权值
和
。
式中,
为学习速率。
步骤6:
阈值更新。
根据网络预测误差e更新网络节点阈值a,b。
步骤7:
判断算法迭代是否结束,若没有结束,返回步骤2。
6.4.3BP神经网络语音特征信号分类
下面我们选取了民歌、古筝、摇滚和流行四类,用BP神经网络进行分类。
基于BP神经网络的语音特征信号分类算法建模包括BP神经网络构建、BP神经网络训练和BP神经网络分类三步,算法流程如图所示。
BP神经网络构建根据系统输入输出数据特点确定BP神经网络的结构,由于语音特征输入信号有24维,待分类的语音信号共有4类,所以BP神经网络的结构24-254,即输入层有24个节点,隐含层有25个节点,输出层有4个节点。
BP神经网络训练用训练数据训练BP神经网络。
共有2000组语音特征信号,从中随机选择1500组数据作为训练数据训练网络,500组数据作为测试数据测试网络分类能力。
BP神经网络分类用训练好的神经网络对测试数据所属语音类别进行分类。
6.4.4归一化处理
数据归一化方法是神经网络预测前对数据常做的一种处理方法。
数据归一化处理把所有数据都转化为[0,1]之间的数,其目的是取消各维数数据间数量级差别,避免因为输入输出数据数量级差别较大而造成网络预测误差较大。
数据归一化的方法主要有以下两种。
(1)最大最小法。
函数形式如下:
式中,
为数据序列中的最小数;
为序列中的最大数。
(2)平均数方差法。
函数形式如下:
式中,
为数据序列的均值;
为数据的方差。
本文采用第一种数据归一化方法。
6.4.5结果分析
用训练好的BP神经网络分类语音特征信号测试数据,BP神经网络分类误差和神经网络分类正确率如图所示。
可以看出,BP神经网络的语音信号分类算法具有较高的准确性,能够准确识别出语音信号所属的类别,说明了BP神经网络在音乐分类上的有效性。
七、模型的优缺点
7.1层次分析法的优缺点
优点:
1.系统性的分析方法;
2.简洁实用的决策方法;
3.所需定量数据信息较少。
缺点:
1.不能为决策提供新方案;
2.定量数据较少,定性成分多,不易令人信服;
3.指标过多时数据统计量大,且权重难以确定。
7.2主成分分析法的优缺点
1、优点:
首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上侧重于信息贡献影响力综合评价。
2、缺点:
当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
命名清晰性低。
7.3BP神经网络的优缺点
优点:
1.非线性映射能力。
BP神经网络实质上实现了一个从输入到输出的映射功能,数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。
这使得其特别适合于求解部机制复杂的问题,即BP神经网络具有较强的非线性映射能力。
2.自学习和自适应能力。
BP神经网络在训练时,能够通过学习自动提取输出、输出数据间的“合理规则”,并自适应的将学习容记忆于网络的权值中。
即BP神经网络具有高度自学习和自适应的能力。
3.泛化能力。
所谓泛化能力是指在设计模式分类器时,即要考虑网络在保证对所需分类对象进行正确分类,还要关心网络在经过训练后,能否对未见过的模式或有噪声污染的模式,进行正确的分类。
也即BP神经网络具有将学习成果应用于新知识的能力。
4.容错能力。
BP神经网络在其局部的或者部分的神经元受到破坏后对全局的训练结果不会造成很大的影响,也就是说即使系统在受到局部损伤时还是可以正常工作的。
即BP神经网络具有一定的容错能力。
缺点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音乐风格 分类 数学 建模