基于用户情感分析的音乐个性化推荐研究以网易云音乐为例4.docx
- 文档编号:29865705
- 上传时间:2023-07-27
- 格式:DOCX
- 页数:27
- 大小:647.33KB
基于用户情感分析的音乐个性化推荐研究以网易云音乐为例4.docx
《基于用户情感分析的音乐个性化推荐研究以网易云音乐为例4.docx》由会员分享,可在线阅读,更多相关《基于用户情感分析的音乐个性化推荐研究以网易云音乐为例4.docx(27页珍藏版)》请在冰豆网上搜索。
基于用户情感分析的音乐个性化推荐研究以网易云音乐为例4
本科毕业论文(设计)
中文题目:
基于用户情感分析的音乐个性化推荐研究
——以网易云音乐为例
英文题目:
PersonalizedRecommendationStudyofMusic
BasedonUserSentimentAnalysis.
--TakeNeteaseCloudMusicasanExample
系部:
国际经贸系
专业班级:
学号:
姓名:
指导教师:
完成时间:
2019年4月10日
基于用户情感分析的音乐个性化推荐研究——以网易云音乐为例
摘要:
近些年的时间里,由于人们在生活水平以及经济实力方面都有所提升,人们的生活呈现出多彩多样的状态。
站在大众的角度上来讲,很多人在表达情感的时候都会借助音乐的方式对情感进行宣泄,这也充分的表明,人们平日生活中表达情感最重要的途径之一就是音乐。
近些年来由于我国的经济以及科技都呈现出快速发展的趋势,很多网络音乐也出现在了大众的视线范围里面,由此大环境的影响,很多人为了满足自身情感的需求,因此对音乐进行了情感分类,本论文通过对网上客户的情感方面进行详细的了解与观察,同时将观察的结果与自身所创建的个性化推荐模型相结合,随后根据客户的需求对其进行个性化音乐定制。
经过采样调查,发现本论文的调查结果是非常具有显著性的。
关键词:
情感分类;个性化推荐;网易云音乐
PersonalizedRecommendationStudyofMusicBasedonUserSentimentAnalysis:
TakeNeteaseCloudMusicasanExample
Abstract:
Inrecentyears,people'sliveshavebeencolorfulanddiverseduetotheimprovementofpeople'slivingstandardsandeconomicstrength.Fromtheperspectiveofthepublic,manypeopleusemusictoexpresstheiremotionswhenexpressingtheiremotions.Thisalsofullyindicatesthatoneofthemostimportantwaysofemotionalexpressioninpeople'sdailylifeismusic.Inrecentyears,duetotherapiddevelopmentofChina'seconomyandtechnology,manyonlinemusichasalsoappearedinthepublic'slineofsight.Duetotheinfluenceofthebigenvironment,manypeoplehavetosatisfytheirownemotionalneeds.Intheemotionalclassification,thisthesisthroughthedetailedunderstandingandobservationoftheemotionalaspectsofonlinecustomers,andtheresultsoftheobservationandthepersonalizedrecommendationmodelcreatedbythemselves,andthenpersonalizedmusiccustomizationaccordingtocustomerneeds.Aftersamplingandinvestigation,itwasfoundthatthesurveyresultsofthispaperareverysignificant.
Keywords:
Emotionalclassification,Personalizedrecommendation,Neteasecloudmusic.
一、引言
(一)研究背景
近些年来,我国的经济以及科技都呈现出迅猛发展的势头,因为受到大环境的影响,人们的生活以及娱乐方式都产生了巨大的变化,在方当今社会中,音乐的存在给人们生活娱乐都带来了极大地乐趣,据了解绝大部分的人调节心情的方式都是听音乐,有时人们在高兴地的时候会选择听音乐,这个时候音乐就扮演者一种幸福催化剂的角色。
而人们悲伤的时候也会选择听音乐,这个时候音乐就扮演着心灵解压剂的角色。
当人们处于空闲的时候也会选择听音乐,这个时候音乐就会给我们的无聊生活带来一丝的乐趣。
现在的社会中,由于互联网的发展以及移动互联网的进步,以前那种老旧的听音乐的方式已经被数字音乐所取代,之前人们听取音乐的方式都是随身听,而现在则是线上听取音乐,正是基于现在信息的发达使得线上音乐的数量在不断地增多,但是如此庞大的数量基数也为人们在音乐的选择上带来了极大的困难,这样一来,很多的客户都要花费大量的时间在音乐库上找寻自己喜欢的音乐。
为了解决音乐数量大,以及人们查找困难的问题,所以就产生了个性化推荐系统。
现在来讲,当今时代下以大数据和云计算等先进的而快捷的算法为基础,使得推荐系统变成了现代大家关注的的焦点。
在在当今社会信息繁杂的前提下,怎样使得用户可以在海量的信息中找到自己想要的信息,这是非常重要的问题。
(二)研究意义
面对现在信息化的大趋势,很多的商家们为了在海量的信息中脱颖而出,很多都会选择将自己的产品建立一个特有的标签:
比如说被大家熟知的天猫以及京东等等,它们都会在用户观看或者是购买的基础上建立个性推荐列表;除此之外的一些音乐软件,例如QQ音乐亦或者是酷狗等也都推出了具有个性的音乐服务…现在社会是信息量剧增的社会,面对如此庞大的信息数量,实行个性化推荐系统可以有效的解决信息量巨大的问题,并且用户通过使用这个系统可以有效的将信息进行筛选从而为自己节约更多的时间并且还可以获得更加精确的网络体验,而在其他的商家来讲,他们也可以从中得到更多的商业价值以及利益。
根据资料显示,全世界范围内的歌曲数量达到了600亿,并且这个数量还是以每秒2首的速度在上升。
因此如果一个商家在创建自己的网站的同时只是想简单的将自己所能搜集的音乐列出来让客户选择的话,那么客户是不会喜欢在海量的音乐中寻找自己喜欢的歌曲的,因为这样一来首先在时间上就没有达到客户的满意,并且客户在筛选信息的时候还会受到大量数据的干扰,因此这也浪费了很多经历以及时间,如此一来一定会造成客户的流失。
为了有效的解决这个问题,很多的网站都会采取建立站内搜索的形式来对这个问题进行解决,但是这种做法仅仅只是可以起到一定的缓解作用,同时网站的花销也会增加,而客户的满意度却在不断地下滑。
因此基于以上阐述,为了有效的提升客户满意程度就应当将自有的音乐系统同个性化推荐紧密的结合在一起。
二、文献综述
(一)用户情感分析
在信息检索中通常会用到语言应用,而这其中的一个主要的动向就是情感分析。
其主要是对用户的文本之中的信息以及客户的主观信息进行有效的解析。
根据资料可以查询到早期的情感分析开始于Hearst等学者的相关研究,他们都强调一点那就是当文本被智能化处理的时候,其主要的关注点不应该仅仅局限于文本的主题,同时还要包含文本评论内部的情感极性。
而针对于文本情感分析的理解可以涵盖以下三个层面:
(1)针对文本自身的客观以及主观的辨别;
(2)针对文本的极性辨别;(3)针对文本的极性强度辨别。
此外,由于所知道的主观文本其自身主要的内容是引用以及表达观点,因此其经常包含主体的情感。
在此之后,我们可以通过计算方法来估计文本的情感极性,最终以实现情感极性的量化。
这也是分析主观文本极性强度的目的。
(二)个性化推荐
个性化推荐是根据用户的特征及偏好,将客户之前在信息以及行为进行分析,从而判断出该客户的喜好以及分类等等,从而可以将客户喜欢的产品以及信息准确的推荐给他。
个性化涉及五个要素首先是消费者:
即进入平台查找内容的访问用户。
然后是消费平台,再次是内容:
由生产者生产出来吸引用户去平台访问。
个性化是以内容为根本基础的。
生产者可以是用户担当(UGC);可以是有偿或无偿,若是有偿生产就称之为OGC。
以UGC为代表,比如各大论坛、博客和微博站点,他们的内容都是由用户自己创造出来的,管理人员的作用只是协调和维护秩序;以OGC为代表例如各大新闻站点、视频网站,他们的内容都是由系统内部人员自己创造出来或者从外部花钱购入版权;而PGC则在上述两种类型的网站中都有参与,既能共享高质量的内容,同时网站提供商又不用支付报酬。
最后是反馈也就是消费者在消费平台中的互动行为。
网站可以根据这些信息通过相应的方法计算,一段时间之后便可以建立起该用户的常规兴趣模型也就是近期兴趣模型。
最后就是应用该模型进行试错,然后根据行为方差进行调整完善从而促使该模型不断上升发展以至于越来越接近用户的真实偏好。
三、基于用户情感分析的音乐个性化推荐模型
(一)用户情感类型
1.用户情感分类
据以往的经验来看,人们可以将自身的情感宣泄出来编织成音乐,而音乐也可以起到表达人们心情的作用,就现在的情感模型来观察,其可以分为两类:
第一种是早时期的离散分类模型,其次是以维度分析为基础的分类模型。
而本论文此次编写的主要内容是依据第一种的基础上进行撰写的。
通常来讲,所谓的离散情感分类模型主要是基于多彩多样的情感基础上才可以实现的,可是这其中也会有有限情感分类的存在,例如以悲伤或是快乐为基础的情感分类。
而其余不同种类的情感都是可以依照这个衍生而来,在这当中被大家熟知的是Hevner情感环,这个可以通过图1进行观察。
这个主要是针对音乐分类的时候采用了关键字辨别的方式,其主要的特色是通过很多的关键词进行分类创建起来的情感模型。
在Hevner情感环中,可以看到其构成的形容词达到了66个,同时还可以观察到其内环中还拥有8个近义词,这8个情感相互之间的关系是平滑过渡的联系,本个情感分类模型是非常成功的,这主要是因为它可以在有限的情感空间中掺杂无限的情感映射,从而极大的简化了分类的难度。
图1Hevner情感环
2.基于Hevner情感环的音乐平台用户情感类型划分
现如今因为网络的发达,网络中出现了大量的音乐,这样一来极大的丰富了客户在网络上的音乐选择。
而众所周知现在的时代是以大数据为基础的,在这个时代下,对于音乐的分类方式更多的是以情感为前提的分类。
比如说,相同的音乐但是对于不同的客户来感受就会产生不一样的心情以及情感,所以如果将一首音乐用一个标签的进行定义,那么这样做是非常片面而局限的,所以在这种情况下,就必须要采用更全面以及准确的标签对音乐进行情感类别。
接下来将眼光放到西方,在西方的心理学领域其把音乐情感划分成2种不同的类别,首先是基于音乐本身的特有属性结构的基础上进行的内在情感的传达,其次是在音乐之外的外部情感。
经过细致的研究发现,有2种要素可以左右音乐情感的表达:
首先是音乐作品本身,其次是音乐以外的信息。
所以本论文在编写的过程中也是将两种因素都充分的考虑在内。
此外还有一个问题那就是关于音乐情感的分类。
为了有效的对情感分类进行观察,所以做了一个实验,那就是将600多个音乐片段播放给客户,在听取完毕之后将这些片段采用不同的词汇进行表达以及描述,经过反复的实验可以发现,在这当中不是一切的情绪都是按照一样的概率产生的。
因此本论文的编写的过程中为了将难度有效的进行控制,特地将情感划分为正负两级,所谓的正极就是表示积极向上的情感,反正,所谓的负极代表的就是消极悲伤地情感。
同时在以Hevner情感环为基础上采用离散情感词进行平稳过渡理念,自一级情感词8个出发以及二级情感词累计起来总共达到74个词,通过选取出现频率最高的词,具体可以参照图2。
图2以Hevner情感环为基础的分配原则以及情感分类
(二)用户情感的影响因素分析
1.音乐特征
如果想要很好的获得音乐情感分类,首先就必须要得到音乐特征。
通过对早期的做法进行研究发现,其主要的获取途径是依赖于音乐的音频属性,一首歌内部在音色以及音高方面的因素都可以展现出不同的情感特性。
当今社会因为受到了互联网科技的影响,很多人们都致力于音乐特征的探索,比如说歌曲自身的歌词、评论等等方面。
就现在的音乐软件上来讲,所有的音乐软件其自身都具备创建音乐情感标签的能力。
具体可以参照图3:
图3音乐情感标签系统
针对于音乐分类这个问题,国内外很多的学者都会对其进行研究与分类,经过不断的研究发现其中还有很多问题有待于解决。
在所有的研究方法中比较典型的方法是首先将音乐情感具体的划分为几种特定的类别,例如悲伤以及快乐等等,之后就是按照不同文件的特性进行筛选,然后将筛选出来的文件与标签相对应。
所以为了很好的获得音乐特征,也就是说音乐标签,这方面所使用的软件是Foobar。
具体操作可以参照图4,该图是以Foobar2000为例。
图4Foobar2000使用案例
2.用户自身的属性
一般讲到的用户个体的特性就是其自身的属性,其中包含的主要因素的是性别以及年龄等等,身处于不同阶层的客户其自身的需求也是不一样的,举个例子女性客户和男性客户之间就存在着很大的差别,这种类别的信息在客户的收藏以及个性签名上都会体现出来,例如,当客户是学生的时候,那么其自身通常会倾向于爱情一类的歌曲,但是当工作人群听取歌曲时,其自身通常会选择经典的歌曲,如果客户处于失恋的状态,那么其自然是选择失恋的歌曲,如果客户比较喜欢运动,那么就会选择跑步的歌曲等等。
当对客户的表单进行观察时,就可以对该客户的属性进行一定的了解。
通过具体观察发现,如果想制定一个客观而有效的评价标准具有很大的难度,因此就只能采用主观感知的方式对客户属性进行感情值的判定,主要的流程如下表1。
表1用户属性所表征的情感值确定流程
用户属性标注
综合情感值
用户一
年龄
95后
-5
性别
男
个性签名
从前从前,有个人爱你很久
收藏歌单标签
伤感孤独
3.用户动态分析
近些年来由于科技进步飞快,所以受到这个影响web技术也展现出了强大的发展潜力,因此现在主观性文本在社会媒体上呈现的数量也都在增加,在这当中,很多的客户都和应用程序进行联系并且产生了丰富的信息,这样一来就极大地促进了主观性文本在情感分类研究的应用。
通过观察网易云音乐可以看出,其自身的评论中可以涵盖的音乐有很多,其中包括了演唱者以及音乐自身的背景等等,除了以上阐述的专业信息之外,评论中涵盖的信息还包含了非业内人员的情感信息,例如有的客户再听取具体某一首歌曲时的心情,心理作用,结合音乐的旋律而来的内心起伏波动。
在这些因素的作用下用户再结合自身生活状态和当时的心理状态,同时会将富有个人情绪的信息发布到音乐的评论中。
总体来讲其流程图可以参照图5。
图5上下文信息情感分类流程
在本论文中需要研究的主要对象是听取歌曲的用户,可是一般的用户都会跟对某首歌曲进行评论,所以如果想将单个的客户对于不同种类的乐曲的评论进行总体分析这个工作本身就是具有难度的,基于这种情况,我们可以将研究的方向进行一定的调整,那就是对音乐评论进行细致的研究,经过观察发现,很多用户都会通过发送动态中的言论来表达自己内心的情感状态,对这些言论所花费的研究时间肯定会比针对单个用户进行研究的时间要少很多,这样一来就可以最大程度上降低人工标注工作量。
具体的操作可以参照表2。
表2上下文信息情感值评判样例
上下文信息标注
情感值
平均值
用户一
动态一
后来的我们有了后来而与你无关
-5
3.6666667
动态二
你在选择人,人亦在选择你
-2
动态三
那首歌让你看到了一生
——
动态四
遥远的她
-4
(三)基于二元离散选择模型的情感分类模型
1.二元离散选择模型简介
通常来讲被大家熟知的结合分析模型就是以所谓的离散模型,其自身是一种非常有使用价值的市场调研技术,同时也在日常生活中也被广泛的使用。
这个模型主要是以实验设计为前提,经过对想要分析的目标服务以及产品市场的环境进行分析,在数据的基础上对客户的购买行为进行一系列的预测,最后得出客户针对于不同商品以及价格上的选择状况。
所以基于以上阐述,离散选择模型同时也是针对复杂高级多元化的统计分析技术。
为了便于大家理解,本论文对具体案例作出分析:
客户进行选择汽车的行为时,一般是将目光放到具体不同的品牌上,比如说奥迪亦或本田等等。
举个例子如果客户选择的是奥迪,那么就记作是Y=1,如果客户选择的是本田,那么就记作是Y=2,如果客户选择的是丰田,那么就记作是Y=3,当研究客户的选择品牌时,因为考虑到因变量是并不具有连续的变量(Y=1,2,3),由此可以看出,以前的线性回归模型是存在一些问题的。
如果想建立理性决策,那么可以选择效用最大化原则。
例如当进行公交i以及地铁i'进行选择的时候,首先可以假定考虑的方案分为三个类别:
K={k1,k2,k3}={花销,时间,稳定性}。
针对公交所获取的效用是:
=
+
+
同样的,针对地铁所获取的效用是:
=
+
+
,
所表达的是所有方案自身的属性,
表达的是各自的权重。
通过观察可以看出如果出现
>
的情况,这时候选择公交车是最佳的方案;如果不是,那么选择地铁是最佳的方案。
2.用户情感分类标注
通过以上的阐述可以清楚地知道具体某个情感分类的自我标准。
通过观察图2看到,可以将客户针对音乐的情感具体划分为十种不同的种类,分别是厌恶、喜爱以及开心等等;在进行观察的时候为了样本可以达到一定的广度,因此选择对100个用户进行观察,在进行观察的途中,不仅要对标注用户属性进行观察与记录,同时还必须对不同类比的用户自身所喜爱的音乐属性情感值进行记录以及观察。
其主要的做法是从用户喜欢的音乐之中选取三首最喜欢的,同时在使用的工具方面选择的是Foobar2000,通过此工具将具体的音乐标签进行打分,评分的依据就是表1所展示的,这样一来就可以针对准确的测量出情感值来的均值,因为也充分的考虑到每个不同个体所存在的差异程度,所以如果反差值在10以上的客户是不在我们的研究范围之中的。
图6本论文中三个因素的标注的原则
3.用户情感分类预测
在进行样本集的工作之后接下来可以得到具体训练数据集,由此进一步可以获得离散选择函数,通过对该函数进行研究可以发现用户情感,并且对此进行分类以及预测,由此可以最终确定出该客户的情感分类值。
在完成上述工作的基础上,这个时候只需要计算出具体某个音乐数据集的具体情感值,同时将其与用户情感值进行匹配,这样一来就可以做到对客户进行个性化音乐推荐的工作,由此也可以更加契合客户选择歌曲的偏好。
(四)融合用户情感信息的音乐个性化推荐模型
在本论文中所使用的系统架构可以参照7所示,客户将自己喜欢的音乐可以通过浏览器进行收藏、同时后台的服务器可以根据客户所收藏的音乐对其进行计算以及处理,这样一来就可以得到相应的情感分类值,在得到结果之后,将所得的结果与音乐数据库内部的歌曲进行匹配,最后找到匹配度高的音乐向客户推荐。
图7推荐系统结构
在实际的操作中,效用函数决定了相关的评价。
针对所有的客户来讲,本论文所选用的推荐算法,其主要的目的是为了使得客户满意度达到最高,因此选择了二元离散选择模型。
其可以表示成:
取
若
则
四、网易云音乐个性化推荐实例
(一)数据来源及数据处理
1.数据采集方法和数据集描述
本论文的所要观察的数据以及资料都是可以通过网易云音乐进行下载或是获取的,在此所采集的资料可以使用八爪鱼这个工具。
具体的做法是,首先进入到网页内部,在这个页面上进行注册以及激活的工作,通过该工具进行数据的获取。
而具体的操作方法为:
首先将章鱼网站打开,同时也开启网易云网站,之后对第一级页面进行访问。
具体的用户信息的获取程序可以参照图8所示,而用户的配置规则可以参照图9所示。
图8网易云音乐用户信息爬取流程操作
图9网易云音乐用户评论爬取规则配置用例
通过一定时间的爬取工作,总共获得了客户喜欢的标签、文本等信息,通过观察发现,这些数据信息之中属于没有用的信息数量占到了12.6%。
把获得的信息放到SQL数据库面,同时采用Excel表格进行保存。
具体操作可以参照图10所示。
图10用户情感影响因素标注部分数据图
2.数据清洗和整理
在实际的操作过程中出现了很多问题有待与解决,其中有一点就是字段爬取出现丢失的情况。
除此之外,还会出现不同的客户对与音乐偏好不同的情况,在本章节的内容中对于所有用户的极差值进行了计算,最终为了数据的稳定性,把数值是10以上的极差值排除。
最终整理出来的结果可以参照图11以及图12所示。
图11试验数据关系趋势
图12训练集数据情感分类频数分布表
通过对所得到的数据实行下一步的计量以及运算发现,参照一下三个因素的均值进行排列顺序可以看出其整体的动向是呈现出一定的相同性,具体的结果可以参照如图13所示。
通过此项结果进行观察可以看出,以上三种内容对于客户自身的音乐偏好的影响程度是一致的。
同时还可以包含客户对本首音乐的喜欢程度,一般来讲客户对于自己喜欢的音乐通常情况下会放到“我喜爱的歌曲”之中。
这一点也足够说明本论文所研究的合理性。
图13三个研究因素数据的拟合趋势线
(二)实例计算
1.算法描述
在本章节中,其主要的工作是对参数进行评估,而获得参数的软件可以选择为Eviews。
但是通过实际的操作可以看出,在研究的对象以及三个因素理论上其都呈现出了很高的关联性。
接下来按照中针对本论文中所的到的数据进行整理发现,三个因素拟合的一元线性回归模型其存在的差别比较小,基于以上的情况本论文事先假设出来一个最优推荐结果,对所研究的模型参数实行预估。
在本论文中所使用的方法是最小二乘法(OLS),其主要的思想是将本身的样本函数与样本数据达到拟合。
即
将解释变量表示为
,
、
、
,将待估参数表示为
、
、
是本次的随机误差项,将样本容量表示为
。
通过参考OLS的理论,来获得最小二乘估计,因此要满足的条件是
成立的
、
、
、
。
通过依照积分的相应知识,对上表的数据进行导数,自此可以知道具体的结果。
2.计算结果
将得到的数据复制到Eviews上,打开“快速”列表,同时选中内部的“估计方程”,之后选取“LS最小二乘”,将“ycx1x2x3”输入进表3中,回归结果所代表的是图14。
表3Eviews运行的参数估计结果
DependentVariable:
Y
Method:
LeastSquares
Date:
04/19/18Time:
17:
37
Sample:
155
Includedobservations:
55
Variable
Coeffent
StdError
Statistic
Prob.
C
1.104983
0.106972
10.32962
0.0000
X1
0.320736
0.060576
4.997720
0.0000
X2
0.494920
0.062914
7.866588
0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于用户情感分析的音乐个性化推荐研究以网易云音乐为例 基于 用户 情感 分析 音乐 个性化 推荐 研究 网易