数据挖掘与算法作业.docx
- 文档编号:30527379
- 上传时间:2023-08-16
- 格式:DOCX
- 页数:12
- 大小:97.71KB
数据挖掘与算法作业.docx
《数据挖掘与算法作业.docx》由会员分享,可在线阅读,更多相关《数据挖掘与算法作业.docx(12页珍藏版)》请在冰豆网上搜索。
数据挖掘与算法作业
论文题目:
数据挖掘算法在电子商务推荐系统的应用
学科、专业名称:
电子商务专业
考试科目:
数据挖掘算法
数据挖掘算法在电子商务推荐系统中的应用
摘要
在电子商务中,企业只有不断地扩张,才能在竞争中保持自己的优势。
其中如何留住老顾客并不断吸引新顾客的加入是企业实现扩张和获取利润的一个重要方面。
本文主要是针对电子商务企业中顾客的消费行为进行分析研究的基础上展开论述的。
通过聚类算法,对具有不同消费行为的顾客进行分类,利用关联规则算法对顾客的购物篮进行分析,通过算法的组合提高推荐的精度和准确性,从而更好的为顾客服务,以达到留住老顾客和吸引新顾客的目的。
一、引言
电子商务规模的迅速增长在给用户带来更多选择机会的同时,也使得用户搜索所需商品的成本越来越高。
电子商务推荐系统可以向用户提供商品推荐,帮助用户找到所需商品,满足用户个性化的需求,将用户从浏览者转变为购买者,通过网站与用户的互动提高了用户的忠诚度,从而增加企业的效益,同时将用户从繁重的搜索任务中解脱出来。
目前几乎所有的大型电子商务网站都不同程度地使用电子商务推荐技术,比如Amazon、CDNow、ebay和dangdang等。
二、电子商务推荐系统概述
电子商务推荐系统的定义为:
“利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”。
该定义现已被广泛引用[1]。
1998年7月,由美国AAAI组织各学者在威斯康辛州专门召开了以推荐系统为主题的会议,集中讨论了推荐系统的发展问题。
目前,推荐系统已广泛运用到各行业中,推荐对象包括书籍、音像、网页、文章和新闻等。
推荐系统可以是根据其他客户的信息或是此客户的信息,根据客户的购买频率、消费金额和购买模式预测未来的购买行为,为客户提供个性化服务[2]。
根据挖掘的客户行为模式和购买组合来获取新客户、保持老客户、细分客户和实现交叉销售。
电子商务推荐系统可以在网页的浏览者中发掘隐藏着的购买者,还可以促进消费,刺激浏览者的购买欲望,并分析购买者的购物习惯,产生推荐集合,留住客户。
推荐系统是电子商务不可或缺的重要组成部分。
它的个性化发展也直接对电子商务的发展产生影响[3]。
至今在电子商务中研究个性化推荐系统也一直是数据挖掘领域与电子商务领域研究的热点问题所在。
推荐系统在电子商务网站中的作用主要有三方面:
①将电子商务网站浏览者转变为购买者;②提高电子商务网站交叉销售能力;③提高顾客对电子商务网站忠诚度。
应用数据挖掘技术使推荐系统更智能化,学习能力更强,推荐效果更好;其实质是为终端用户和电子商务营销决策者提供相关个性化和智能化服务。
电子商务推荐系统,根据数据源选取大致可以分为基于顾客评分/评价和基于顾客购买历史两类。
基于用户评分/评价的推荐系统比较多,如LIBRA,Item-BasedTop-Nrecommendation等。
这类推荐系统缺乏通用性,因为收集评分数据需要顾客一些额外配合,这不是每个电子商务网站都能做到的;其推荐结果也并不一定客观,因为不能保证顾客评分能客观反映顾客购买兴趣。
基于顾客购买历史的推荐系统则避免了上述不足,具有良好的通用性。
现在基于规则的推荐系统,往往利用实际交易数据作为数据源,它符合数据源通用性要求。
基于关联规则的推荐系统特点是实现起来比较简洁、推荐效果良好,并能动态地把客户兴趣变化反映到推荐结果中[4]。
目前,国内在网上购物个性化推荐上的发展状况还基本停留在采用一些简单的推荐策略阶段,比如分类浏览、销售排行、热卖商品、热门新闻等等,并没有实现真正意义上的个性化智能推荐。
因此,从某种程度而言,网上购物网站,特别是国内的各网上购物网站的效用并没有得到最大化的发挥,用户的购买潜力也没有得到全部地激发和挖掘。
所以,推行网上购物中的个性化推荐技术和应用势在必行。
个性化推荐系统是一个非常值得我们关注和研究的方向。
各种数据挖掘方法如关联规则挖掘技术[5,6]、聚类挖掘技术[7,8]被广泛的应用于个性化推荐中以提高推荐精度。
三、数据挖掘的概述
商业智能的关键成员包括数据挖掘、联机分析处理(OnlineAnalyticalProcessing)、企业报表和ETL(数据抽取、转换和加载)[6]。
其中,作为关键成员之一的数据挖掘指的是分析数据,使用自动化或半自动化的工具来挖掘数据中隐含的模式。
企业在日常的运营过程中,需要借助一些商业软件来完成,经过这些软件的不断收集和积累,企业的数据库拥有了海量数据。
具体来说,这些海量数据大部分来自金融应用程序、企业资源管理系统(ERP)、客户关系管理系统(CRM)以及Web日志等[7]。
对企业的管理者来说,这些海量数据看似数据丰富,但在企业的具体应用中却显得知识贫乏。
数据挖掘的目的正在于此:
从已有数据中提取模式,从而提高已有数据的内在价值,并把数据进行提炼、转化,使之成为有助于企业进行商业智能管理的知识。
(一)数据挖掘解决的商业问题
数据挖掘可以应用于许多应用,能解决各种商业问题,为企业提供许多商业价值。
下面就是数据挖掘技术能够解决的一些比较典型的商业问题:
(1)客户流失分析:
流失性分析可以帮助市场经理了解客户流失的主要原因,以此来改善企业与客户的关系,增加客户的忠诚度[8]。
(2)销售预测:
在该购物网站,下个月能卖多少个移动硬盘?
下个月的库存又是多少?
数据挖掘预测技术可以帮助解决与时间相关的销售方面的问题。
(3)客户细分:
哪些人是该购物网站的客户?
客户细分能够帮助市场经理了解客户个人信息的区别,并基于此采取适当的市场策略[9]。
(4)购物篮分析:
电子商务企业根据顾客购买的商品,推荐另外的相关商品,这些推荐的商品就来自于数据挖掘分析。
如对销售结果进行分析来判断商品是否应该捆绑销售。
可以使用数据挖掘的结果来创建一个在线指导系统,或者决定如何捆绑销售能将利润最大化。
(5)欺诈检测:
这份保险存在欺诈吗?
保险公司一天要处理成千上万个投诉,但是保险公司不可能对每一个投诉进行调查。
数据挖掘技术能够帮助保险公司鉴别那些投诉可能具有欺诈性。
(6)广告定位:
针对特定的用户应该使用什么样的广告标语?
一些门户网站和Web零售商希望为他们的客户个性化广告的内容。
通过使用客户的导航模式或者在线购买模式,这些站点可以利用数据挖掘解决方案在客户的浏览器中显示个性化广告。
(7)风险管理:
给某客户的一项贷款能批准吗?
这是银行业极为常见的问题。
数据挖掘技术能够用来评价客户的风险级别,帮助管理者对每一项贷款做出合适的决定。
(二)数据挖掘的任务
大量的商业问题可以采用数据挖掘技术得以解决。
在划分数据挖掘的任务的时候,主要根据商业问题的性质来确定。
以下是常见的数据挖掘的任务。
(1)分类
基于一个可预测属性把事例划分成多个类别,这就是分类。
每个事例都包含有一组属性,其中有一个可预测属性,即类别(class)属性。
分类任务的实现:
找到一个模型,且该模型将类别属性定义为属性的函数。
数据挖掘中的决策树算法、神经网络算法和贝叶斯算法都是典型的分类算法。
分类是最常见的数据挖掘任务之一,像客户流失分析、风险管理以及广告定位之类的商业问题往往会涉及到分类。
(2)聚类
聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,聚类又称为细分。
它是一种无监督的数据挖掘任务,没有一个属性用于指导模型的构建过程,所有的输入属性都是平等对待的。
大多数聚类算法的实现过程:
通
过多次迭代来构建模型,当模型收敛的时候算法停止,换句话说就是当细分的边界变得稳定时算法停止。
聚类分析又称为群分析,在商业中的典型应用就是:
帮助市场分析人员从客
户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。
另外,其他的应用领域还包括:
生物种群划分、图像处理、模式识别、市场细分等。
(3)关联
关联是另一种常见的数据挖掘任务,也叫购物篮分析。
关联是指如果两个或多个事物之间存在一定的关联,则其中一个事物就能通过其他事物进行预测。
就
关联来说,项是一个产品,也可以说是一个属性/值对。
关联任务的目的是为了挖掘出隐藏在数据间的相互关系,即找出频繁项集(FrequentItemsets)和关联规则(AssociationRules)。
大多数关联型算法的实现分为两个阶段。
第一阶段通过多次扫描数据集来找频繁项集。
频率阈值(支持度)在处理此模型之前由用户预先指定。
假如支持度=5%,那么这意味着此模型只分析出现在至少5%的购物车中的项。
每一个项集都有大小,即频繁项集中所包含的项数。
假设有这样一个频繁项集:
{产品=“可口可乐”,产品=“炸薯条”,产品=“果汁”},该项集的大小就是3。
第二阶段则由频繁项集中产生关联规则。
假设A、B、C全部包含于频繁项
集中,那么关联规则的格式就是:
带概率的A,B=>C。
概率在数据挖掘中又称为置信度。
这个概率(或置信度)是一个阈值,在构建关联规则模型之前由用户来指定。
例如,一个典型的规则:
产品=“可口可乐”,产品=“炸薯条”,产品=“果汁”,概率为75%。
该规则说明:
如果一个客户购买了可口可乐和炸薯条,那么有75%的可能性会买果汁。
关联要解决一个典型的商业问题就是实现交叉销售。
具体来说就是电子商务企业首先分析销售事务表,由此来确定哪些商品比较容易销售,哪些商品可以捆绑或搭配销售,哪些商品可以在某地区固定销售等,这样可以有效地提高商品的销售量,增加企业的利润。
关联规则挖掘技术的其他应用:
在西方金融行业企业中,它可以成功预测银行客户需求。
四、聚类算法和关联规则算法在电子商务推荐系统中的组合应用
聚类算法用于客户的细分,将不同消费行为的顾客划分为不同的类别,以便能同时提供相似的服务,提高推荐对象的准确性,留住老客户,吸引新客户;关联规则算法,也称为购物篮分析,对顾客购物篮的分析主要目的是对顾客提供商品推荐和实现商品在特定地区的销售。
这两部分之间不是各自独立的,而是相辅相成的,二者的组合可以大大提高推荐的效果。
数据挖掘中的聚类技术提供了客户细分主要技术支持。
聚类则在未知对象的具体差异的情况下,根据对象的若干属性,按照某种聚类算法对其进行划分的一种挖掘技术,而且划分的结果事先不知道。
购物篮分析采用的重要技术是数据挖掘中的关联规则算法。
关联分析的目的是为了挖掘隐藏在数据间的相互关系。
在电子商务中关联分析就是要找到客户对网站上各种文件之间访问的相互联系,从而找出客户购买行为的各种关联。
关联分析生成的规则是带有可信度的,因为有时分析人员并不知道数据库中数据的关联函数,即使知道也可能是不能确定的。
(一)聚类算法
聚类分析主要研究的是统计学中“物以类聚”问题,是数据挖掘的一个重要研究分支。
所谓聚类就是按照某种或某些属性将数据对象分组成多个类或簇,在同一个类或簇中的对象之间具有较高的相似度,而位于不同类或簇中的对象的相关属性差别比较大。
聚类操作不仅仅对数据进行分组,它能发现用来对数据进行分组的隐含变量,从而可以对数据进行更深入的分析,以获取其他方法不可能获取的信息。
聚类算法在销售行业的分析研究中非常流行。
聚类技术在市场研究领域的应用是客户细分和市场细分,经常用于寻找特定的目标市场和目标客户群,为进一步的分析研究提供分类数据基础,即它还可以
作为其他算法的处理步骤。
另外,在其他领域也有广泛的应用,例如模式识别、
图像处理、生物种群划分等。
聚类分析可以作为一个独立的工具来获得数据发布
的情况,观察每个类或簇的特点,集中对特定的某些类或簇做进一步的分析。
Microsoft聚类分析算法提供两种创建分类并为分类分配数据点的方法。
第
一种方法是K-平均值算法,这是一种较难的聚类分析方法。
这意味着一个数据
点只能属于一个分类,并会为该分类中的每个数据点的成员身份计算一个概率。
第二种方法是“期望值最大化”方法(即EM方法),这是“软聚类分析”方法。
这意味着一个数据点总是属于多个分类,并会为每个数据点和分类的组合计算一个概率。
可以通过设置CLUSTERING_METHOD参数来选择要使用的算法。
聚类分析的默认方法是可伸缩的EM。
当用户查看或购买某商品的时候,就可以使用基于聚类分析的推荐模块来向用户
推荐与该商品相关的商品。
该推荐模块由第三章的聚类分析来实现,主要功能为:
首先提取各个产品的特征属性,如产品的功能、颜色、型号、品牌、产地、价格等这些最能反应各个产品特征的属性,然后对所有的产品特征属性进行数据预处理形成特征向量,按一定规则计算形成产品的特征相似性矩阵,然后使用聚类算法对产品进行聚类,同一个组中的产品的特征相似度尽可能的大,不同组的产品之间的特征相似度尽可能的小,最后根据用户购买的商品属于哪一组,就向用户推荐该组中与用户购买的商品相似度最高的若干个商品,或者向用户推荐该组中被购买次数最多的若干个商品。
该模块用到的数据库主要为产品信息数据库,如下图所示:
(二)关联规则算法
对于一个电子商务网站的经营者来说,其职责之一就是要确保其销售额,这样的话就得销售更多的产品,以获取更多的收益。
理解客户的购物模式是达到这一目标的第一步。
可以基于购物篮,也可以基于顾客的人口统计信息来构建关联模型。
例如,可以在挖掘结构中包括性别、婚姻状况以及购房情况,并且把这些属性作为示例级别的属性。
在这个挖掘结构中,还可以包括购物篮,并将购物篮作为嵌套表。
在此情况下,不仅仅基于项集的关系,而且基于人口统计信息来分析购物模式。
可以找到一个规则,并且通过该规则预测:
在相同的事务中购买啤酒的男性顾客会有70%也购买尿布,购买尿布的女性顾客有25%也会购买干红。
因此,在使用关联规则算法时,首先分析用户的属性,如用户的年龄、性别、职业、收入和兴趣爱好等,对这些属性进行预处理,因为具有相同属性的用户之间购买相同商品的概率就越大,基于这种思想,该推荐模式还对购物系统中的历史购物记录进行分析,然后将同一用户的购买记录整合成一条记录,以此形成事务数据库,然后由多维关联规则算法对事务数据库进行挖掘,得到频繁模式集,最后对所有的频繁模式进行分析,把有价值的频繁模式形成推荐规则,应用在购物系统中实现个性化推荐功能。
经过上面的分析,基于关联规则的推荐模块涉及到的数据库有用户注册信息数据库和用户购物记录数据库,推荐模块与数据库的关系下图所示:
五、两种算法组合应用的效果
(一)挖掘出新的客户
在挖掘Web的客户访问数据信息的过程当中,利用相关的分类技术能够在Internet上挖掘出新的客户[10]。
商务网站的拥有者先通过对已访问者的信息根据其浏览和购买行为进行分类,并在此基础上分析已经购买商品的客户所具有的公共属性,在这些属性当中,找出一些关键的属性,通过这些关键属性可以决定他们的分类,并找出这些属性之间的关联关系。
对于网站当中新的访问客户,根据刚刚已经总结出的属性联系,观察出新客户的一些关键属性,从而识别出新客户与老客户之间可能存在的一些属性交集,从而对这个新的客户进行归类划分。
然后,根据上面得到的信息来判定这个客户到底是潜在的客户还是只是一个简单的访问者,并根据这个选择来决定是否把这个新的访问者作为一个潜在的客户对待。
通过以上过程把这个新客户所具备的客户类型确定后,可以对客户动态地展示Web页面,而次页面所存在的内容主要在于客户和销售商所存在的关系[12]。
若已成为了潜在的客户,销售商就会对已承认的客户展示一些特殊的、个性化的网页内容。
(二)提高服务的个性化水平和质量,使客户在网站上可以停留更长的时间
伴随着电子商务与人们的实际生活越来越紧密,而且电子商务使得传统客户与零售商所存在的空间距离已经几乎为零,在Internet上,所有的销售商对于客户来说都是相同的,不存在什么差别,所以怎样使客户能在自己的网站上停留更长的时间,也就成为销售商最为关心的一个问题,也是现在许多销售商所面临的一个挑战。
因此,为了能在这个竞争当中占得先机,首先必须要非常清楚客户以前所浏览的网页以及所关心的商品信息,以此来判断消费者的兴趣爱好和相关需求,并提供具有美观度的WEB页面[13],以使客户能够更加满意,即使同样的商品和价格也依然会选择在你的网站上做更长时间的停留,并最终选择你的商品。
伴随电子商务的不断发展,具备个性化的服务已是现在社会发展的趋势,通过个性化服务,可以加深用户的访问体验,提高电子商务网站在销售方面做到更加的全面和深入。
数据挖掘技术在这个过程中的应用[13],通过对客户的访问行为、访问次数、访问所主要涉及的内容等信息进行有效的挖掘,提取相关客户的特征,获取客户在此次浏览过程当中所采取的访问模式和访问习惯,从通过这样的方式识别用户的忠诚度、偏好度和满意度,深入掌握客户的兴趣和需求,在网站中主动向客户提供消费者感兴趣的商品,帮助消费者可以更加便捷地找到相关商品,通过上述种种过程的进行,提高消费者对网站的满意度,使访问者最终转变成购买者。
(三)降低运营成本,提高企业竞争力
通过挖掘商品访问和销售记录,销售商能够得到比较可靠的销售信息,获取消费者购物的喜好,确定顾客消费的生命周期,分析出顾客的将来行为,并根据顾客的行为提出有针对性的营销活动。
通过对数据挖掘技术的合理利用,在分析过大量客户的消费行为后,可以设计出适合企业的最佳营销和策划方案,从而达到降低经营成本和提高企业竞争力的双重目的。
(四)提高市场预测的有效性
根据数据挖掘技术的相关理论,企业通过分析顾客潜在的商业行为,可以有效的估测出一定的市场投资所能带来的回报是多少,从而可以从市场中获取非常可靠的反馈信息[14]。
通过这些步骤的进行,不仅可以降低企业的运营成本,提高企业的营业额,还可以在以后的政策制定中占据主动。
(五)系统的安全性和各项性能都得以保障
通过在数据挖过程实施中的各种分析,特别是对奇异点的分析结果可知,通过这个结果对客户在购买或者消费过程中出现的一场情况可以做出准确而且迅速的判断,从而有效防止客户流失,以及一些不法人员所进行的欺诈活动。
对于通过非法途径进入网络,企图入侵网络的数据挖掘分析情况,可以通过这项技术帮助找到系统所存在的弱点并加以改进,从而提高了站点的安全防范系数,可以有效的防范黑客的攻击,保证电子商务在一个安全的环境下运行。
参考文献
[1]ResnickandVarian.Recommendersystem[J].CommunicationsoftheACM,1997,40(3):
56-58.
[2]SCHAFERJB,KONSTANJA,RIEDLJ.E_commerceRecommendationapplications[J].DataandKnowledgeDiscovery,2001,5(1/2):
115-153.
[3]张建鲁,葛禄青,吴军.电子商务对消费者行为的影响分析[J].企业经济,2004(05):
69-70.
[4]JIAWEIHAN,MICHELINEKAMBER.数据挖掘:
概念与技术(范明,孟小峰).北京:
机械工业出版社,2007.
[5]Mobasher,B.,Dai,H.,Luo,T.,Nakagawa,N.,Sun,Y.,andWiltshire,J.DiscoveryofAggregateUsageProfilesforWebPersonalization[J].InProceedingsoftheWebMiningforE-CommerceWorkshop(WebKDD’2000),2000.
[6]Mobasher,B,Dai,H,Luo,T.,andNakagawa,M.EffectivePersonalizationBasedonAssociationRuleDiscoveryfromWebUsageDatatoProceedingsofthe3rdACMWorkshoponWebInformationandDataManagement(WIDMOI),heldinconjunctionwiththeInternationalConferenceonInformationandKnowledgeManagement(CIKM2001),2001.
[7]Nasraoui,O.,Frigui,H.Joshi,A.,andKrishnaparum,R.MiningWebAccessLogsUsingRelationalCompetitiveFuzzyClustering[R].InProceedingsofEighthInternationalFuzzySystemsAssociationWorldCongress(ISFA'99),1999.
[8]Oyanagi,S.,Kubota,K.,Nakase,A.ApplicationofMatrixClusteringtoWebLogAnalysisandAccessPrediction[R].WebKDD'2001,2001.
[9](美)MichaelJ.A.Berry,GordonS.Linoff.数据挖掘技术:
市场营销、销售与客户关系管理领域应用(别荣芳尹静邓六爱).北京:
机械工业出版社,2006.
[10](美)GARYP.SCHNEIDER.电子商务(英文影印版·第7版)(ELECTRONIC
COMMERCE,SEVENTHANNUALEDITION).北京:
机械工业出版社,2006.
[11]于佳任.网上消费行为动态测试方法研究.天津工业大学,2008.
[12]董秀成.网络消费者行为分析技术[J].经济论坛.2007(03):
75-76.
[13](美)ZhaoHuiTang;JamieMacLennan数据挖掘原理与应用北京:
清华大学出版社,2006.
[14](加)JiaweiHan,MichelineKamber.数据挖掘概念与技术.北京:
机械工业出版社,2007.
[15]林坤江,佘名高,贾秀峰.数据挖掘技术及其在客户消费行为分析中的应用[J].福建电脑,2007(02):
85-86.
[16]StatisticalServicesofUniversityofTexas,GeneralFAQ#25:
HandlingMissingorIncompleteData(Online).Available.http:
//www.utexas.edu/cc/faqs/stat/gen25.html.Septemgber1,2001
[17]郝先臣,张德干,尹国成,赵海.用于电子商务当中的数据挖掘技术研究.,2001
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 算法 作业