数据挖掘实验报告超市商品销售分析及数据挖掘.docx
- 文档编号:6972709
- 上传时间:2023-01-13
- 格式:DOCX
- 页数:9
- 大小:92.68KB
数据挖掘实验报告超市商品销售分析及数据挖掘.docx
《数据挖掘实验报告超市商品销售分析及数据挖掘.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验报告超市商品销售分析及数据挖掘.docx(9页珍藏版)》请在冰豆网上搜索。
数据挖掘实验报告超市商品销售分析及数据挖掘
通信与信息工程学院
课程设计说明书
课程名称:
数据仓库与数据挖掘课程设计
题目:
超市商品销售分析及数据挖掘
专业/班级:
电子商务(理)
组长:
学号:
组员/学号:
开始时间:
2011年12月29日
完成时间:
2012年01月3日
数据挖掘实验报告
1.绪论
1.1项目背景
在商业领域中使用计算机科学与技术是当今商业的发展方向,而数据挖掘是商业领域与计算机领域的乔梁。
在超市的经营中,应用数据挖掘技术分析顾客的购买习惯和不同商品之间的关联,并借由陈列的手法,和合适的促销手段将商品有魅力的展现在顾客的眼前,可以起到方便购买、节约空间、美化购物环境、激发顾客的购买欲等各种重要作用。
1.2提出问题
那么超市应该对哪些销售信息进行挖掘?
怎样挖掘?
具体说,超市如何运用OLAP操作和关联规则了解顾客购买习惯和商品之间的关联,正确的摆放商品位置以及如何运用促销手段对商品进行销售呢?
如何判断一个顾客的销售水平并进行推荐呢?
本次实验为解决这一问题提出了解决方案。
2.数据仓库与数据集市的概念介绍
2.1数据仓库介绍
数据仓库,英文名称为DataWarehouse,可简写为DW或DWH,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。
........
2.2数据集市介绍
数据集市,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。
.......
3.数据仓库
3.1数据仓库的设计
3.1.1数据库的概念模型
3.1.2数据仓库的模型
数据仓库的模型主要包括数据仓库的星型模型图,我们创建了四个维表和一个事实表。
四个维表为:
item维表,time维表,branch维表,location维表。
事实表为:
sales事实表。
其中,
3.2数据仓库的建立
3.2.1数据仓库数据集成
我们小组粗略的统计了超市一年的销售记录,并建立了数据库。
其
....
当然,这只是最初的表,后面还要进行数据清理与转换,对其进一步改进,以便于数据挖掘。
3.2.2建立维表
item维表
branch维表
location维表
sales事实表
4.OLAP操作
按时间上卷:
切块:
按片查询:
整个数据立方体:
5.数据预处理
5.1描述性数据汇总
【saleID】S*:
销售号(笔数)
【customerID】C*:
顾客编号
【productID】P*:
购买的商品号
【timeID】T*:
时间号(月)
5.2数据清理与变换
数据清理:
(1)初始表格在前面已经给出,每笔交易中购买的商品不止一
....
数据变换:
对不同的数据类型做不同的变换。
比如男女分别用1,0表示;高中档商品用1,0表示;收入统一除以10000。
6.数据挖掘操作
6.1关联规则挖掘
6.1.1频繁一项集筛选
I1支持度的代码及结果为:
输出结果为:
24
其他一项候选集同理
6.1.2、频繁二项集筛选
频繁二项集候选集为(I1,I18),(I1,I2),(I1,,I3),(I1,I4),(I1,I5),(I1,I7),
(I18,I2),(I18,I3),(I18,I4),(I18,I5),(I18,I7),
(I2,I3),(I2,I4),(I2,I5),(I2,I7),
(I3,I4),(I3,I4),(I3,I5),(I3,I7),
(I4,I5),(I4,I7),
(I5,I7)
(I1,I18)的支持度代码和结果为:
输出结果为:
15
I3和I18支持度的代码和结果为:
输出结果为:
14
I1和I3支持度的代码和结果为:
输出结果为:
18
同理可得:
6.1.3、频繁三项集筛选
频繁三项集候选集为:
(I1,I3,I18)
(I1,I3,I18)的支持度代码和结果为:
输出结果为:
13
综上可得I1、I3和I18的支持度和置信度为:
由上可知:
1.顾客习惯一起购买商品I1,I3,I18,即牛奶面包和电视机
2.所以超市可以将牛奶面包电视机摆放在一起
6.2分类和预测
预测的结果可以用关联规则的结果和OLAP的结果来说明。
预测结果如下:
1.根据OLAP从日到月上卷操作,1月为销售旺季,商店可以在此期间加大供应量,以获得更大利润。
2.顾客对牛奶的需求很大,且为蒙牛牛奶
3.顾客对面包的需求也很大,且为安琪面包
4.对步步高电视机的需求也很大。
6.3决策树的建立:
通过研究顾客的属性,分析这些属性对顾客购买商品档次的影响,建立决策树,预测顾客购买商品的档次。
6.3.1.选择最佳分裂点:
1)源数据:
(部分展示)
数据转换后数据:
(部分展示)
2)选取过程具体操作:
3)经比较gain()的值得出,选取sex。
6.3.2.继续寻找下一个分裂点:
1)源数据:
(部分展示)(按sex分类)
F:
(49条记录)
M:
(51条记录)
2)选取过程具体操作:
F:
M:
M中找到的分裂点为income
6.3.3.分裂的数据结果部分如图:
F:
M的操作以此类推,得到的结果如下:
由此可得出决策树为:
Sex
男
女
数据(2)
数据(3)
low
mid
high
youth
mid
old
数据(4)
l
m
h
高
高
中
中
数据(5)
高
l
数据6
m
h
高
中
y
m
o
高
中
高
6.4聚类分析
6.4.1原始数据:
6.4.2数据转换:
6.4.3使用欧几里得距离,K=3,K均值:
第一次聚类分析:
第二次聚类分析:
第三次聚类分析:
(4)三次聚类分析结果:
第一次聚类结果为:
new1:
C1,C3,C5,C8,C9,C10,C11,C15,C16,C18,C20
new2:
C2,C4,C6,C9,C14,C19new3:
C7,C12,C13,C17
平方误差:
8.82
第二次聚类结果为:
n1:
C1,C7,C8,C10,C11,C15,C16,C20
n2:
C2,C3,C4,C5,C6,C9,C14,C18,C19
n3:
C12,C13,C17
平方误差:
6.25
第三次聚类结果为:
n1:
C1,C7,C8,C10,C11,C15,C16,C20
大体为年轻、收入低,买中等品的一类人群
n2:
C2,C3,C4,C5,C6,C9,C14,C18,C19
大体为年龄、收入于购买商品成反向的人群
n3:
C12,C13,C17
其他人群
平方误差:
4.79
7.总结
8.任务分配
THANKS!
!
!
致力为企业和个人提供合同协议,策划案计划书,学习课件等等
打造全网一站式需求
欢迎您的下载,资料仅供参考
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实验 报告 超市 商品 销售 分析