最新数据挖掘教学大纲.docx
- 文档编号:27327808
- 上传时间:2023-06-29
- 格式:DOCX
- 页数:15
- 大小:28.53KB
最新数据挖掘教学大纲.docx
《最新数据挖掘教学大纲.docx》由会员分享,可在线阅读,更多相关《最新数据挖掘教学大纲.docx(15页珍藏版)》请在冰豆网上搜索。
最新数据挖掘教学大纲
数据挖掘教学大纲
西北师范大学计算机科学与技术专业课程教学大纲
数据挖掘
一、说明
(一)课程性质
数据挖掘是计算机科学与技术专业的选修课程,本课程以数据挖掘为主要内容,讲述实现数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的数据挖掘模型。
先修课程:
《数据库原理》、《概率论与数理统计》、《高级程序设计语言》、《数据结构》等。
(二)教学目的
数据挖掘是20世纪末刚刚兴起的数据智能分析技术,由于有广阔的应用前景而备受重视。
数据挖掘作为一门新兴的学科,在它的形成和发展过程中表现出了强大的生命力,广大从事数据库应用与决策支持,以及数据分析等学科的科研工作者和工程技术人员迫切需要了解和掌握它。
数据挖掘涉及的内容较为广泛,已成为迅速发展并在信息社会中广泛应用的一门综合性学科。
数据挖掘已成为统计学专业的一门重要课程。
通过数据挖掘课程的教学,使学生理解数据挖掘的基本概念和方法,为进入更深入的智能数据分析研究打好基础。
(三)教学内容
本课程主要学习的内容包括数据预处理、分类与预测、聚类分析等内容
(四)教学时数
本课程的教学时数为课堂36学时,上机18学时,2.5学分。
(五)教学方式
本课程将采用课堂讲授、上机实验相结合的方法。
二、本文
第一章数据挖掘概述
教学要点:
1.理解和掌握数据挖掘的基本概念、数据挖掘过程以及数据挖掘功能。
2.了解数据挖掘的应用和面临的问题。
3.对数据挖掘能够解决的问题和解决问题思路有清晰的认识。
教学时数:
3学时。
教学内容:
第一节什么是数据挖掘(0.5学时)
数据挖掘(DataMining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提
取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。
第二节数据挖掘——在何种数据上进行?
(0.5学时)
关系数据库、数据仓库、事务数据库
第三节数据挖掘功能——可以挖掘什么类型的模式(1学时)
关联分析、分类和预测、聚类分析
第四节数据挖掘系统的分类(1学时)
数据挖掘系统可以根据所挖掘的知识类型分类。
即,根据数据挖掘的功能,如特征、区分、关联、聚类、局外者、趋势和演化分析、偏差分析、类似性分析等分类。
一个全面的数据挖掘系统应当提供多种和/或集成的数据挖掘功能。
此外,数据挖掘系统可以根据所挖掘的知识的粒度或抽象层进行区分,包括泛化知识(在高抽象层),原始层知识(在原始数据层),或多层知识(考虑若干抽象层)。
一个先进的数据挖掘系统应当支持多抽象层的知识发现。
数据挖掘系统还可以分类为挖掘数据规律(通常出现的模式)和数据反规律(如例外或局外者)。
一般地,概念描述、关联分析、分类、预测和聚类挖掘数据规律,将局外者作为噪音排除。
这些方法也能帮助检测局外者。
第二章数据仓库与OLAP
教学要点:
1.了解数据集市、数据仓库的基本内涵。
2.掌握数据仓库的实现方法,包括如何建立多维数据模型。
3.了解数据仓库系统的结构。
4.掌握OLAP的典型操作,并能根据实际问题进行OLAP操作。
教学时数:
3学时。
教学内容:
第一节数据仓库(0.5学时)
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理决策制定。
这个简短、全面的定义指出了数据仓库的主要特征。
四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其它数据存储系统(如,关系数据库系统、事务处理系统、和文件系统)相区别。
第二节多维数据模型(1学时)
星形模式、雪花模式、事实星座模式
第三节数据仓库的系统结构和实现(1学时)
1.数据仓库的设计步骤和结构
2.三层数据仓库结构
3.OLAP服务器类型
第四节由数据仓库到数据挖掘(0.5学时)
1.数据仓库的使用
2.由联机分析处理到联机分析挖掘
第三章数据预处理
教学要点:
1.了解数据预处理的目的和意义。
2.掌握如何读取不同数据源的数据。
3.掌握如何对数据进行清理。
4.掌握如何对不同数据源的数据进行合并。
5.掌握如何对数据进行变换,使之适合建模的需要。
6.掌握如何对数据进行消减,使得在消减后的数据集上挖掘更有效。
7.了解目前数据预处理发展及研究动态。
教学时数
4学时。
教学内容:
第一节数据清理(1学时)
遗漏值、噪音数据
第二节数据集成和变换(1学时)
1.数据集成
2.数据变换
第三节数据归约(1学时)
1.数据方聚集:
聚集操作用于数据方中的数据。
2.维归约:
可以检测并删除不相关、弱相关或冗余的属性或维。
3.数据压缩:
使用编码机制压缩数据集。
4.数值压缩:
用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。
第四节离散化和概念分层产生(1学时)
1.数值数据的离散化和概念分层产生。
2.分类数据的概念分层产生。
第四章挖掘频繁模式、关联和相关
教学要点:
1.了解关联规则的基本思想、概念和意义。
2.了解关联规则挖掘的应用背景;掌握常用的关联规则算法。
3.掌握关联规则分析如何通过数据挖掘软件实现。
4.了解其它方法的内容、了解关联规则挖掘的研究动态。
教学时数:
4学时。
教学内容:
第一节基本概念和路线图(0.5学时)
1.购物篮分析
2.频繁项集、闭项集和关联规则
3.频繁模式挖掘:
路线图
第二节有效的和可伸缩的频繁项集挖掘(2学时)
1.Apriori算法:
使用候选项集找频繁项集
2.由频繁项集产生关联规则
3.提高Apriori算法的有效性
第三节挖掘各种类型的关联规则(1学时)
1.多层关联规则
2.挖掘多层关联规则的方法
第四节由关联挖掘到相关分析(0.5学时)
1.强关联规则
2.由关联分析到相关分析
第五章分类与预测
教学要点:
1.了解分类及预测的基本思想、概念和意义。
2.掌握常用的分类及预测算法(或模型)。
3.了解分类及预测挖掘的研究动态。
教学时数:
12学时。
教学内容:
第一节什么是分类,什么是预测(0.5学时)
分类和预测的定义
第二节用决策树归纳分类(1学时)
1.决策树归纳
2.属性选择度量
3.树剪枝
4.可伸缩性与决策树归纳
第三节贝叶斯分类(2学时)
1.贝叶斯定理
2.朴素贝叶斯分类
3.贝叶斯信念网络
4.训练贝叶斯信念网络
第四节基于规则的分类(1学时)
1.使用IF-THEN规则分类
2.从决策树提取规则
3.使用顺序覆盖算法的规则归纳
第五节后向传播分类(2学时)
1.多路前馈神经网络
2.定义网络拓扑
3.后向传播
4.后向传播和可解释性
第六节支持向量机(2学时)
1.数据线性可分情况下的分类
2.数据线性不可分情况下的分类
第七节惰性学习法(1学时)
1.K最近邻分类算法
2.基于案例的推理
第八节其它分类方法(1.5学时)
1.遗传算法
2.粗糙集方法
3.模糊集方法
第九节预测(1学时)
1.线性回归
2.非线性回归
3.其它回归模型
第六章聚类分析
教学要点:
1.了解如何计算由各种属性和不同的类型来表示的对象之间的相异度。
2.了解几种聚类技术,它们可以分为如下几类:
划分方法,层次方法,基于密度的方法,基于网格的方法,和基于模型的方法。
3.如何利用聚类方法进行离群点分析。
教学时数:
10学时。
教学内容:
第一节聚类分析中的数据类型(0.5学时)
1.区间标度(Interval-Scaled)变量
2.二元变量(binaryvariable)
3.标称型、序数型和比例标度型变量
4.混合类型的变量
第二节主要聚类方法的分类(0.5学时)
1.划分方法
2.层次的方法
3.基于密度的方法
4.基于网格的方法
第三节划分方法(2学时)
1.典型的划分方法:
k-Means和k-Medoids
2.大规模数据库中的划分方法:
从k-Medoids到CLARANS
第四节层次方法(2学时)
1.凝聚的和分裂的层次聚类
2.BIRCH:
利用层次方法的平衡迭代约减和聚类
3.ROCK:
分类属性的层次聚类算法
第五节基于密度的方法(2学时)
1.DBSCAN:
一个基于密度和高密度的连结区域的聚类算法
2.OPTICS:
通过对象排序识别聚类结构
3.DENCLUE:
基于密度分布函数的聚类
第六节基于约束的聚类分析(2学时)
1.含有障碍物的对象聚类
2.用户约束的聚类分析
3.半监督聚类分析
第七节孤立点(OUTLIER)分析(1学时)
1.基于统计分布的离群点探测
2.基于距离的离群点探测
3.基于密度的局部离群点检测
4.基于偏离的离群点探测
三、参考书目
教材用书:
1、JiaweiHan、Micheline·Kamber著,范明等译,《数据挖掘概念与技术》,机械工业出版社,2007年3月,第二版。
参考书目:
1、张云涛、龚玲著,《数据挖掘原理与技术》,电子工业出版社,2004。
2、陈京民编著,《数据仓库与数据挖掘技术》,电子工业出版社,2002。
3、林杰斌主编,《数据挖掘与OLAP理论与实务》,清华大学出版社,2003.1。
4、朱明编著,《数据挖掘》,中国科学技术大学出版社,2002.2。
5、RichardJ.Roiger,MichaelW.Geatz著,翁敬农译,《数据挖掘教程》,清华大学出版社,2003。
6、DavidHand,HeikkiMannila,PadhraicSmyth著,张银奎、廖丽、宋俊等译,《数据挖掘原理》,机械工业出版社,2003。
本课程使用教具和现代教育技术的指导性意见
本课程教材力求内容新颖,应采用多样化的方式进行教学,让学生在理论与实践相结合的基础上,对课程所要求的实际操作能力有进一步的提高。
充分利用多媒体等现代化教学手段,整体优化教学过程和教学内容,调动学生学习积极性;布置实际操作任务给学生上机操作并及时指导。
《数据挖掘》实验教学大纲及实验项目
课程编号:
71001607
课程类别:
专业基础选修课
实验学时:
实验18学时
学分:
1
适用专业:
计算机科学与技术
一、实验教学目的和任务
数据挖掘是20世纪末刚刚兴起的数据智能分析技术,由于有广阔的应用前景而备受重视。
数据挖掘作为一门新兴的学科,在它的形成和发展过程中表现出了强大的生命力,广大从事数据库应用与决策支持,以及数据分析等学科的科研工作者和工程技术人员迫切需要了解和掌握它。
数据挖掘涉及的内容较为广泛,已成为迅速发展并在信息社会中广泛应用的一门综合性学科。
数据挖掘已成为统计学专业的一门重要课程。
通过数据挖掘课程的教学,使学生理解数据挖掘的基本概念和方法,为进入更深入的智能数据分析研究打好基础。
本课程的任务是:
通过实践,学生对常用数据挖掘中的基本概念及其不同算法的实现方法的理论得到进一步的掌握,并对数据挖掘中的数据预处理、分类与聚类方法的具体实现及作用有所体会。
二、实验教学基本要求
本课程是一门实践性很强的专业课,只有了解这门课程的特点和基本要求,学习时才能做到有的放矢,举一反三,本课程特点主要有以下几个方面:
(1)内容丰富,理论性强。
本课程为以后更深入的进行智能数据分析研究打下良好的基础。
(2)注重理论联系实际,加强实验环节的训练。
只有通过实验,才能透彻理解基本原理。
三、实验教学内容
序号
项目名称
项目类别
项目类型
项目学时
1
数据仓库设计
基础性
选做
3
2
数据预处理
基础性
必做
3
3
Apriori算法
综合性
必做
3
4
NaïveBayes
综合性
选做
3
5
决策树算法
综合性
必做
3
6
k-Means算法
综合性
必做
3
实验项目内容及要求
实验要求的设备为计算机,统一在计算机实验室完成。
实验项目共5个,项目类别分为基础性、综合性和设计性三种,实验项目类型分为必做和选做。
要求学生在18学时必须完成必做项目,在完成的基础上实现选做项目。
实验一数据仓库设计实验
1、实验目的及要求:
(1)在学习的过程中,学生需要在教材的基础上搜索相关的文献资料,对于研究内容,只要能够形成决策的数据环境即可,同时对于研究方法也不做具体的限制。
(2)对于研究内容,要能体现出数据仓库设计的各个阶段和方法侧重点。
2、实验内容及学时分配:
(3学时,选做)
(1)针对企业管理的某个领域,研究数据仓库设计的理论与方法。
(2)设计出一个数据仓库实例。
实验二数据预处理实验
1、实验目的及要求:
(1)在学习的过程中,学生需要在教材的基础上搜索相关的文献资料,采用任何数据预处理方法,只要能达到相应的决策目的即视为有效。
(3)对于研究内容,只要能够为以后的数据挖掘提供准备功能即可,同时对于研究方法也不做具体的限制,但是要能体现出数据预处理的合理性。
2、实验内容及学时分配:
(3学时)
(1)研究数据预处理方法。
(2)编制出数据预处理方法的程序,并基于实例进行实现得出最终实验结果。
实验三Apriori算法实验
1、实验目的及要求:
(1)掌握Apriori算法模型的实现过程及基本方法。
(2)掌握Apriori算法的实现。
2、实验内容及学时分配:
(3学时)
(1)选择合理的数据集。
(2)数据预处理。
(3)Apriori算法模型设计。
实验四 NaïveBayes实验
1、实验目的及要求:
(1)掌握NaïveBayes算法模型的实现过程及基本方法。
(2)掌握NaïveBayes算法的实现。
2、实验内容及学时分配:
(3学时)
(1)选择合理的数据集。
(2)数据预处理。
(3)NaïveBayes算法模型设计。
实验五 决策树算法实验
1、实验目的及要求:
(1)掌握决策树算法模型的实现过程及基本方法。
(2)掌握决策树算法的实现。
2、实验内容及学时分配:
(3学时)
(1)选择合理的数据集。
(2)数据预处理。
(3)决策树算法模型设计。
实验六 k-Means算法实验
1、实验目的及要求:
(1)掌握k-Means算法模型的实现过程及基本方法。
(2)掌握k-Means算法的实现。
2、实验内容及学时分配:
(3学时)
(1)选择合理的数据集。
(2)数据预处理。
(3)k-Means算法模型设计。
四、实验教材(或参考书、指导书)
教材用书:
1、JiaweiHan、Micheline·Kamber著,范明等译,《数据挖掘概念与技术》,机械工业出版社,2007年3月,第二版。
参考书目:
1、张云涛、龚玲著,《数据挖掘原理与技术》,电子工业出版社,2004。
2、陈京民编著,《数据仓库与数据挖掘技术》,电子工业出版社,2002。
3、林杰斌主编,《数据挖掘与OLAP理论与实务》,清华大学出版社,2003.1。
4、朱明编著,《数据挖掘》,中国科学技术大学出版社,2002.2。
5、RichardJ.Roiger,MichaelW.Geatz著,翁敬农译,《数据挖掘教程》,清华大学出版社,2003。
6、DavidHand,HeikkiMannila,PadhraicSmyth著,张银奎、廖丽、宋俊等译,《数据挖掘原理》,机械工业出版社,2003。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 数据 挖掘 教学大纲