数据预处理实验1.docx
- 文档编号:23723173
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:20
- 大小:410.30KB
数据预处理实验1.docx
《数据预处理实验1.docx》由会员分享,可在线阅读,更多相关《数据预处理实验1.docx(20页珍藏版)》请在冰豆网上搜索。
数据预处理实验1
重庆交通大学信息科学与工程学院
实验报告
班级:
曙光1701班
姓名学号:
实验项目名称:
数据导入与预处理实验一
实验项目性质:
验证性、设计性
实验所属课程:
《数据导入与预处理》
实验室(中心):
语音楼八楼
指导教师:
实验完成时间:
2019年11月1日
一.实验目的
1.了解和掌握数据库的恢复,数据库数据的变换,数据的统计以及可视化;掌握Json数据集的API下载方法,数据提取,以及导入其他数据结构的方法。
2.了解和掌握不同数据格式之间的转换方法;掌握用计算机编程语
言实现数据的格式转换以及数据信息的提取。
二.实验要求
1.安装Mysql数据库,以及mysqlworkbench客户端,
2.下载对公众开放的安然(Enron)公司的电子邮件数据集。
下载地址:
3.在mysql中恢复Enron数据库。
4.数据统计每一天和每一周发邮件的数量,并用可视化软件实现可视化。
5.采用iTunesAPI做个小实验,利用关键词来生成JSON数据结果集。
iTunes是由Apple公司提供的一个音乐服务,任何人都可以利用
iTunes服务来查找歌曲、艺术家和专辑。
在查找的时候需要把搜索关
键词添加到iTunesAPIURL的后面。
URL中,=后面的是搜索关键词,
是一个乐队的名字,theGrowlers。
注意:
URL中用+代替空格字符,
URL不允许包含空格字符。
iTunesAPI会根据提供的关键词从音乐库中返回50个结果。
整个结果集形成一个JSON文件,每一条音乐信息中的元素,以名字-值的格式存放在JSON文件中。
TheGrowlers
AppleiTunes的开发文档:
6.使用一种熟悉的语言,编写程序,将下载下来的theGrowlers的
所有音乐的歌名提取出来,并可视化显示。
三、需求分析
1.提取出安然公司数据集中的每天的阅读量和每周的阅读量,并画出趋势图
2.提取出iTunes中的trackname数据
四、实验过程
1.安装好Mysql和MysqlWorkbench
2.建立一个新的数据库:
3.打开cmd,进入MySQL:
查看数据库:
4.下载好安然公司的数据集
5.选用enron数据库,在Mysql中导入安然公司的数据集到数据
库
6.在MysqlWorkbench中查看已经创建好的数据库
7.用SQL语言查找每天的订阅量(1999年到2017年)
8.并导入excel画图
excel文件如下:
再用TableauPublic2019.2,绘制图形,如下图所示:
9.用sql语言查找每周的订阅量
10.并导入excel画图
11.下载iTunes数据集,下载结果为文本文件
12.以文本文件格式打开,如下图:
将后缀名改为.Json:
13.用python将json格式文件中的Trackname提取出来
14.打开jupyter,编写代码
15.结果如下
五、总结
通过此次实验,了解和掌握数据库的恢复、数据库数据的变换、数
据的统计以及可视化;掌握Json数据集的API下载方法,数据提取,
以及导入其他数据结构的方法;还有就是了解和掌握不同数据格式之
间的转换方法;掌握用计算机编程语言实现数据的格式转换以及数据
信息的提取。
了解了mysql的安装以及一些基本的sql操作。
例如数
据库的创建、基本的查询功能,数据库sql文件的导入等。
同时对于
可视化软件Tableau也更加熟悉了,能够根据查询结果绘制散点图,
折现图,更好的将数据规律展现出来。
这在很大程度上提升了自己的
独立解决问题能力。
此次实验使我获益良多。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 实验