国家中小学课程资源
数据整理(第二十三课时)
年级:高一 学 科:信息技术(人教/中图版)
学 校某省市第三十五中学
回顾 数据处理一般过程
数据采集
高某著名企业
息技术
数据整理
数据分析
数据呈现
数据保存
高某著名企业
息技术
数据采集到的数据,是怎样保存的呢?
常见的数据保存形式是云存储、数据库、文件。
文件格式
文件格式保存,最常见的是txt、csv格式。
csv文件也是一种保存了数据的文本文件,其中的数据通常以英文逗
号分隔开。excel、wps等表格软件可以兼容打开该格式的文件。
高某著名企业
息技术
观察数据
上图是学生体质健康数据的部分原始数据,观察该数据存在什么问题。
高某著名企业
息技术
原始数据可能存在的问题
缺失
数据为空
错误 重复 非标准
数据单位
格式不一致
高某著名企业
息技术
数据不准确 重复的数据
“脏数据”
1、数据整理的目
的
问题数据 清洁数据
有效
数据
完整性
准确性
统一性 提取价值
高某著名企业
息技术
2、数据整理的方
法
补漏 勘误
避免缺失 标准化、异
常值修正
高某著名企业
息技术
去重
删删除除重重复复
3、数据整
理
。。
金山银山不如绿水青山,最近
这些年,国家落实严控环境污染、
修复生态环境等政策。随着环境改
善,你家乡的空气质量情况是否有
所改善?我们需要数据来帮助判断。
每小时采集的空气质量原始数据
高某著名企业
息技术
活动1:观察数
据
请暂停视频,下载资源包
中的文件。
打开 原始数据.csv。 观
察数据表中的数据,思
考是否存在什么问题。
原始数据.csv
高某著名企业
息技术
观察数据——重复
存在重复值——需要去
重
高某著名企业
息技术
观察数据——筛选
存在太多数据——需要筛
选
高某著名企业
息技术
观察数据——非标准化
日期格式不正确——需要数据标准
化高某著名企业
息技术
观察数据——缺失
存在数据缺失——需要尽可能补
缺高某著名企业
息技术
空气质量数据整理需求
高某著名企业
息技术
1、存在重复数据!——去重
2、数据太多了,我们只需要某省市数据!——筛选
3、日期格式不正确!——标准化
4、现有缺失数据!——尽可能补缺
Pandas库介
绍
高某著名企业
息技术
Pandas库是数据分析和整理常用的一个第三方库。
包含现成方法读写多种文件格式数据。
能够高效操作大型数据集。
非常擅长处理类似于表格类型的数据。
Pandas库介
绍
高某著名企业
息技术
Pandas库有两个常用的主要数据结构
Series——这是一串数据组成的集合
DataFrame——这是一个表格型的数据结
构
Pandas库——DataFrame结
构
行
索
引
号
列索引号
列
数
据
从0开始
高某著名企业
息技术
活动2:空气质量数据去
重
高某著名企业
息技术
暂停视频
请下载 课堂活动(去重).py 文件
和 原始数据.csv 放在同目录下。
活动2:空气质量数据去
重
目标——删除重复数据
打开下载的程序文件
高某著名企业
息技术
活动2:空气质量数据去
重
高某著名企业
息技术
删除重复数据用三句代码实现
_csv(sename,index=False)——保存文件
=_csv(file,encoding='utf-8',header=0)——读取文件
=_duplicates(keep='first')——删除重复数据
正确的顺序是 B C A
活动2:空气质量数据去
重
df=_csv(file,encoding='utf-8',header=0)
data=_duplicates(keep='first')
_csv(sename,index=False)
请大家提供的代码,将缺失的代码补全,然后运行, 看看去
重后的效果吧!
读取文件
删除重复
另存文件
高某著名企业
息技术
活动2:空气质量数据去
重
高某著名企业
息技术
活动3:空气质量数据筛
选
高某著名企业
息技术
目标——筛选数据
现在数据太多了,我需要筛选某省市的数据!
例如 筛选北京的数据。
DataFrame筛选用
法
DataFrame筛选数据
df[列索引]筛选某列的数据 df
['北京']筛选红色区域数据
高某著名企业
息技术
DataFrame筛选用
法
DataFrame筛选数据
df[列索引列表]筛选多列数据 df
[ ['date','北京'] ]筛选两 列数据
高某著名企业
息技术
DataFrame筛选用
法
DataFrame筛选数据
更多筛选、定位数据的方法
请参考学习资料包中的阅读材料
高某著名企业
息技术
活动3:空气质量数据筛
选
高某著名企业
息技术
暂停视频
请下载 课堂活动(筛选).py 文件
和 STEP1_删除重复数据.csv 放在同目录下。
活动3:空气质量数据筛
选
筛选出date、hour、type、北京 这四列数据
高某著名企业
息技术
活动3:空气质量数据筛
选
读取文件
筛选数据
另存文件
高某著名企业
息技术
活动3:空气质量数据筛
选
df=_csv(file,encoding='utf-8',header=0)
data=df[ ['date','hour','type',city] ]
_csv(sename,index=False)
请大家提供的代码,将缺失的代码补全,然后运行。 看看筛
选后的效果吧!
读取文件
筛选数据
另存文件
高某著名企业
息技术
运行效果
高某著名企业
息技术
活动4:空气质量数据标准化处
理
高某著名企业
息技术
暂停视频
请下载 课堂活动(标准化).py 文件
和 STEP2_筛选后数据.csv 放在同目录下。
活动4:空气质量数据标准化处
理
目标——数据标准化(日期标准化)
日期格式应该是2020-10-01
的形式。我们需要对这一列数据
处理。
高某著名企业
息技术
活动4:空气质量数据标准化处
理
201
5
0
5
2
1
用-拼接
2015-05-
21
高某著名企业
息技术
2015052
1
datestr
datestr[0:4
]
datestr[4:6
]
datestr[6:8
]datestr[0:4] + '-' + datestr[4:6] + '-' +
datestr[6:8]
课堂活动:STEP3 标准
化读取文件
循环拼接
另存文件
循环拼接
另存文件
高某著名企业
息技术
活动4:空气质量数据标准化处
理
高某著名企业
息技术
暂停视频
请运行 课堂活动(标准化).py 文件
运行结束,观察新生成的数据文件
运行效果
高某著名企业
息技术
活动5:空气质量数据补缺
高某著名企业
息技术
暂停视频
请下载 课堂活动(补缺).py 文件
和 STEP3_日期标准化后数据.csv 放在同目录下。
活动5:空气质量数据补缺
高某著名企业
息技术
目标——补全缺失数据
对于未发布数据,无法补全。
对于偶发性缺失数据,可以补全。
方法很多,比如线性插值法、均值插值、临近值补缺。
这些属于高等数学、线性代数的内容,请课下了解。
活动5:空气质量数据补缺
目标——数据补缺
打开 课堂活动(补缺).py
自定义函数supplyData实现了补缺。
修改city为指某省市名称。
(注意一定和csv文件某省市名一致)。
运行程序,体验下补缺过程。
高某著名企业
息技术
运行效果
高某著名企业
息技术
数据整理活动小结
高某著名企业
息技术
我们通过课堂体验活动,体验了删除重复数据、筛选数据、标准化数据、
补全缺失值的整理过程。其实数据整理除了编程工具还有多种工具可以
使用,如表格软件、在线数据分析平台等。选择Python编程工具来做数
据整理有哪些优势呢?
编程可灵活实现使用者的需求
4、课堂小
结
数据整理
整理目的
整理方法
问题数据
去重
勘误
补漏
重复数据
非标准化数据
错误数据
缺失数据
高某著名企业
息技术
5、课后作
业
高某著名企业
息技术
上节课同学们通过调查问卷的形式采集了身边同学们的课余时间安排数
据,这些数据是否是存在问题?请将采集到的数据进行数据整理,去除
无效、错误、重复数据,并对数据进行标准化处理。
请参考学习资料中的示例
了解Python编程实现筛选数据、去重、删除数据的基本方法。