Pandas学习笔记常用功能.docx
- 文档编号:12632905
- 上传时间:2023-04-21
- 格式:DOCX
- 页数:15
- 大小:21.76KB
Pandas学习笔记常用功能.docx
《Pandas学习笔记常用功能.docx》由会员分享,可在线阅读,更多相关《Pandas学习笔记常用功能.docx(15页珍藏版)》请在冰豆网上搜索。
Pandas学习笔记常用功能
Pandas学习笔记常用功能
本文是关于pandas的学习笔记,由于pandas会用到numpy,可能需要读者简单了解一下numpy的内容,不过有用到的部分我会在文中进行简单解释说明。
资料来源主要是两块,一是pandas:
powerfulPythondataanalysistoolkit;另一个《利用python进行数据分析》(WesMcKinney)目录一、pandas的安装和使用二、python数据结构三、对数据类型的操作四、总结
一、pandas的安装和使用Pandas和其他python的库安装方式一样,whl、源码或者pip,在此就不赘述了,PythonDataAnalysisLibrary上面有github源码和whl文件。
注意:
pandas安装会用到numpy库,因此在安装pandas之前一定要安装好numpy。
Pandas安装的时候还有两个大坑:
如果如果是VC++isrequired,说明要装VisualStudio,这个XXVisualStudio安装即可;如果是excentionisrequired,比如我碰到的CExcention,说明需要安装对应的拓展包,这个情况可以通过PythonExtensionPackagesforWindows这个网站下载。
由于欧皇血统,安装过程不算崎岖,希望踩到其他坑的小伙伴可以多留言让我们整理一下碰到的问题。
Pandas在使用的时候一般会和numpy一起使用,并且官方给pandas简称pd,numpy简称np,原因我就不知道了。
二、python数据结构说明:
pandas当中数据类型会具体涉及到int32、int64等等,没有进行设置的时候pandas默认输出64位,如果考虑内存使用效率的话可以自行修改。
1、SeriesSeries可以理解为一个一维的数组,只是index可以自己改动。
创建的方法统一为pd.Series(data,index=)。
打印的时候按照index赋值的顺序,有的时候会看着很别扭。
某个index对应的值为空就用NaN。
index参数默认从0开始的整数,也是Series的绝对位置,即使index被赋值之后,绝对位置不会被覆盖。
Series可以通过三种形式创建:
python的dict、numpy当中的ndarray(numpy中的基本数据结构)、具体某个数值。
index赋值必须是list类型。
Python的dict创建:
s=pd.Series({‘a’=1,’b’=2,’d’=3},index=[‘a’,’d’,’c’,b’])
输出:
a1
d3
cNaN
b2
dtype:
int64
numpy中的ndarray:
s=pd.Series(np.random.randn(5),index=list('ABCDE')
输出:
A-1.130657
B-1.539251
C1.503126
D1.266908
E0.335561
dtype:
float64
具体某个值:
s=pd.Series(5)
输出:
05
dtype:
int64
s=pd.Series([5,4])
输出:
05
14
dtype:
int64
s=pd.Series([5,4],index=list[‘abcd’])
输出:
ERROR
S=pd.Series(5,index=list(‘abcd’))
a5
b5
c5
d5
dtype:
int64
像这种具体某个值的创建方法,保证每行数据精准性的话很麻烦,并且用起来会不小心把其他数据覆盖掉,因此我个人用的比较少。
注意:
创建Series的时候要注意创建行数和索引数量匹配的问题,如果默认的话会自动匹配创建的行数。
除了创建肯定需要查询,这时候会用到s.values和s.index,分别查询值和索引。
2、DataFrameDataFrame是一个类似于表格的数据类型,如图:
有这样一些参数:
data(方框内的数据):
numpyndarray(structuredorhomogeneous),dict,orDataFrameindex(行索引索引):
Indexorarray-likecolumns(列索引):
Indexorarray-likedtype(data的数据类型):
dtype,defaultNoneDataFrame可以理解为一个二维数组,index有两个维度,可更改。
DataFrame统一的创建形式为:
pd.DataFrame(data,columns=,index=)其中columns为列的索引,index为行的索引。
index或者columns如果不进行设置则默认为0开始的整数,也是行的绝对位置,不会被覆盖;而通过外部数据(比如打开文件)创建DataFrame的话需要注意列名匹配的问题,给columns赋的值如果和数据来源当中列名不一样的话,对应的列下面会出现NAN。
还有个常用参数为orient,默认为空,如果赋值’index’则将输入Series的index值作为DataFrame的columns。
栗子如下:
a=pd.read_csv('c:
/users/15418/Desktop/bajiao.csv')
pd.DataFrame(a,columns=['a','b','commentsNum'])
输出:
abcommentsNum
0NaNNaN9795
1NaNNaN21088
2NaNNaN4107
3NaNNaN4115
4NaNNaN39300
Data的创建形式有以下几种:
一维数据类型进行创建、二维ndarray创建、外部输入。
二维数组创建,由于比较简单就先说:
pd.DataFrame(二维数组,columns=,index=),由于比较简单就不举代码了。
外部输入就是读取文件等手段,如csv、excel等文件:
上面那个例子已经说明了读取文件创建过程。
概括来说就是先读取一个文件对象(pd.read_xxx,xxx是对应的文件类型,常用有csv、excel、table等)的对象,然后再通过该对象创建DataFrame,但要注意columns列名的命名。
一维数据类型创建(一维数据类型主要有:
一维ndarray、列表、字典、Series等):
首先是字典和Series类型创建DataFrame:
一个是将字典或者Series组合成列表进行创建;另一个是将两者放入字典里面创建。
例子如下:
第一种方法:
a={'a':
1,'b':
2}
b=pd.Series([1,2,3],index=list('abc'))
pd.DataFrame([a,b],columns=list('abcd'))
输出:
abcd
012NaNNaN
1123.0NaN
第二种方法:
a={'a':
1,'b':
2}
b=pd.Series([1,2,3],index=list('abc'))
data={'one':
a,'two':
b}
pd.DataFrame(data,columns=['one','two','a','d'])
输出:
onetwoad
a1.01NaNNaN
b2.02NaNNaN
cNaN3NaNNaN
这两种方法都要注意列名匹配的问题。
然后是数组和列表类型的创建:
列表或者一维的ndarray可以通过转化为Series(见1、Series)或者字典进行创建,或者变为对应的二维的数据类型进行处理,在此不佳赘述了。
强烈给个建议:
在创建之前最好把data变量先写好然后放到DataFrame方法里面,包括对原始数据的改动也最好写在data里面。
类似于Series,DataFrame.index,DataFrame.columns可以查询DataFrame二维参数的数值。
3、Panel/PanelNDPanel可以理解为三维数组,panelND可以理解为N维数组。
高维的数组就是在三维的基础上加入更多维度参数,基本方法相同,具体差异在此就不深入展开,这里以三维为例介绍。
统一的创建方法就是pd.Panel(data,items=,major_axis=,minor_axis=),三个维度就分别是items、major_axis、minor_axis,还有个常用参数就是orient后面会提到。
跟DataFrame类似的,三维参数如果不进行设置则默认为0开始的整数,也是行的绝对位置,不会被覆盖;如果希望把输入的DataFrame的columns作为panel的items就需要吧orient赋值为’minor’。
在创建panel的时候一般会采用两种形式(和DataFrame类似,照搬就行):
采用字典;使用items参数创建具体举例如下:
字典:
data={'Item1':
pd.DataFrame(np.random.randn(4,3)),
'Item2':
pd.DataFrame(np.random.randn(4,2))}
pd.Panel(data)
输出:
Dimensions:
2(items)x4(major_axis)x3(minor_axis)
Itemsaxis:
Item1toItem2
Major_axisaxis:
0to3
Minor_axisaxis:
0to2
这里面的键就是对应items参数,当然panel这个没办法通过表的形式打印。
Items参数:
df=pd.DataFrame({'a':
['foo','bar','baz'],
'b':
np.random.randn(3)})
data={'item1':
df,'item2':
df}
pd.Panel.from_dict(data,orient='minor')
输出:
Dimensions:
2(items)x3(major_axis)x2(minor_axis)
Itemsaxis:
atob
Major_axisaxis:
0to2
Minor_axisaxis:
item1toitem2
三、对数据类型的操作1、对Series操作查看:
简单来说就是通过索引查看:
一种是通过index对应的标签;另一种就是通过绝对位置查看。
举个例子:
s=pd.Series(5.,index=['a','b','c','d','e'])
如果通过绝对位置查看,会使用s[XXX],XXX可以是绝对位置的数字,列表,或者表达式等
s[0]
输出:
5.0
s[[4,3,1]]
输出:
e5.0
d5.0
b5.0
dtype:
float64
s[s>1]
输出:
a5.0
b5.0
c5.0
d5.0
e5.0
dtype:
float64
如果通过标签查询的话可以使用s[‘a’]、’e’ins、或者s.get('f',np.nan)三种方式查看:
s[‘a’]返回标签对应数值或者NaN;’e’ins返回true/false;s.get(‘f’)返回label对应的值,如果没有读取到就无返回值,加入np.nan参数可在没有读取到时返回NaN。
s[‘a’]
输出:
5.0
‘f’ins
输出:
false
s.get(‘e’)
输出:
5.0
s.get(‘f’,np.nan)
输出:
nan
运算:
常见操作运算符,+、-、*、/、np.exp以及关系运算等运算符,两个Series运算是其中一个Series中每个index位置和另一个Series对应index位置进行算数运算;也可以选取部分进行运算,在选取部分运算的时候要注意只能运算index相同的部分,不重合的部分则是NaN。
s-s
a0.0
b0.0
c0.0
d0.0
e0.0
s[1:
]+s[:
3]
aNaN
b10.0
c10.0
dNaN
eNaN
命名:
创建的时候使用使用name参数;使用rename方法。
可以通过name方法进行查询。
s=pd.Series(np.random.randn(5),name='something')
s.name
输出:
'something'
s2=s.rename("different")
s2.name
输出:
'different'
2、对DataFrame操作查询:
DataFrame.head可以查询前几行的数据,默认为前五行;DataFrame.tail查看后几行书,默认为5行;DataFrame.describe查看全部数据。
排序:
df.sort_index(axis=,ascending=)axis为0/1的参数,表示按行/按列排序;ascending为boolean参数,False表示降序,True表示升序。
df.sort_value(by=,ascending=)by表示按哪一个columns参数排序。
删除:
使用del或者pop(‘columns’)方法。
需要注意的是所有删除的方法都会改变原来DataFrame,而不是像其他方法一样内存当中新建一个DataFrame。
pop由于弹出特定的列,会返回被弹出的列中的数值.
df=pd.DataFrame.from_items([('A',[1,2,3]),('B',[4,5,6])],orient='index',columns=['one','two','three'])#后面用到的df都是从这边开始一直往下走的
deldf['two']
df.pop('one')
输出:
A1
B4
Name:
one,dtype:
int64
df
输出:
three
A3
B6
运算:
+、-、*、/、exp以及关系运算等,类似于Series,两个DataFrame运算是一个DataFrame每个位置的值和对应位置另一个DataFrame的值进行运算,因此这里的*不是矩阵相乘(叉乘);在处理矩阵的时候会用到numpy.linalg函数(用来处理矩阵相关运算的函数),在此不赘述。
另外转置的方法为DataFrame.T。
同时除了可以整个Data'frame参与运算以外还可以选取特定的columns参与运算,例如
df['three']=df['one']*df['two']
DataFrame修改和添加:
利用=即可实现修改功能,同时可以在=右边加上赋值的范围,赋值号同样会改变原来DataFrame当中的数值。
举例:
df['fore']=1
df
输出:
onetwothreefore
A1231
B4561
df['five']=df['one'][:
1]
df
输出:
onetwothreeforefive
A12311.0
B4561NaN
同样的需要注意,控制赋值范围时当心其余范围的NaN处理。
添加新的列首先肯定是重新创建一个新的DataFrame;其二就是上述的赋值做法,给原来DataFrame当中的新列进行赋值,如上面df[‘five’]的例子;其三就是通过insert(loc,column,value,allow_duplicates=False)方法进行,insert同样会改变DataFrame数据,例如:
df.insert(1,'bar',df['one'])
df
输出:
onebartwothreeforefive
A112311.0
B44561NaN
另外可以通过DataFrame.assign对表格进行改动,该方法会返回改动后的DataFrame,但不是改动原来的DataFrame
df.assign(ration=df['one']/df['one'])
输出:
onetwothreeforefiveration
A12311.01.0
B4561NaN1.0
df
输出:
onetwothreeforefive
A12311.0
B4561NaN
当然使用loc、iloc等都可以添加新列,这个就不赘述了。
选择/切片:
直接按照行/列进行选择:
用columns选择列,用index选择行。
注意:
选择列的时候单次只能选择某一列的数据,不能同时选择多列;而使用index的时候一定要使用范围(类似于[1:
2]),单独某个index会报错。
df['one']>2
输出:
AFalse
BTrue
Name:
one,dtype:
bool
df['two']
输出:
A2
B5
Name:
two,dtype:
int64
df[:
1]
输出:
onebartwothreeforefive
A112311.0
使用loc方法,通过位置标签选择:
统一格式为DataFrame.loc[index:
index,[‘columns’]],loc方法当中的columns可以选择多列,如果表示只按列选择的话index可以不填但是冒号(:
)和逗号(,)一定要写,例如:
df.loc[:
['two','one']]
输出:
twoone
A21
B54
df.loc['A':
'B',['one','two']]
输出:
onetwo
A12
B45
另外,如果loc还能这么用:
DataFrame.loc[index,[‘columns’]],这时的index为特定能够的label或值,这样用会返回一个Series;DataFrame.loc[index,‘columns’],这里面的index和columns都是唯一的,返回一个值。
由于降维的问题,pandas会对精度进行转换。
举例:
df.loc['A',['one']]
输出:
one1.0
Name:
A,dtype:
float64
df.loc['A','one']
输出:
1.0
使用iloc方法,通过绝对位置选择:
思路与loc方法基本相同,只是把标签换成绝对位置。
简答举个例子:
df.iloc[[0,1],2:
3]
输出:
two
A2
B5
使用where操作通过表达式过滤部分值,并且将过滤掉的值作为NaN,不过即使用了where操作还是需要跟上其他操作,个人实际使用不多。
df[df>3]
输出:
onebartwothreeforefive
ANaNNaNNaNNaNNaNNaN
B4.04.05.06.0NaNNaN
使用isin([value])方法:
通过isin方法可以去除特定列当中与变量值相等的行,返回一个DataFrame。
举个例子,
df[df['one'].isin([1])]
输出:
onebartwothreeforefive
A112311
对于NaN的处理:
DataFrame.dropna.(axis,how)常用参数为axis和how,axis为0/1参数;how为any/all参数,any是存在NaN就把对应的整行/列删除,all是全部为NaN才把对应的整行/列删除。
df.dropna(axis=1,how='any')
输出:
onebartwothreefore
A11231
B44561
DataFrame.fillna(value)将所有NaN赋值为value,比较简单就不举例了DataFrame.isnull()判断DataFrame是否为null,返回是boolean的DataFrame,也比较好理解合并:
在做合并的时候尽量保证columns是相同的,有利于后续操作pd.concat([DataFrame1,···],ignore_index)可以多个DataFrame进行合并,ignore_index是boolean值,用来确定要不要重新对index从0开始赋值。
pd.merge(DataFrame1,DataFrame2)DataFrame1在合并后的上面DataFrame2在合并后的下面;on是确定合并的列。
同时merge会重新分配index,不会出现index重合。
merge是个大坑,合并完一定是个乱七八糟的,后面一定要跟上一系列选择剔除的操作才能好好用。
而且merge参数较多,情况复杂,之后的分享当中会继续深挖。
DataFrame.append(object,ignore_index)在DataFrame尾部添加一个object,可以是DataFrame也可以是Series,ignore_index就是用来确定要不要重新对index从0开始赋值,这个比较好理解。
分组:
分组是通过groupby命令实现的,主要实现的功能是按照一些规则将数据分为不同的组;对于每组数据分别执行一个函数;将结果组合到一个数据结构中。
DataFrame.groupby(by=None,axis=0,as_index=True)
by是按照分组的列名;axis是作用维度,0为行,1为列;as_index指的是分组依据是否作为索引存在,有多个分组依据时,会合并成一个tuple,作为一列。
通过aggregate(arg)方法可以打印分好组的group,arg可以为dict类型或者list类型。
df2
输出:
ABCD
0fooone11
1barone11
2footwo11
3barthree11
4footwo11
5bartwo11
6fooone11
7foothree11
g=df2.groupby(['A','B'])
g.aggregate(np.sum)
输出:
CD
AB
barone11
three11
two11
fooone22
three11
two22
g=df.groupby(['A','B'],as_index=False)
g.aggregate(np.sum)
输出:
ABCD
0barone11
1barthree11
2bartwo11
3fooone22
4foothree11
5footwo22
然后可以通过agg(arg)方法对分好组的group进行计算(arg可以为dict类型或者list类型)。
例如:
g=df.groupby('A')
g['D'].agg([np.mean])
输出:
mean
A
bar1
foo1
>>>
时间:
时间部分比较复杂,涉及到时区,时间戳,时间跨度等转换,希望下次有机会在做分享。
3.Panel/PanelND多维数组由于篇幅和内容深度的问题无法继续展开,但是基本操作的框架和前面两个相似,相信大家查
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Pandas 学习 笔记 常用 功能