본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] Pandas Cheat Sheet (1)

by goatlab 2022. 9. 18.
728x90
반응형
SMALL

Pandas Cheat Sheet

 

엑셀로 힘든 대용량의 데이터는 판다스를 활용하여 분석할 수 있다.

 

DataFrame

 

import pandas as pd

df = pd.DataFrame({"a" : [4, 5, 6],
                   "b" : [7, 8, 9],
                   "c" : [10, 11, 12]},
                  index = [1, 2, 3])

df

 

Series

 

df["a"]라고 컬럼을 출력하게 되면 a 컬럼에 있는 4,5,6의 값이 출력이 되는데 이것을 Series 데이터라고 부른다.

 

df["a"]

 

하지만 대괄호를 하나 더 쓰게 된다면 DataFrame 형태로 출력되는 것을 볼 수 있다.

 

df[["a"]]

 

결과를 보면 DataFrame은 2차원의 구조를 가지고 있고, Series는 1차원의 구조를 가지고 있는 것을 알 수 있다.

 

Subset

 

subset을 이용하여 일부 값만 불러올 수 있다.

 

df[["a", "b"]]

 

두 개 이상의 값을 불러 올때는 DataFrame 형태로 불러와야 한다.

 

Summarize Data

 

Categorical한 값의 빈도수를 구하는 방법이다.

 

df["a"].value_counts()

 

Reshaping

 

# "a"컬럼을 기준으로 정렬하기
df["a"].sort_values()

# DataFrame 전체에서 "a"값을 기준으로 정렬하기
df.sort_values("a")

# 역순으로 정렬하기
df.sort_values("a", ascending=False)

# "c"컬럼 drop 하기
df = df.drop(["c"], axis=1)
df

728x90
반응형
LIST