728x90
반응형
SMALL
Pandas Cheat Sheet
엑셀로 힘든 대용량의 데이터는 판다스를 활용하여 분석할 수 있다.
DataFrame
import pandas as pd
df = pd.DataFrame({"a" : [4, 5, 6],
"b" : [7, 8, 9],
"c" : [10, 11, 12]},
index = [1, 2, 3])
df
Series
df["a"]라고 컬럼을 출력하게 되면 a 컬럼에 있는 4,5,6의 값이 출력이 되는데 이것을 Series 데이터라고 부른다.
df["a"]
하지만 대괄호를 하나 더 쓰게 된다면 DataFrame 형태로 출력되는 것을 볼 수 있다.
df[["a"]]
결과를 보면 DataFrame은 2차원의 구조를 가지고 있고, Series는 1차원의 구조를 가지고 있는 것을 알 수 있다.
Subset
subset을 이용하여 일부 값만 불러올 수 있다.
df[["a", "b"]]
두 개 이상의 값을 불러 올때는 DataFrame 형태로 불러와야 한다.
Summarize Data
Categorical한 값의 빈도수를 구하는 방법이다.
df["a"].value_counts()
Reshaping
# "a"컬럼을 기준으로 정렬하기
df["a"].sort_values()
# DataFrame 전체에서 "a"값을 기준으로 정렬하기
df.sort_values("a")
# 역순으로 정렬하기
df.sort_values("a", ascending=False)
# "c"컬럼 drop 하기
df = df.drop(["c"], axis=1)
df
728x90
반응형
LIST
'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글
[Data Science] 공공포털 데이터 (1) (0) | 2022.09.18 |
---|---|
[Data Science] Pandas Cheat Sheet (2) (0) | 2022.09.18 |
[Data Science] EDA (Exploratory Data Analysis) (0) | 2022.08.26 |
캐글 (Kaggle) (0) | 2022.08.13 |
[Data Science] 연관분석 (0) | 2022.03.08 |