728x90 반응형 SMALL seaborn5 [Data Science] 데이터 시각화 (1) 시각화 (Visualization) 인간은 눈 망막 자극이 뇌에 전달될 때 정보의 의미를 파악할 수 있게 진화한 동물이다. 인간은 감각 중의 대부분을 시각에 의존하는 데 일반적으로 시각이 77%, 청각이 13%, 후각이 7%, 나머지 3%는 촉각과 미각이 나뉜다. 빅데이터 시대의 도래로 데이터를 가공하지 않고 눈으로 보고 파악할 수 있는 한계를 넘어섰다. 따라서, 데이터 시각화 (Data visualization)는 매우 효과적으로 정보를 전달하는 수단이 되고 있다. 시각화 라이브러리 내장 라이브러리 Pandas에 내장된 기본 그래프 라이브러리로써 별도의 라이브러리 import 없이 사용 가능하다. Matplotlib Pandas에서 가장 많이 쓰는 라이브러리로써 데이터 프레임을 시각화할 때도 내부적으로.. 2022. 9. 22. [Data Science] 공공포털 데이터 (8) 특정 지역만 보기 서울특별시의 데이터만 샘플링을 진행한다. df_seoul = df[df["시도명"] == "서울특별시"].copy() df_seoul.shape 서울시의 구에 얼마나 많은 가게가 있는지 파악한다. df_seoul ["시도명"].value_counts() # bar plot df_seoul ["시도명"].value_counts().plot.bar(figsize=(10, 4), rot=30) # seaborn count plot plt.figure(figsize=(15, 4)) sns.countplot(data=df_seoul, x="시군구명") # matplotlib scatter plot df_seoul[["경도", "위도", "시군구명"]].plot.scatter(x="경도", y=".. 2022. 9. 22. [Data Science] 공공포털 데이터 (5) seaborn : 그래프 그리기 seaborn은 대체로 x, y의 data를 기본으로 넣어줘야 하지만 countplot은 x,y 중 하나만 넣어도 된다. sns.countplot(data=df, y="시도명") 데이터 가공 상권업종대분류명의 데이터 값 당 개수를 센다. df["상권업종대분류명"].value_counts() 상권업종중분류명의 데이터 값 당 개수를 센다. 이 데이터를 c라는 변수로 지정한다. c = df["상권업종중분류명"].value_counts() c.plot.bar(rot=0) c = df["상권업종소분류명"].value_counts() c.plot.bar() c.plot.bar(figsize=(7,8), grid=True) normalize는 전체 대비 비율을 보여 준다. 이 데이터를.. 2022. 9. 21. [Data Science] 공공포털 데이터 (1) 공공데이터 포털 공공 데이터 포털에는 다양한 분야의 데이터가 존재한다. 소상공인시장진흥공단에서 상권 정보 데이터를 csv, api 형태로 제공하고 있다. 소상공인시장진흥공단_상가(상권)정보.zip 파일을 다운로드한다. 필요한 라이브러리 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt numpy : 고성능의 수치계산, 행렬이나 대규모 다차원 배열을 쉽게 처리하기 위한 라이브러리 seaborn : 데이터 시각화를 위한 라이브러리 matplotlib : 데이터 시각화 라이브러리 시각화를 위한 폰트 설정 # 한글 폰트 설정 (주석 처리 단축키) .. 2022. 9. 18. [Pandas] 데이터프레임의 데이터 조작 데이터프레임의 데이터 조작 Pandas는 Numpy 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다. 데이터 갯수 세기 가장 간단한 데이터 분석은 데이터의 갯수를 세는 것이다. count 메서드를 사용한다. NaN 값은 세지 않는다. s = pd.Series(range(10)) s[3] = np.nan s --- 0 0.0 1 1.0 2 2.0 3 NaN 4 4.0 5 5.0 6 6.0 7 7.0 8 8.0 9 9.0 dtype: float64 s.count() --> 9 데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 데이터에서 값이 누락된 부분을 찾을 때 유용하다. np.random.seed(2) df = pd.Dat.. 2022. 2. 16. 이전 1 다음 728x90 반응형 LIST