본문 바로가기
728x90
반응형
SMALL

Python Library185

[Matplotlib] Seaborn을 사용한 데이터 분포 시각화 (2) 다차원 데이터 데이터 변수가 여러개인 다차원 데이터는 데이터의 종류에 따라 다음과 같은 경우가 있을 수 있다. 분석하고자 하는 데이터가 모두 실수 값인 경우 분석하고자 하는 데이터가 모두 카테고리 값인 경우 분석하고자 하는 데이터가 모두 실수 값과 카테고리 값이 섞여 있는 경우 2차원 실수형 데이터 데이터가 2차원이고 모두 연속적인 실수값이라면 스캐터 플롯 (scatter plot)을 사용하면 된다. 스캐터 플롯을 그리기 위해서는 Seaborn 패키지의 jointplot 명령을 사용한다. jointplot 명령은 스캐터 플롯뿐 아니라 차트의 가장자리(margin)에 각 변수의 히스토그램도 그린다. (jointplot : http://seaborn.pydata.org/generated/seaborn.joi.. 2022. 2. 22.
[Matplotlib] Seaborn을 사용한 데이터 분포 시각화 (1) Seaborn을 사용한 데이터 분포 시각화 Seaborn은 Matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지이다. 기본적인 시각화 기능은 Matplotlib 패키지에 의존하며 통계 기능은 Statsmodels 패키지에 의존한다. (http://seaborn.pydata.org/) 1차원 분포 플롯 1차원 데이터는 실수 값이면 히스토그램과 같은 실수 분포 플롯으로 나타내고 카테고리 값이면 카운트 플롯으로 나타낸다. iris = sns.load_dataset("iris") # 붓꽃 데이터 titanic = sns.load_dataset("titanic") # 타이타닉호 데이터 tips = sns.load_dataset("tips") # 팁 데이터 flights .. 2022. 2. 22.
[Matplotlib] triangular grid triangular grid Matplotlib 버전 1.3부터는 삼각 그리드 (triangular grid)에 대한 지원이 추가되었다. 삼각 그리드를 사용하연 기존의 사각형 영역 뿐 아니라 임의의 영역에 대해서 컨투어 플롯이나 서피스 플롯을 그릴 수 있으므로 정의역 (domain)이 직사각형이 아닌 2차원 함수도 시각화 할 수 있다. 패키지 삼각 그리드 지원을 위한 코드 중 일부는 tri 서브 패키지 아래에 있으므로 미리 임포트한다. import matplotlib.tri as mtri 삼각 그리드 클래스 삼각 그리드 생성 Triangulation http://matplotlib.org/api/tri_api.html?highlight=triangulation#matplotlib.tri.Triangula.. 2022. 2. 22.
[Matplotlib] 여러가지 플롯 (2) Imshow 화상 (image) 데이터처럼 행과 열을 가진 행렬 형태의 2차원 데이터는 imshow 명령을 써서 2차원 자료의 크기를 색깔로 표시하는 것이다. (http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.imshow) from sklearn.datasets import load_digits digits = load_digits() X = digits.images[0] X --- array([[ 0., 0., 5., 13., 9., 1., 0., 0.], [ 0., 0., 13., 15., 10., 15., 5., 0.], [ 0., 3., 15., 2., 0., 11., 8., 0.], [ 0., 4., 12., 0., 0., 8., 8.,.. 2022. 2. 22.
[Matplotlib] 여러가지 플롯 (1) 바 차트 x 데이터가 카테고리 값인 경우에는 bar 명령과 barh 명령으로 바 차트 (bar chart) 시각화를 할 수 있다. 가로 방향으로 바 차트를 그리려면 barh 명령을 사용한다. ( http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.bar , http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.barh) 바 차트 작성시 주의점은 첫번째 인수인 left 가 x축에서 바(bar)의 왼쪽 변의 위치를 나타낸다는 점이다. import matplotlib as mpl import matplotlib.pylab as plt y = [2, 3, 1] x = np.arange(len(y)) xl.. 2022. 2. 22.
[Matplotlib] 시각화 패키지 (4) x축, y축 라벨, 타이틀 플롯의 x축 위치와 y축 위치에는 각각 그 데이터가 의미하는 바를 표시하기 위해 라벨 (label)를 추가할 수 있다. 라벨을 붙이려면 xlabel. ylabel 명령을 사용한다. 또 플롯의 위에는 title 명령으로 제목 (title)을 붙일 수 있다. X = np.linspace(-np.pi, np.pi, 256) C, S = np.cos(X), np.sin(X) plt.plot(X, C, label="cosine") plt.xlabel("time") plt.ylabel("amplitude") plt.title("Cosine Plot") plt.show() 그림의 구조 맷플롯리브가 그리는 그림은 Figure 객체, Axes 객체, Axis 객체 등으로 구성된다. Figure.. 2022. 2. 22.
[Matplotlib] 시각화 패키지 (3) 그림 범위 지정 플롯 그림을 보면 몇몇 점들은 그림의 범위 경계선에 있어서 잘 보이지 않는 경우가 있을 수 있다. 그림의 범위를 수동으로 지정하려면 xlim 명령과 ylim 명령을 사용한다. 이 명령들은 그림의 범위가 되는 x축, y축의 최소값과 최대값을 지정한다. plt.title("x축, y축의 범위 설정") plt.plot([10, 20, 30, 40], [1, 4, 9, 16], c="b", lw=5, ls="--", marker="o", ms=15, mec="g", mew=5, mfc="r") plt.xlim(0, 50) plt.ylim(-10, 30) plt.show() 틱 설정 플롯이나 차트에서 축상의 위치 표시 지점을 틱 (tick)이라고 하고 이 틱에 써진 숫자 혹은 글자를 틱 라벨 (t.. 2022. 2. 22.
[Matplotlib] 시각화 패키지 (2) 스타일 지정 플롯 명령어는 보는 사람이 그림을 더 알아보기 쉽게 하기 위해 다양한 스타일 (style)을 지원한다. plot 명령어에서는 다음과 같이 추가 문자열 인수를 사용하여 스타일을 지원한다. plt.title("'rs--' 스타일의 plot ") plt.plot([10, 20, 30, 40], [1, 4, 9, 16], 'rs--') plt.show() 스타일 문자열은 색깔 (color), 마커 (marker), 선 종류 (line style)의 순서로 지정한다. 만약 이 중 일부가 생략되면 디폴트값이 적용된다. 색깔 색깔을 지정하는 방법은 색 이름 혹은 약자를 사용하거나 # 문자로 시작되는 RGB코드를 사용한다. 마커 데이터 위치를 나타내는 기호를 마커 (marker)라고 한다. 마커의 종류는 .. 2022. 2. 22.
[Matplotlib] 시각화 패키지 (1) 시각화 패키지 맷플롯리브 (Matplotlib)는 파이썬에서 자료를 차트 (chart)나 플롯 (plot)으로 시각화하는 패키지이다. 맷플롯리브는 다음과 같은 정형화된 차트나 플롯 이외에도 저수준 API를 사용한 다양한 시각화 기능을 제공한다. 라인 플롯 (line plot) 스캐터 플롯 (scatter plot) 컨투어 플롯 (contour plot) 서피스 플롯 (surface plot) 바 차트 (bar chart) 히스토그램 (histogram) 박스 플롯 (box plot) pyplot 서브패키지 맷플롯리브 패키지에는 pyplot 라는 서브패키지가 존재한다. 이 pyplot 서브패키지는 매트랩 (matlab) 이라는 수치해석 소프트웨어의 시각화 명령을 거의 그대로 사용할 수 있도록 맷플롯리브 의.. 2022. 2. 22.
[Pandas] 시계열 자료 다루기 DatetimeIndex 인덱스 시계열 자료는 인덱스가 날짜 혹은 시간인 데이터를 말한다. 판다스에서 시계열 자료를 생성하려면 인덱스를 DatetimeIndex 자료형으로 만들어야 한다. DatetimeIndex는 특정한 순간에 기록된 타임스탬프 (timestamp) 형식의 시계열 자료를 다루기 위한 인덱스이다. 타임스탬프 인덱스의 라벨값이 반드시 일정한 간격일 필요는 없다. DatetimeIndex 인덱스는 다음과 같은 보조 함수를 사용하여 생성한다. pd.to_datetime 함수 pd.date_range 함수 pd.to_datetime 함수를 쓰면 날짜 / 시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성한다. date_str = [.. 2022. 2. 22.
728x90
반응형
LIST