본문 바로가기
728x90
반응형
SMALL

히스토그램7

[Scikit-Learn] HistGradientBoostingClassifier sklearn.ensemble.HistGradientBoostingClassifier 이 추정기는 큰 데이터 세트(n_samples >= 10,000)에서 GradientBoostingClassifier보다 훨씬 빠르다. 이 추정기는 누락된 값 (NaN)을 기본적으로 지원한다. 훈련하는 동안 나무 재배자는 누락된 값이 있는 샘플이 잠재적 이득에 따라 왼쪽 또는 오른쪽 자식으로 이동해야 하는지 여부를 각 분할 지점에서 학습한다. 예측할 때 누락된 값이 있는 샘플은 결과적으로 왼쪽 또는 오른쪽 자식에 할당된다. 교육 중에 지정된 기능에 대해 누락된 값이 없으면 누락된 값이 있는 샘플은 가장 많은 샘플이 있는 하위 항목에 매핑된다. 결측치 처리 import numpy as np import pandas as .. 2023. 7. 5.
[Python] 가속도계 데이터 분석 가속도계 (Accelerometer) 가속도계는 동작의 가속도나 진동을 측정하는 데 사용되는 장치이다. 가속도계에서 제공하는 데이터는 3차원이며 낙상 감지 및 건강 모니터링과 같은 문제를 해결하기 위한 데이터 기반 애플리케이션에서 사용할 수 있다. 가속도계 데이터 분석을 위해 먼저 가속도계에서 수집한 데이터를 수집해야 한다. 가속도계는 3차원 데이터를 수집하므로 특정 시간에 대한 데이터 세트의 x, y, z 축에 대한 데이터를 갖는 것이 필수적이다. import plotly.express as pximport pandas as pdimport plotly.graph_objects as godata = pd.read_csv("accdata.csv")print(data.head()) Date .. 2023. 2. 13.
자료의 표현 자료의 표현 자료를 요약하고 단순한 통계 방법을 이용하여 분석한다. 그리고 적절한 통계 분석을 통해 통계적 추론은 상식에 맞아야 하며 기술통계적 방법 (descriptive statistics)부터 적용한다. 도표나 그래프의 이용할 때 분명하게 표시 (labeled)해야 하며, 자체적으로 설명 가능(self-explanatory) 해야한다. 너무 자세하지도, 너무 산만하지도 않게 적절하게 표현 (과장 표현은 금물)한다. 빈도표 (Frequency Table) 빈도표 (Frequency Table)는 자료를 요약해서 나타내주는 흔한 방 법 중 하나이다. 이 방법은 자료가 discrete (count)한 경우 많이 쓰인다. 일반적으로 절대 빈도나 상대 빈도가 많이 쓰인다. 절대 빈도 주어진 범주에 속한 개체.. 2022. 11. 4.
[Pandas] 시각화 시각화 import numpy as np import pandas as pd import matplotlib.pyplot as plt se0 = pd.Series(np.random.randn(100).cumsum()) se0.plot() df = pd.DataFrame(np.random.randn(100, 5).cumsum(0), columns= ['arr1', 'arr2', 'arr3', 'arr4', 'arr5'] ) df.plot() 막대 그래프 se0.plot(kind='bar') df.plot(kind='bar') # 가로 바 차트 se0.plot(kind='barh') df.plot(kind='barh') df.plot(kind='bar', stacked=True) 히스토그램 값의 빈도를 분리.. 2022. 10. 23.
[Data Science] 데이터 시각화 (4) 파일 불러오기 import pandas as pd import matplotlib.pyplot as plt plt.rcParams["font.family"] = "Malgun Gothic" graph = pd.read_excel("test_data.xlsx", sheet_name = "Sheet1") graph.head(10) 선 그래프 graph.plot(y = ["국어", "영어", "수학"], grid = True, title = "선그래프", color = ["green", "red", "blue"]) plt.show() 산점도 그래프 graph.plot.scatter(x = "반", y = "영어", color = "red", title = "영어 점수 산점도") plt.show() 막대 그래프.. 2022. 9. 22.
[Data Science] 데이터 시각화 (2) 히스토그램 (Histogram) 히스토그램 (Histogram)은 ‘변수가 하나인 데이터의 빈도수’를 그래프로 표현하는 것을 말한다. x축을 같은 크기의 여러 구간으로 나누고 각 구간에 속하는 데이터 값의 빈도를 y축에 표시한다. 구간을 나누는 간격의 크기에 따라 빈도와 히스토그램 모양이 변한다. plt.bar(x, y, width, color) (x = 범주, y = 그래프의 높이, width = 그래프 폭, color = 색상) # 막대 그래프 그리기 x = ['사과', '포도', '딸기'] # 항목 데이터 y = [12, 31, 24] # 빈도(크기) 데이터 # 그래프 제목 plt.title("과일 생산량") # 색상은 밝은 파랑, 그래프 폭은 0.5 plt.bar(x, y, color = "lig.. 2022. 9. 22.
[Matplotlib] 여러가지 플롯 (1) 바 차트 x 데이터가 카테고리 값인 경우에는 bar 명령과 barh 명령으로 바 차트 (bar chart) 시각화를 할 수 있다. 가로 방향으로 바 차트를 그리려면 barh 명령을 사용한다. ( http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.bar , http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.barh) 바 차트 작성시 주의점은 첫번째 인수인 left 가 x축에서 바(bar)의 왼쪽 변의 위치를 나타낸다는 점이다. import matplotlib as mpl import matplotlib.pylab as plt y = [2, 3, 1] x = np.arange(len(y)) xl.. 2022. 2. 22.
728x90
반응형
LIST