본문 바로가기
728x90
반응형
SMALL

산점도5

피어슨 상관 계수 (Pearson correlation coefficient) 피어슨 상관 계수 (Pearson correlation coefficient) 두 수치 특징을 비교하기 위한 표준 도구는 일반적으로 상관 계수로 알려진 Pearson 상관 계수이다 (다른 상관 계수도 많이 있지만 이 상관 계수가 가장 일반적임). 이것은 두 개의 수치 특징 사이의 선형 연관 강도를 나타내는 수치이다. 형상 사이의 관계가 비선형적이면 이 상관 계수가 오해의 소지가 있을 수 있으므로 산점도와 상관 계수를 모두 검토하는 것이 항상 좋은 방법이다. Key Characteristics 이 계수의 주요 특성은 다음과 같다. 값은 항상 [-1, +1] 간격에 있다. 이 값은 형상 사이의 선형 관계의 강도를 나타낸다. -1에 가까운 값은 형상 사이의 강한 음의 관계를 나타내며, +1에 가까운 값은 형상.. 2023. 7. 13.
[Python] 가속도계 데이터 분석 가속도계 (Accelerometer) 가속도계는 동작의 가속도나 진동을 측정하는 데 사용되는 장치이다. 가속도계에서 제공하는 데이터는 3차원이며 낙상 감지 및 건강 모니터링과 같은 문제를 해결하기 위한 데이터 기반 애플리케이션에서 사용할 수 있다. 가속도계 데이터 분석을 위해 먼저 가속도계에서 수집한 데이터를 수집해야 한다. 가속도계는 3차원 데이터를 수집하므로 특정 시간에 대한 데이터 세트의 x, y, z 축에 대한 데이터를 갖는 것이 필수적이다. import plotly.express as pximport pandas as pdimport plotly.graph_objects as godata = pd.read_csv("accdata.csv")print(data.head()) Date .. 2023. 2. 13.
자료의 표현 자료의 표현 자료를 요약하고 단순한 통계 방법을 이용하여 분석한다. 그리고 적절한 통계 분석을 통해 통계적 추론은 상식에 맞아야 하며 기술통계적 방법 (descriptive statistics)부터 적용한다. 도표나 그래프의 이용할 때 분명하게 표시 (labeled)해야 하며, 자체적으로 설명 가능(self-explanatory) 해야한다. 너무 자세하지도, 너무 산만하지도 않게 적절하게 표현 (과장 표현은 금물)한다. 빈도표 (Frequency Table) 빈도표 (Frequency Table)는 자료를 요약해서 나타내주는 흔한 방 법 중 하나이다. 이 방법은 자료가 discrete (count)한 경우 많이 쓰인다. 일반적으로 절대 빈도나 상대 빈도가 많이 쓰인다. 절대 빈도 주어진 범주에 속한 개체.. 2022. 11. 4.
[Data Science] 데이터 시각화 (2) 히스토그램 (Histogram) 히스토그램 (Histogram)은 ‘변수가 하나인 데이터의 빈도수’를 그래프로 표현하는 것을 말한다. x축을 같은 크기의 여러 구간으로 나누고 각 구간에 속하는 데이터 값의 빈도를 y축에 표시한다. 구간을 나누는 간격의 크기에 따라 빈도와 히스토그램 모양이 변한다. plt.bar(x, y, width, color) (x = 범주, y = 그래프의 높이, width = 그래프 폭, color = 색상) # 막대 그래프 그리기 x = ['사과', '포도', '딸기'] # 항목 데이터 y = [12, 31, 24] # 빈도(크기) 데이터 # 그래프 제목 plt.title("과일 생산량") # 색상은 밝은 파랑, 그래프 폭은 0.5 plt.bar(x, y, color = "lig.. 2022. 9. 22.
[Data Science] 데이터 시각화 (1) 시각화 (Visualization) 인간은 눈 망막 자극이 뇌에 전달될 때 정보의 의미를 파악할 수 있게 진화한 동물이다. 인간은 감각 중의 대부분을 시각에 의존하는 데 일반적으로 시각이 77%, 청각이 13%, 후각이 7%, 나머지 3%는 촉각과 미각이 나뉜다. 빅데이터 시대의 도래로 데이터를 가공하지 않고 눈으로 보고 파악할 수 있는 한계를 넘어섰다. 따라서, 데이터 시각화 (Data visualization)는 매우 효과적으로 정보를 전달하는 수단이 되고 있다. 시각화 라이브러리 내장 라이브러리 Pandas에 내장된 기본 그래프 라이브러리로써 별도의 라이브러리 import 없이 사용 가능하다. Matplotlib Pandas에서 가장 많이 쓰는 라이브러리로써 데이터 프레임을 시각화할 때도 내부적으로.. 2022. 9. 22.
728x90
반응형
LIST