본문 바로가기
728x90
반응형
SMALL

분류 전체보기1626

자료의 표현 자료의 표현 자료를 요약하고 단순한 통계 방법을 이용하여 분석한다. 그리고 적절한 통계 분석을 통해 통계적 추론은 상식에 맞아야 하며 기술통계적 방법 (descriptive statistics)부터 적용한다. 도표나 그래프의 이용할 때 분명하게 표시 (labeled)해야 하며, 자체적으로 설명 가능(self-explanatory) 해야한다. 너무 자세하지도, 너무 산만하지도 않게 적절하게 표현 (과장 표현은 금물)한다. 빈도표 (Frequency Table) 빈도표 (Frequency Table)는 자료를 요약해서 나타내주는 흔한 방 법 중 하나이다. 이 방법은 자료가 discrete (count)한 경우 많이 쓰인다. 일반적으로 절대 빈도나 상대 빈도가 많이 쓰인다. 절대 빈도 주어진 범주에 속한 개체.. 2022. 11. 4.
의료데이터 통계 통계학 (Statistics) 통계학 (Statistics)이란 결론을 객관적으로 내릴 수 있게 자료를 수집, 처리, 분석, 해석하는 학문이다. 생통계학 (Biostatistics) 생통계학 (Biostatistics)이란 의학,생물학, 또는 보건 관련 학문에 적용되는 통계학을 말한다. 자료 (Data) 숫자 (a numeral) 수 (a number) 자료 (a data) 단면 자료 (cross-sectional data) 각 개체 (subject)를 한 시점에서 관찰한 자료 종적 (경시적, 시계열) 자료 (longitudinal or time-series data) 한 개체를 여러 시점에 걸쳐 관찰한 자료 연속형 자료 (continuous data) 연속적인 수로 수량화가 가능한 자료 이산형 자료 (.. 2022. 11. 4.
[Data Science] 데이터 전처리 데이터 전처리 모든 데이터 분석 프로젝트에서 데이터 전처리는 반드시 거쳐야 하는 과정이다. 대부분의 데이터 분석가가 좋아하지 않는 과정이지만, 분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다루어지는 과정이다. 한 설문조사에 의하면, 분석가의 80% 시간을 데이터 수집 및 전처리에 사용한다고 하니, 얼마나 중요한 과정인지 짐작할 수 있다. 물론 지루하고 반복 작업의 연속이기 때문에 시간이 많이 들어가는 측면도 있을 것이다. 실무에 사용되는 데이터셋은 바로 분석이 불가능할 정도로 지저분 (messy)하다. 분석이 가능한 상태로 만들기 위해 전처리 방식이 자주 사용된다. 모든 강의에 걸쳐서 전처리 단계는 중요하게 그리고 반복적으로 다뤄진다. 데이터 불러오기 및 인덱스 지정.. 2022. 11. 1.
[Android Studio] 프로그레스바 (ProgressBar) 프로그레스바 (ProgressBar) ProgressBar는 작업의 진행 상태를 사용자에게 알려줄 때 사용하는 컴포넌트이다. xml xml : circle_progressbar java package com.example.myapplication; import androidx.appcompat.app.AppCompatActivity; import android.os.Bundle; import android.os.Handler; import android.widget.ProgressBar; public class MainActivity extends AppCompatActivity { private ProgressBar progressBar; private int progressStatus = 0; pri.. 2022. 10. 31.
[Android Studio] Fragment Fragment Fragment는 Activity 내에 생성되는, UI 구성을 여러 개의 모듈 단위로 작성할 수 있도록 해주는 기능이다. 또한, 한번 작성된 Fragment는 여러 Activity에서 재사용이 가능하므로 UI 구성에 소요되는 작업량을 많은 부분을 감소시킬 수 있다. xml : main java : main package com.example.myapplication; import androidx.appcompat.app.AppCompatActivity; import android.os.Bundle; import android.view.View; import android.widget.Button; public class MainActivity extends AppCompatActivity.. 2022. 10. 27.
[Data Science] folium을 활용한 지도 그리기 folium을 활용한 지도 그리기 # 설치 pip install folium import folium import requests # 웹 요청 import json # 기본 지도 그리기 m = folium.Map(location=[37,126]) # 좌표 37,126을 중심으로 그림 그리기 m # 본인의 IP query = 'naver.com' url = f'http://ip-api.com/json/{query}' # 웹 요청 res = requests.get(url) location_data = json.loads(res.text) location_data['lat'], location_data['lon'] m = folium.Map(location=[location_data['lat'], locati.. 2022. 10. 26.
[Data Science] Bokeh를 활용한 대화형 웹 시각화 Bokeh를 활용한 대화형 웹 시각화 # bokeh 설치 conda install bokeh import numpy as np from bokeh.io import output_notebook, show from bokeh.plotting import figure output_notebook() p = figure(plot_width=400, plot_height=400) x = [1,2,3,4,5] y = [6,7,2,4,5] p.circle(x, y, size=15, line_color='navy', fill_color='orange', fill_alpha=0.5) show(p) HTML 파일로 추출 import bokeh # 샘플 데이터 다운로드 bokeh.sampledata.download() i.. 2022. 10. 26.
[Pandas] 데이터프레임 만들기 데이터프레임 만들기 import pandas as pd import numpy as np csv_data = '''\ 구분,죄종,발생검거,건수 중부,살인,발생,3 중부,살인,검거,2 중부,강도,발생,8 중부,강도,검거,8 중부,사기,발생,143 중부,사기,검거,105 ''' with open('중부 지역 강력 사건 발생 검거 통계.csv', 'w', encoding='UTF-8') as f: f.write(csv_data) df = pd.read_csv('중부 지역 강력 사건 발생 검거 통계.csv') pd.pivot_table(df, index=['죄종', '발생검거'], aggfunc=np.sum) 2022. 10. 26.
[Pandas] 타이타닉 생존자 분석 타이타닉 생존자 분석 https://www.kaggle.com/datasets/tedllh/titanic-train에서 csv 파일을 다운한다. import numpy as np import pandas as pd import matplotlib.pyplot as plt titanic_df = pd.read_csv('titanic_train.csv') titanic_df titanic_df['Survived'].groupby(titanic_df['Sex']).mean() Sex female 0.742038 male 0.188908 Name: Survived, dtype: float64 titanic_df.pivot_table(index=['Sex'])['Survived'] Sex female 0.7420.. 2022. 10. 25.
[Pandas] Iris (붓꽃) Iris (붓꽃) 비짜루목 붓꽃과 붓꽃속에 속하는 여러해 살이 풀 또는 그 식물의 꽃을 말한다. 꽃봉오리가 먹을 묻힌 붓과 같이 생겼다 하여 붙여진 이름이다. import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import datasets iris = datasets.load_iris() irisdt = pd.DataFrame(iris['data'], columns=iris['feature_names']) irisdt plt.scatter(irisdt['sepal length (cm)'], irisdt['sepal width (cm)'], c=iris.target) for f0 in iris['feature.. 2022. 10. 25.
728x90
반응형
LIST