본문 바로가기
728x90
반응형
SMALL

분류 전체보기1622

[Data Science] 탐색적 데이터 분석 (Exploratory Data Analysis) 탐색적 데이터 분석 (Exploratory Data Analysis) EDA는 데이터 세트의 다양한 특성, 특징 및 데이터 세트 간의 잠재적 관계를 이해할 수 있는 수치 및 시각화 기술의 조합이다. 이 단계의 목표, 즉 데이터셋을 이해해야 하는 것이다. 요약 통계량, 예쁜 시각화 또는 복잡한 다변량 분석을 생성하는 것이 목표가 아니다. 이러한 활동은 데이터 이해의 궁극적인 목표를 달성하는 간단한 활동이다. 또한, 계산과 이해를 혼동하지 말아야 한다. 누구나 숫자 형상의 표준 편차를 계산할 수 있다. 실제로 EDA는 꽤 지저분하다는 것이다. 여러분은 자신을 혼란스럽게 하고, 잘못된 아이디어를 얻고, 모순된 정보를 찾고, 스스로를 수정하고, 흥미롭거나 놀라운 사실을 찾고, 더 많은 데이터를 얻거나 일부 기능.. 2023. 7. 17.
검정 방법 검정 방법 제1종 오류 α와 제2종 오류 β 모두 최소화할 수 있는 검정법을 찾으면 가장 이상적이겠으나 α가 작아지면 β는 증가한다. 그래서 통계적 가설 검정에서는 α를 고정시키고 그에 따른 기각역 (rejection region) 을 구한다. 이제 귀무 가설이 참이라고 가정한 상태에서 표본으로부터 검정 통계량을 구하게 되고 이 검정 통계량이 기각역에 있게 되면 귀무 가설을 기각하고 기각역 밖에 있으면 귀무 가설을 기각하지 못한다. 즉, 귀무 가설이 참일 때 귀무 가설을 기각할 확률이 α보다 작거나 같다. 일반적으로 α는 0.05를 사용하고 유의 수준 (level of significance)이라고 부른다. 검정력의 크기를 결정하는 요인 적정 크기의 검정력이 확보된 연구에서 의미있는 효과가 실제로 존재하.. 2023. 7. 17.
가설 검정 (Hypothesis Testing) 가설 검정 (Hypothesis Testing) 모집단에 대한 주장과 관련해, 표본의 정보를 사용해서 가설이 맞는지 아닌지 판정하는 과정이다. 가설 검정에서의 오류 실제 검정 결과 H0 참 H0 거짓 H0 기각 실패 옳은 결정 제 2종 오류 (β) H0 기각 제 1종 오류 (α) 옳은 결정(1-β) 제 1종의 오류는 귀무 가설이 참일 때 표본에 근거하여 검정한 결과 귀무 가설을 기각할 때 발생한다. 제1종의 오류를 저지를 확률을 α로 표기한다. 제 2종의 오류는 귀무 가설이 거짓일 때 표본에 근거하여 검정한 결과 귀무 가설을 기각하지 못할 때 발생한다. 제 2종의 오류를 저지를 확률을 β로 표기한다. 확률 (1 – β)를 검정력 (power of the test)이라고 부른다. 의사 결정의 오류 P-va.. 2023. 7. 17.
가설 (Hypothesis) 가설 (Hypothesis) 가설은 연구의 목적과 관련된 모집단, 분포, 모수 등에 관한 어떤 주장이나 설명하는 것을 말한다. 통계적 가설은 모집단의 모수(ex: 평균, 분산 등)에 대한 잠정적인 주장이다. 통계적 가설에서는 귀무 가설과 대립 가설을 설정해주어야 한다. 귀무 가설 (Null hypothesis) '아무런 차이가 없다', '전혀 효과가 없다'는 것을 주장하는 것으로, 영 가설이라고도 한다. 연구에서는 귀무 가설을 거부하기 위해 설정한다. 연구자가 보이고자 하는 주장 (대립 가설)을 증명할 수 없을 때 돌아가는 곳이다. H0으로 표기한다. 대립 가설 (Alternative hypothesis) 귀무가설이 기각될 경우 채택하는 가설로, '차이가 있다', '효과가 있다' 라고 주장하는 것이다. .. 2023. 7. 17.
G*Power 소G*Power G*Power는 통계적 검정력을 계산하는 데 사용되는 무료 소프트웨어이다. 이 프로그램은 t-검정, F-검정 및 카이-제곱 검정을 비롯한 다양한 통계 검정에 대한 검정력을 계산하는 기능을 제공한다. https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie-und-arbeitspsychologie/gpower에서 프로그램을 다운로드 할 수 있다. 2023. 7. 17.
신뢰 구간 (Confidence interval) 신뢰 구간 (Confidence interval) 통계학에서 신뢰 구간은 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다. 신뢰 구간은 보통 표본에서 산출된 통계와 함께 제공된다. 95% 신뢰 구간은 95% 신뢰할 수 있는 값의 범위로 모집단의 실제 평균을 포함한다. 자연적인 표본 추출 변동성으로 인해 표본 평균(CI의 중심)은 표본마다 다르다. 신뢰도는 특정 CI가 아니라 방법에 있다. 표본 추출 방법을 여러 번 반복하면 구성된 구간의 약 95%가 실제 모집단 평균을 캡처한다. 표본 크기가 커질수록 구간 값의 범위가 좁아진다. 즉, 작은 표본보다 훨씬 정확하게 평균을 알 수 있다. 정규 분포를 사용하여 이를 시각화할 수 있다. 예를 들어, 모집단 평균 값이 표본 평균에서 -2과 +2 표준 .. 2023. 7. 14.
피어슨 상관 계수 (Pearson correlation coefficient) 피어슨 상관 계수 (Pearson correlation coefficient) 두 수치 특징을 비교하기 위한 표준 도구는 일반적으로 상관 계수로 알려진 Pearson 상관 계수이다 (다른 상관 계수도 많이 있지만 이 상관 계수가 가장 일반적임). 이것은 두 개의 수치 특징 사이의 선형 연관 강도를 나타내는 수치이다. 형상 사이의 관계가 비선형적이면 이 상관 계수가 오해의 소지가 있을 수 있으므로 산점도와 상관 계수를 모두 검토하는 것이 항상 좋은 방법이다. Key Characteristics 이 계수의 주요 특성은 다음과 같다. 값은 항상 [-1, +1] 간격에 있다. 이 값은 형상 사이의 선형 관계의 강도를 나타낸다. -1에 가까운 값은 형상 사이의 강한 음의 관계를 나타내며, +1에 가까운 값은 형상.. 2023. 7. 13.
Automatic Sleep/Wake Identification From Wrist Activity Abstract 많은 연구 및 임상 상황에서는 실험실 외부에서 인간의 수면 데이터를 얻을 수 있는 저렴하고 방해가 되지 않는 방법이 필요하다. Mullaney 외 연구진은 손목에 장착된 움직임 감지기에서 얻은 데이터를 수동으로 채점하여 수면과 각성 상태를 높은 정확도로 구별할 수 있음을 보여주었다. 그러나 수동 채점과 관련된 힘든 노동은 일상적인 사용을 위한 이 방법의 실용성을 감소시킨다. Webster 외 연구진은 수면 및 각성을 위한 손목 활동 데이터의 점수를 매기는 자동 방법을 개발했다. 그들이 개발한 채점 알고리즘은 실험 손목 활동 그래프에만 최적화되어 있어서 그 방법이 현재 상업적으로 이용 가능한 활동 그래프 도구로 일반화될 수 있을지 불확실하다. 이 연구의 목표는 상용 손목 활동 그래프로 얻은.. 2023. 7. 13.
CatBoost CatBoost CatBoost는 Yandex에서 개발한 오픈 소스 소프트웨어 라이브러리이다. 이는 다른 기능 중에서 클래식 알고리즘과 비교하여 순열 기반 대안을 사용하여 범주형 기능을 해결하려고 시도하는 그레디언트 부스팅 프레임워크를 제공한다. pip install catboost import numpy from catboost import CatBoostRegressor dataset = numpy.array([[1,4,5,6], [4,5,6,7], [30,40,50,60], [20,15,85,60]]) train_labels = [1.2, 3.4, 9.5, 24.5] model = CatBoostRegressor(learning_rate=1, depth=6, loss_function='RMSE') .. 2023. 7. 12.
[Chronobiology] 일주기 리듬 (Circadian Rhythmicity) (3) 전사-번역적 피드백 루프 인체의 거의 모든 세포는 면역 반응과 약물 해독뿐만 아니라 신장, 간, 췌장, 내분비, 생식, 호흡, 그리고 호흡 및 심혈관 기능을 포함한 다양한 생리적, 대사 활동의 일상적인 리듬에 기여하는 거의 24시간에 가까운 리듬을 가진 자체 진동자를 가지고 있다. SCN의 주요한 일주기 심박조율기는 각 세포의 리듬을 생성하는 것에 책임이 없다. 오히려 기존의 고유 리듬을 동기화하는 것에 책임이 있다. 각 세포의 리듬은 자동 조절 전사-번역적 피드백 루프에 의해 유지된다. 포유류 시계 메커니즘은 시계의 일주기 출력을 생성하기 위해 core positive 및 negative 피드백 루프로 구성된다. 1차 양성 피드백 루프에서 전사 인자 CLOCK 및 BMAL1은 이종이량체를 형성하여 PE.. 2023. 7. 12.
728x90
반응형
LIST