본문 바로가기
728x90
반응형
SMALL

Statistics22

급내 상관 계수 (Intraclass Correlation Coefficients) 급내 상관 계수 (Intraclass Correlation Coefficients) 급내 상관 계수 (intraclass correlation coefficient, ICC) 또는 신뢰도 계수 (reliability coefficient)는 반복성과 재현성을 평가하는 데 매우 흔하게 사용되는 지표로, 측정값들의 총 변동 중 개인간 변동에 의해 야기된 부분에 대한 추정치이다. 통계에서 클래스간 상관 관계 (또는 클래스간 상관 계수)는 10세 아들과 40세 아버지의 가중치와 같이 클래스 (유형)가 다른 두 변수 간의 관계를 측정한 것이다. 변수의 편차는 해당 클래스에 대한 데이터의 평균, 즉 아들의 체중에서 모든 아들의 체중을 뺀 값 또는 아버지의 체중에서 모든 아버지의 체중을 뺀 값에서 측정된다. Pear.. 2023. 7. 12.
유의 확률 (P-Value) 유의 확률 (P-Value) 통계적 가설 검정에서 유의 확률 (有意 確率, significance probability, asymptotic significance) 또는 p-값 (p-value, probability value)은 귀무 가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다. 실험의 유의 확률은 실험의 표본 공간에서 정의되는 확률 변수로서, 0~1 사이의 값을 가진다. p-값 (p-value)은 귀무 가설 (null hypothesis)이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률이다. 여기서 말하는 확률은 빈도주의 (frequentist) 확률이다. p-값 (p-value)는 관찰된 데이터가 귀무가설과 양립하는 .. 2023. 7. 3.
Cohen's Kappa Cohen's Kappa 일반적으로 카파 상관 계수는 코헨 (Cohen)의 카파 상관 계수 (Kappa)를 가리키며 이는 2명의 관찰자 (또는 평가자)의 신뢰도를 확보하기위한 확률로서 평가 지표로 사용되는 상관 계수이다. 2명 이상에서 신뢰도를 얻기 위해서는 플레이스 카파 상관 계수 (Fleiss' kappa)를 사용할 수 있다. 이 메트릭은 두 평가자 (ex: 지상 실측값, 인간 레이블링 및 추정자) 간의 일치를 측정하는 것이 목표이다. 평가자가 완전한 인식 없이 (일반적으로 우연히) 일치할 가능성을 고려한다. 계산은 다음과 같다. 두 값은 평가자 간에 관측된 합치도와 확률 합치도를 각각 나타낸다. 계수 κ은 0 (합치 없음)과 1 (합치 합계) 사이에 제한된다. 실제로, pobserved = 1과 p.. 2023. 7. 3.
Bland–Altman plot Bland–Altman plot Bland -Altman 플롯 (차이 플롯)은 분석 화학 또는 생물 의학에서 두 가지 다른 분석 간의 일치를 분석하는 데 사용되는 데이터 플로팅 방법이다. 이는 다른 분야에서 알려진 이름인 Tukey 평균차분도와 동일 하지만 J. Martin Bland 및 Douglas G. Altman에 의해 의학 통계 에서 대중화되었다. 현대 임상 실험실에서는 두 가지 정량적 측정 방법 간의 일치를 평가해야 하는 것이 매우 일반적이다. 이 일치 정도를 평가하기 위한 올바른 통계적 접근 방식은 명확하지 않다. 상관 관계 및 회귀 연구가 자주 제안된다. 많은 연구에서 두 가지 측정 방법의 결과 사이의 피어슨 상관 계수 상관 계수 (r)를 일치 지표로 제공한다. 그러나 상관 관계는 차이점이.. 2023. 6. 26.
통계학 (Statistics) 웹 스크레이퍼 (Web Scraper) 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다. 근대 과학으로서의 통계학은 19세기 중반 벨기에의 케틀레가 독일의 "국상학 (國狀學, Staatenkunde, 넓은 의미의 국가학)"과 영국의 "정치 산술 (政治算術, Political Arithmetic, 정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률 이론"과 결합하여, 수립한 학문에서 발전되었다. https://ko.wikipedia.org/wiki/%ED%86%B5%EA%B3%84%ED%95%99 통계학 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 .. 2022. 5. 19.
[Bayesian Inference] 분산 분석 (ANOVA) 분산 분석 (analysis of variance) 분산 분석 (分散分析, analysis of variance, ANOVA, 또는 변량 분석)은 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다. 통계학자이자 유전학자인 로날드 피셔 (R.A. Fisher)에 의해 1920년대에서 1930년대에 걸쳐 만들어졌다. 다른 그룹의 평균(또는 평균)에 걸쳐 분산을 비교하는 데 사용되는 통계 공식이다. 다양한 시나리오에서 이를 사용하여 다른 그룹의 평균 간에 차이가 있는지 확인한다. 예를 들어, 다양한 당뇨병 약물의 효과를 연구하기 위해 과학자들은 약물 유.. 2022. 4. 13.
[Bayesian Inference] Computation Computation 많은 실제 문제에서 필요한 계산은 베이지안 방법을 적용하는 데 주요 장애물이다. 최근까지 계산이 어려워 베이지안 통계를 사용하는 실제 응용 프로그램의 수가 적었다. 필요한 최적화 및 통합을 위해 몬테카를로 근사치를 제공하는 데이터 증대 및 보다 일반적인 MCMC (Markov Chain Monte Carlo)와 같은 반복 시뮬레이션 방법의 도입으로 베이지안 방법이 주류 응용 프로그램에 도입되었다. 표는 베이지안 추론에 사용되는 최적화 및 통합 알고리즘의 일부를 나열한다. (참고 : 공액 우선순위 방법을 제외하고 표의 모든 알고리즘은 근사치) Markov Chain Monte Carlo 베이지안 추론의 적분은 종종 다루기 힘들지만 샘플링 방법을 사용하여 수치적으로 평가할 수 있다. ".. 2022. 3. 28.
[Bayesian Inference] 모델 선택 (Model Selection) 모델 선택 (Model Selection) 때때로 하나 이상의 모델을 가질 수 있으며 우리의 관심은 각 모델의 적합성을 평가하고 모델 선택을 수행하는 데 집중할 수 있다. 베이지안 모델 선택 절차를 설명하기 위해 "null" 모델 M = 0과 대안 모델 M = 1 간의 비교에 중점을 둔다. 이 경우 해당 조인트 pdf는 다음과 같다. y가 매개변수를 통해 모델에 의존한다고 가정하면 다음과 같다. 여기서 π(θm | M = m, I)는 모델 M = m에서 매개변수 θm에 대한 선험적 분포이고 π(M = m | I)는 모델 M = m의 선험적 확률이다. 모델 M = m에 대한 사후 확률은 증거에 비례한다. 최적의 모델은 선험적 분포 π(M = m | I)의 선택은 분명히 응용 프로그램에 따라 다르다. 두 모.. 2022. 3. 28.
[Bayesian Inference] 가우스 혼합 모델 (Gaussian Mixture Model) 가우스 혼합 모델 (Gaussian Mixture Model) 가우스 혼합 모델 (GMM)에서 임의의 M 차원 pdf를 K < M인 K 가우스 밀도의 합으로 모델링한다. 널리 사용되지만 EM / GMM 알고리즘은 로컬 최소값으로 수렴하거나 입력 데이터의 특이성 또는 축퇴로 인해 실패할 수 있다. 또한 GMM은 "차원의 저주"를 겪는다. 입력 데이터의 차원이 증가함에 따라 평균 μk, k ∈ {1, 2, ..., K} 및 공분산 행렬 Σk는 기하급수적으로 증가한다. 매개변수 수가 기하급수적으로 증가하는 것을 막는 한 가지 방법은 공분산 행렬의 구조를 제한하는 것이다. 덜 과감한 해결책은 Gaussian의 혼합물 대신 확률적 PCA의 혼합물을 사용하는 것이다. 2022. 3. 28.
[Bayesian Inference] 사후 분포 (A Posterior Distribution) 사후 분포 (A Posterior Distribution) 베이지안 추론은 데이터 y를 고려한 후 매개변수 θ의 모든 가능한 값의 확률을 조사하여 도출된다. 하이퍼파라미터 λ가 알려지거나 추정되면 Bayes의 정리를 적용하여 사후 pdf를 얻는다. 분모 p(y | I) = p(y | θ, I) π (θ | λ, I)dθ는 증거로 알려져 있으며 p(θ | y, I) 하나로 통합된다. 결합 분포에서 관측 데이터 y를 제외한 모든 변수를 통합하여 증거를 얻는다. 하이퍼파라미터 λ를 모르는 경우 통합을 통해 이를 제거할 수도 있다. 여기서 π(λ | I)는 λ이다. 주어진 데이터 y에서 θ에 대한 지식을 어떻게 체계적으로 업데이트할 수 있는지 알려준다. 예를 들어, 관측값이 한 번에 하나씩 얻어지면 다음과 같이.. 2022. 3. 28.
728x90
반응형
LIST