본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 탐색적 데이터 분석 (Exploratory Data Analysis)

by goatlab 2023. 7. 17.
728x90
반응형
SMALL

탐색적 데이터 분석 (Exploratory Data Analysis)

 

 

EDA는 데이터 세트의 다양한 특성, 특징 및 데이터 세트 간의 잠재적 관계를 이해할 수 있는 수치 및 시각화 기술의 조합이다. 이 단계의 목표, 즉 데이터셋을 이해해야 하는 것이다. 요약 통계량, 예쁜 시각화 또는 복잡한 다변량 분석을 생성하는 것이 목표가 아니다. 이러한 활동은 데이터 이해의 궁극적인 목표를 달성하는 간단한 활동이다. 또한, 계산과 이해를 혼동하지 말아야 한다. 누구나 숫자 형상의 표준 편차를 계산할 수 있다.

 

실제로 EDA는 꽤 지저분하다는 것이다. 여러분은 자신을 혼란스럽게 하고, 잘못된 아이디어를 얻고, 모순된 정보를 찾고, 스스로를 수정하고, 흥미롭거나 놀라운 사실을 찾고, 더 많은 데이터를 얻거나 일부 기능을 설계하기 위해 이전 단계로 돌아가려는 것을 발견하게 될 것이다. 그러나, 이것이 지저분한 단계임에도 불구하고, 혼란은 데이터 세트의 세부 사항과 특수성에서 비롯된다. 전체적인 관점에서 볼 때, 이 과정은 거의 다음과 같이 진행된다.

 

1. 데이터 세트를 분석할 준비가 어느 정도 되면 기능에 대한 기본적인 이해를 얻기 위해 표준 기술을 적용하기 시작한다.

2. (문제의 맥락에서) 데이터 집합의 일부 측면에 대한 가설을 형성하기 시작한다.

3. EDA 기법을 적용하여 당신의 가설과 선입견을 확인/거부하기 시작한다.

4. 데이터 집합을 이해하기 시작할 것입니다. 새로운 질문들이 떠오를 것이다.

5. 이 새로운 질문들에 답하기 위해 EDA 기법을 적용한다. 더 많은 이해를 얻을 것이고, 더 많은 새로운 질문들이 여러분의 머릿속에 떠오를 것이다.

6. 4단계와 5단계를 몇 번 반복한다.

7. 어느 것이 이해하는 것이 편안한지와 모델링 단계로 넘어갈 수 있다고 생각할 때 멈춘다.

 

다음과 같은 질문을 하고 여러분의 분석에 따라 답변할 수 있는지 확인할 수 있다.

 

  • 데이터 세트에는 어떤 유형의 변수가 있는지?
  • 데이터의 분포는 어떻게 보이는지?
  • 결측값이 있는지?
  • 중복 기능이 있는지?
  • 주요 기능 간의 관계는 무엇인지?
  • 특이치를 관찰하는지?
  • 다양한 기능 쌍이 서로 어떤 상관 관계인지?
  • 이 상관관계들이 말이 되는지?
  • 기능과 대상 사이의 관계는 무엇인지?
  • 가설을 확인하였는지, 아니면 기각하였는지?
  • 이제 모델링 전략에 영향을 줄 수 있는 것은 무엇인지?

 

이러한 질문과 기타 질문에 답변하는 과정에서 기능 제거, 새로운 기능 엔지니어링, 범주형 기능 범주 병합, 기능 변환 수행, 더 많은 데이터 수집 및 기타 많은 작업을 수행할 수 있다. 예측 분석 프로세스는 선형 프로세스가 아니며, 완료되었다고 생각하고 모델링으로 전환할 수 있다고 생각하더라도 여전히 이 단계로 돌아갈 수 있다.

 

EDA techniques

 

  • 수치 계산 (Numerical calculations)
  • 시각화 (Visualizations)

 

수치 계산과 시각화를 동시에 사용함으로써 더 나은 이해를 얻을 수 있기 때문에 이러한 것들이 보완적이라고 말한다. 다양한 기술은 다른 기능은 무시하면서 기능의 일부 특성을 식별하는 데 도움이 되므로 데이터 세트를 더 잘 이해하기 위해 보완적인 방식으로 사용하는 것이 좋다. 특정 목표를 달성하기 위한 올바른 접근법은 여러 가지가 있다. 어떤 것은 다른 것보다 더 나을 것이고 어떤 것은 동등하게 좋을 것이며 어떤 경우에는 선택이 개인의 취향의 문제가 될 것이다. 모든 복잡한 주제들과 마찬가지로, 엄청난 창의력이 수반된다. 사실, EDA는 일종의 예술로 간주될 수 있다. 데이터 세트를 이해하거나 통찰력 있는 아이디어를 전달하기 위한 새로운 기술이나 혁신적인 접근법을 개발하게 될 수도 있다.

728x90
반응형
LIST