728x90 반응형 SMALL 시각화7 [Data Science] 탐색적 데이터 분석 (Exploratory Data Analysis) 탐색적 데이터 분석 (Exploratory Data Analysis) EDA는 데이터 세트의 다양한 특성, 특징 및 데이터 세트 간의 잠재적 관계를 이해할 수 있는 수치 및 시각화 기술의 조합이다. 이 단계의 목표, 즉 데이터셋을 이해해야 하는 것이다. 요약 통계량, 예쁜 시각화 또는 복잡한 다변량 분석을 생성하는 것이 목표가 아니다. 이러한 활동은 데이터 이해의 궁극적인 목표를 달성하는 간단한 활동이다. 또한, 계산과 이해를 혼동하지 말아야 한다. 누구나 숫자 형상의 표준 편차를 계산할 수 있다. 실제로 EDA는 꽤 지저분하다는 것이다. 여러분은 자신을 혼란스럽게 하고, 잘못된 아이디어를 얻고, 모순된 정보를 찾고, 스스로를 수정하고, 흥미롭거나 놀라운 사실을 찾고, 더 많은 데이터를 얻거나 일부 기능.. 2023. 7. 17. [Pandas] 시각화 시각화 import numpy as np import pandas as pd import matplotlib.pyplot as plt se0 = pd.Series(np.random.randn(100).cumsum()) se0.plot() df = pd.DataFrame(np.random.randn(100, 5).cumsum(0), columns= ['arr1', 'arr2', 'arr3', 'arr4', 'arr5'] ) df.plot() 막대 그래프 se0.plot(kind='bar') df.plot(kind='bar') # 가로 바 차트 se0.plot(kind='barh') df.plot(kind='barh') df.plot(kind='bar', stacked=True) 히스토그램 값의 빈도를 분리.. 2022. 10. 23. [Data Science] 이상치 처리 이상치 (Outlier) 극단적으로 값이 크거나 작은 값을 말한다. 데이터 오기입 혹은 특이 현상을 칭한다. 당뇨병 데이터셋 ➢ Pregnancies : 임신 횟수 ➢ Glucose : 포도당 부하 검사 수치 ➢ BloodPressure : 혈압 ➢ SkinThinkness : 삼두근 피부 두께 ➢ Insulin : 인슐린 수치 ➢ BMI : BMI 수치 ➢ DiabetesPedigreeFunction : 당뇨병 가족력 ➢ Age : 나이 ➢ Outcome : 당뇨병 여부 import numpy as np import pandas as pd df = pd.read_csv('Diabetes_Database.csv') for key in ["Glucose","BloodPressure","SkinThickne.. 2022. 9. 26. [Data Science] 데이터 시각화 (1) 시각화 (Visualization) 인간은 눈 망막 자극이 뇌에 전달될 때 정보의 의미를 파악할 수 있게 진화한 동물이다. 인간은 감각 중의 대부분을 시각에 의존하는 데 일반적으로 시각이 77%, 청각이 13%, 후각이 7%, 나머지 3%는 촉각과 미각이 나뉜다. 빅데이터 시대의 도래로 데이터를 가공하지 않고 눈으로 보고 파악할 수 있는 한계를 넘어섰다. 따라서, 데이터 시각화 (Data visualization)는 매우 효과적으로 정보를 전달하는 수단이 되고 있다. 시각화 라이브러리 내장 라이브러리 Pandas에 내장된 기본 그래프 라이브러리로써 별도의 라이브러리 import 없이 사용 가능하다. Matplotlib Pandas에서 가장 많이 쓰는 라이브러리로써 데이터 프레임을 시각화할 때도 내부적으로.. 2022. 9. 22. Web VPython Web VPython VPython은 3D 애니메이션을 만들기 위한 사용하기 쉽고 강력한 환경이다. 여기 glowscript.org (또는 webvpython.org)에서 브라우저에서 바로 VPython 프로그램을 작성 및 실행하고, 클라우드에 무료로 저장하고, 다른 사람들과 쉽게 공유할 수 있다. 설치된 Python과 함께 VPython을 사용할 수도 있다 (vpython.org 참조). 도움말은 전체 문서를 제공한다. Trinket서 VPython 튜토리얼이 있다. VPython 프로그래밍을 처음 접하는 모든 사람에게 유용하다. 예제 프로그램 https://glowscript.org/ Web VPython VPython is an easy-to-use, powerful environment for c.. 2022. 7. 6. 시각화 (Visualization) 시각화 (Visualization) 시각화는 메시지를 전달하기 위해 이미지 , 다이어그램 또는 애니메이션을 만드는 모든 기술이다. 시각적 이미지를 통한 시각화는 인류의 여명기부터 추상적이고 구체적인 아이디어를 전달하는 효과적인 방법이었다. 역사의 예로는 동굴 벽화, 이집트 상형 문자, 그리스 기하학, 공학 및 과학적 목적을 위한 레오나르도 다빈치의 혁신적인 기술 드로잉 방법 등이 있다. 오늘날 시각화는 과학, 교육, 엔지니어링 (ex: 제품 시각화), 대화형 멀티미디어, 의학 등에서 응용이 계속 확장되고 있다. 시각화 응용의 대표적인 분야는 컴퓨터 그래픽 분야이다. 컴퓨터 그래픽 (및 3D 컴퓨터 그래픽)의 발명은 르네상스 시대의 중심 원근법의 발명 이후 시각화에서 가장 중요한 발전이라고 할 수 있다. .. 2022. 6. 9. [Data Science] 데이터 분석 기법 분석을 위한 데이터 처리 과정 데이터 분석을 위해서 데이터웨어하우스나 데이터마트를 통해 분석데이터를 구성 신규데이터나 DW에 없는 데이터는 기존 운영시스템 (legacy)에서 가져오거나 운영 데이터 저장소 (ODS)에서 정제된 데이터를 가져와서 DW의 데이터와 결합하여 활용 데이터 분석 기법 종류 시각화 공간분석 탐색적 자료 분석 통계분석 데이터 마이닝 시각화 가장 낮은 수준의 분석이지만 잘 이용하면 효율적 빅데이터 분석에 시각화는 필수적 탐색적 분석을 할 때 시각화는 필수 사회연결망 분석 (SNA)에 자주 이용 ex) 차트, 도표 등 공간분석 공간적 차원과 관련된 속성들을 시각화하는 분석 지도 위에 관련된 속성들을 생성하고 크기모양 선 굵기 등을 구분하여 인사이트를 얻음 ex) 지도 위의 자동차 운행 .. 2022. 3. 7. 이전 1 다음 728x90 반응형 LIST