본문 바로가기
728x90
반응형
SMALL

Data-driven Methodology79

[Data Science] 손실 함수 (Loss Function) 손실 함수 (Loss Function) 선형 회귀는 잔차의 제곱합 (SSE, Error sum of Squares)를 최소화하는 방법으로 회귀 계수를 추정한다. 즉, SSE가 작으면 작을 수록 좋은 모델이라고 볼 수 있다. 흔히, 사용하는 MSE (Mean Squared Error)는 SSE를 표준화한 개념이다. MSE (Mean Squared Error) f(x)가 제대로 추정되었는지 평가하기 위해, 예측한 값이 실제 값과 유사한지 평가하는 척도가 필요하다. MSE는 실제 종속 변수와 예측한 종속 변수 간의 차이이다. MSE가 작을 수록 좋지만, MSE를 과도하게 줄이면 과적합의 오류를 범할 가능성이 있다. 따라서, 학습 집합이 아닌 검증 집합의 MSE를 줄이는 방향으로 f(x)를 추정한다. MAPE .. 2022. 11. 8.
[Data Science] 데이터 전처리 데이터 전처리 모든 데이터 분석 프로젝트에서 데이터 전처리는 반드시 거쳐야 하는 과정이다. 대부분의 데이터 분석가가 좋아하지 않는 과정이지만, 분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다루어지는 과정이다. 한 설문조사에 의하면, 분석가의 80% 시간을 데이터 수집 및 전처리에 사용한다고 하니, 얼마나 중요한 과정인지 짐작할 수 있다. 물론 지루하고 반복 작업의 연속이기 때문에 시간이 많이 들어가는 측면도 있을 것이다. 실무에 사용되는 데이터셋은 바로 분석이 불가능할 정도로 지저분 (messy)하다. 분석이 가능한 상태로 만들기 위해 전처리 방식이 자주 사용된다. 모든 강의에 걸쳐서 전처리 단계는 중요하게 그리고 반복적으로 다뤄진다. 데이터 불러오기 및 인덱스 지정.. 2022. 11. 1.
[Data Science] folium을 활용한 지도 그리기 folium을 활용한 지도 그리기 # 설치 pip install folium import folium import requests # 웹 요청 import json # 기본 지도 그리기 m = folium.Map(location=[37,126]) # 좌표 37,126을 중심으로 그림 그리기 m # 본인의 IP query = 'naver.com' url = f'http://ip-api.com/json/{query}' # 웹 요청 res = requests.get(url) location_data = json.loads(res.text) location_data['lat'], location_data['lon'] m = folium.Map(location=[location_data['lat'], locati.. 2022. 10. 26.
[Data Science] Bokeh를 활용한 대화형 웹 시각화 Bokeh를 활용한 대화형 웹 시각화 # bokeh 설치 conda install bokeh import numpy as np from bokeh.io import output_notebook, show from bokeh.plotting import figure output_notebook() p = figure(plot_width=400, plot_height=400) x = [1,2,3,4,5] y = [6,7,2,4,5] p.circle(x, y, size=15, line_color='navy', fill_color='orange', fill_alpha=0.5) show(p) HTML 파일로 추출 import bokeh # 샘플 데이터 다운로드 bokeh.sampledata.download() i.. 2022. 10. 26.
[Data Science] 시계열 데이터 (Time Series Data) 시계열 데이터 (Time Series Data) 시계열 데이터 (time series)는 시간 순서로 배열된 데이터의 한 종류로 시간에 걸쳐 순차적으로 기록된다. 일정 시간 간격으로 배치된 같은 형태 데이터들의 열이다. 시계열 해석 시계열을 해석하고 이해하는 데 쓰이는 여러 가지 방법과 시계열 데이터들이 어떤 법칙에서 생성되는지 연구하는 것이다. 시계열 예측 시계열 데이터로부터 수학적 모델을 만들어 미래를 예측한다. 과학, 공학은 물론 경제학, 경영학 등 (ex: 주가, 물가지수, 환율, 실업률, 번역, 음성, 작곡 등에서도 다양하게 활용된다. 시계열 데이터와 패턴 분류나 예측에서 현재 시점의 값이 과거 (이전 시점)의 값들과 연관된다. 시간대를 넘나드는 다양한 패턴이 존재 가능하다. 가까운 시간대 사이.. 2022. 10. 11.
[Data Science] 문서의 행렬 표현 (DTM and TF-IDF) CountVectorizer를 이용한 토큰화 import sklearn print(sklearn.__version__) from sklearn.feature_extraction.text import CountVectorizer vector = CountVectorizer() text = ['Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text.'] vector.fit_transform(text).toarray() array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 4,.. 2022. 9. 29.
[Data Science] Text Preprocessing 텍스트 전처리를 위한 라이브러리 설치 ! pip install nltk import nltk from nltk.tokenize import word_tokenize # 문장 구조가 학습된 일종의 모형 nltk.download('punkt') text = "Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text. It involves 'the discovery by computer of new, previously unknown information, by automatically extracting informa.. 2022. 9. 29.
[Data Science] Text Data (2) 한국어 텍스트 데이터의 특성 영어 텍스트의 경우, 띄어 쓰기를 기준으로 토큰화하면 단어가 비교적 깔끔하게 분리되어 나오기 때문에 전처리의 결과가 대부분 좋다. 그러나 한국어 텍스트의 경우, 띄어 쓰기로 구분되는 “어절”이 반드시 “단어”와 일치하지가 않는다. 이는 “교착어”로써의 특성 때문으로, 한국어는 영어와 달리 조사가 존재하고, 이러한 조사가 띄어 쓰기 없이 붙어 있게 되어 이를 전부 분리해 주는 전처리 과정이 필요하다. 즉, 한국어 전처리와 토큰화의 핵심은 조사를 잘 분리하여 토큰화하는 것으로, 이를 위해서는 형태소 (morpheme), 특히 자립 형태소를 잘 추출할 수 있어야한다. 또 하나의 어려운 점은 한국어의 경우 영어에 비해 띄어 쓰기가 잘 지켜지지 않는 경향이 존재한다. 이는 한국어의 경.. 2022. 9. 29.
[Data Science] Text Data (1) Text Data 텍스트 데이터는 일반적으로 단어, 문장 또는 자유 흐름 텍스트의 단락을 나타낼 수 있는 문서로 구성된다. 텍스트 데이터의 고유한 비정형화 (정연하게 포맷된 데이터 열이 없음)와 노이즈가 많은 특성으로 인해 머신러닝 방법이 원시 텍스트 데이터에 직접 작용하는 것이 더 어렵다. 비정형 데이터의 텍스트 데이터 속 정보를 합리적이고 효율적으로 축약하여 숫자, 즉 정형 데이터로 변환하는 것이 하나의 목적이다. Text Mining 텍스트 분석과 유사한 텍스트 데이터 마이닝이라고도 하는 텍스트 마이닝은 텍스트에서 고품질 정보를 추출하는 프로세스이다. 여기에는 "다른 문서 자원에서 정보를 자동으로 추출하여 이전에 알려지지 않은 새로운 정보를 컴퓨터가 발견하는 것"이 ​​포함된다. 어떤 방식으로 텍스.. 2022. 9. 29.
[Data Science] 회귀 모델 단순 선형 회귀 분석 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법이다. 회귀 분석 중 간단한 방법으로 통계학에서 배우는 대부분의 회귀 모델은 선형 회귀, 딥러닝은 대표적인 비선형 회귀이다. 종속 변수 : 독립 변수의 변화에 따라 어떻게 변하는지 알고싶어하는 변수 독립 변수 : 다른 변수의 영향을 받지 않는 변수 회귀 모델은 독립 변수에 따라 종류가 달라진다. 단순 선형 회귀 : 독립 변수가 1개인 경우 다중 선형 회귀 : 독립 변수가 2개 이상인 경우 다항 회귀 : 독립 변수의 차수를 높이는 형태 입력 변수가 X, 출력 변수가 Y일 때, 단순 선형 회귀의 회귀식은 검은 선으로 나타낼 수 있다. 𝛽0는 절편, 𝛽1은 기울기이며 합쳐서 회귀 계수 (coefficients)라고도 불린다... 2022. 9. 29.
728x90
반응형
LIST