본문 바로가기
728x90
반응형
SMALL

Data-driven Methodology/DS (Data Science)58

[Data Science] Bokeh를 활용한 대화형 웹 시각화 Bokeh를 활용한 대화형 웹 시각화 # bokeh 설치 conda install bokeh import numpy as np from bokeh.io import output_notebook, show from bokeh.plotting import figure output_notebook() p = figure(plot_width=400, plot_height=400) x = [1,2,3,4,5] y = [6,7,2,4,5] p.circle(x, y, size=15, line_color='navy', fill_color='orange', fill_alpha=0.5) show(p) HTML 파일로 추출 import bokeh # 샘플 데이터 다운로드 bokeh.sampledata.download() i.. 2022. 10. 26.
[Data Science] 시계열 데이터 (Time Series Data) 시계열 데이터 (Time Series Data) 시계열 데이터 (time series)는 시간 순서로 배열된 데이터의 한 종류로 시간에 걸쳐 순차적으로 기록된다. 일정 시간 간격으로 배치된 같은 형태 데이터들의 열이다. 시계열 해석 시계열을 해석하고 이해하는 데 쓰이는 여러 가지 방법과 시계열 데이터들이 어떤 법칙에서 생성되는지 연구하는 것이다. 시계열 예측 시계열 데이터로부터 수학적 모델을 만들어 미래를 예측한다. 과학, 공학은 물론 경제학, 경영학 등 (ex: 주가, 물가지수, 환율, 실업률, 번역, 음성, 작곡 등에서도 다양하게 활용된다. 시계열 데이터와 패턴 분류나 예측에서 현재 시점의 값이 과거 (이전 시점)의 값들과 연관된다. 시간대를 넘나드는 다양한 패턴이 존재 가능하다. 가까운 시간대 사이.. 2022. 10. 11.
[Data Science] 문서의 행렬 표현 (DTM and TF-IDF) CountVectorizer를 이용한 토큰화 import sklearn print(sklearn.__version__) from sklearn.feature_extraction.text import CountVectorizer vector = CountVectorizer() text = ['Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text.'] vector.fit_transform(text).toarray() array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 4,.. 2022. 9. 29.
[Data Science] Text Preprocessing 텍스트 전처리를 위한 라이브러리 설치 ! pip install nltk import nltk from nltk.tokenize import word_tokenize # 문장 구조가 학습된 일종의 모형 nltk.download('punkt') text = "Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text. It involves 'the discovery by computer of new, previously unknown information, by automatically extracting informa.. 2022. 9. 29.
[Data Science] Text Data (2) 한국어 텍스트 데이터의 특성 영어 텍스트의 경우, 띄어 쓰기를 기준으로 토큰화하면 단어가 비교적 깔끔하게 분리되어 나오기 때문에 전처리의 결과가 대부분 좋다. 그러나 한국어 텍스트의 경우, 띄어 쓰기로 구분되는 “어절”이 반드시 “단어”와 일치하지가 않는다. 이는 “교착어”로써의 특성 때문으로, 한국어는 영어와 달리 조사가 존재하고, 이러한 조사가 띄어 쓰기 없이 붙어 있게 되어 이를 전부 분리해 주는 전처리 과정이 필요하다. 즉, 한국어 전처리와 토큰화의 핵심은 조사를 잘 분리하여 토큰화하는 것으로, 이를 위해서는 형태소 (morpheme), 특히 자립 형태소를 잘 추출할 수 있어야한다. 또 하나의 어려운 점은 한국어의 경우 영어에 비해 띄어 쓰기가 잘 지켜지지 않는 경향이 존재한다. 이는 한국어의 경.. 2022. 9. 29.
[Data Science] Text Data (1) Text Data 텍스트 데이터는 일반적으로 단어, 문장 또는 자유 흐름 텍스트의 단락을 나타낼 수 있는 문서로 구성된다. 텍스트 데이터의 고유한 비정형화 (정연하게 포맷된 데이터 열이 없음)와 노이즈가 많은 특성으로 인해 머신러닝 방법이 원시 텍스트 데이터에 직접 작용하는 것이 더 어렵다. 비정형 데이터의 텍스트 데이터 속 정보를 합리적이고 효율적으로 축약하여 숫자, 즉 정형 데이터로 변환하는 것이 하나의 목적이다. Text Mining 텍스트 분석과 유사한 텍스트 데이터 마이닝이라고도 하는 텍스트 마이닝은 텍스트에서 고품질 정보를 추출하는 프로세스이다. 여기에는 "다른 문서 자원에서 정보를 자동으로 추출하여 이전에 알려지지 않은 새로운 정보를 컴퓨터가 발견하는 것"이 ​​포함된다. 어떤 방식으로 텍스.. 2022. 9. 29.
[Data Science] 회귀 모델 단순 선형 회귀 분석 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법이다. 회귀 분석 중 간단한 방법으로 통계학에서 배우는 대부분의 회귀 모델은 선형 회귀, 딥러닝은 대표적인 비선형 회귀이다. 종속 변수 : 독립 변수의 변화에 따라 어떻게 변하는지 알고싶어하는 변수 독립 변수 : 다른 변수의 영향을 받지 않는 변수 회귀 모델은 독립 변수에 따라 종류가 달라진다. 단순 선형 회귀 : 독립 변수가 1개인 경우 다중 선형 회귀 : 독립 변수가 2개 이상인 경우 다항 회귀 : 독립 변수의 차수를 높이는 형태 입력 변수가 X, 출력 변수가 Y일 때, 단순 선형 회귀의 회귀식은 검은 선으로 나타낼 수 있다. 𝛽0는 절편, 𝛽1은 기울기이며 합쳐서 회귀 계수 (coefficients)라고도 불린다... 2022. 9. 29.
[Data Science] 빅 데이터 (Big Data) 빅 데이터 (Big Data) 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. Volume 빅 데이터의 크기는 일반적으로 테라바이트 및 페타바이트보다 크다. Velocity 성장과 발전의 길에 놓여 있는 요구와 과제를 충족하기 위해 데이터가 생성되고 처리되는 속도이다. 빅데이터는 종종 실시간으로 이용할 수 있다. Variety 구조화에서 반구조화 또는 비구조화로의 유형 및 성격의 변화는 기존 도구와 기술에 도전장을 던졌다. 비정형 데이터 (Unstructured Data) 정형 데이터 (Structured data) 비정형 데이터 (Unstructured Da.. 2022. 9. 28.
[Data Science] 의사결정 트리 (Decision Tree) (3) 트리 가지치기 (Tree Pruning) 의사결정 트리의 마지막 노드의 개수를 지정하여 트리의 깊이를 조정하는 방법이다. 클래스의 마지막 노드인 잎 노드 (leaf node)의 개수를 개발자가 직접 결정한다. 1개로 이루어진 잎 노드가 많을 경우 과대적합되어 있는 상태에서 잎 노드의 개수와 관계 없이 해당 가지에 불확실성이 너무 높을 경우 의사결정 트리의 성능에 문제를 줄 수 있다. 사전 가지치기 (pre-pruning) 처음 트리를 만들 때 트리의 깊이나 마지막 노드의 최소 개수 등을 사전에 결정하여 입력한다. 데이터 분석가가 하이퍼 파라미터로 모든 값을 입력해야 하는 점이 어려움이 있다. 계산 효율이 좋고 작은 데이터셋에서도 쉽게 작동한다. 사용자가 중요한 속성 값을 놓치거나 과소적합 문제 발생할 수.. 2022. 9. 27.
[Data Science] 의사결정 트리 (Decision Tree) (2) 정보 이득 (Information Gain) 엔트로피를 사용하여 속성별 분류 시 데이터가 얼마나 순수한지 (impurity)를 측정하는 지표를 말한다. 속성별 엔트로피 속성 A로 데이터를 분류했을 때 속성 A가 가진 모든 클래스의 각 엔트로피를 계산한 후, 데이터의 개수만큼 가중치를 준다. 속성별 정보 이득 정보 이득이 크면 클수록 A를 기준으로 데이터를 분류했을 때 얻을 수 있는 정보량이 많다는 뜻이다. A를 기준으로 데이터를 나눌 때 엔트로피가 작다면 해당 속성을 기준으로 데이터를 나누기 좋다고 볼 수 있다. ID3 알고리즘 성장 (grow) : 일반적으로 의사결정 트리를 생성하는 방법을 성장이라고 부른다. 트리 (나무)를 성장시키는 개념이다. ID3 (Iterative Dichotomiser 3) .. 2022. 9. 27.
728x90
반응형
LIST