본문 바로가기
728x90
반응형
SMALL

Data-driven Methodology98

[Data Science] folium을 활용한 지도 그리기 folium을 활용한 지도 그리기 # 설치 pip install folium import folium import requests # 웹 요청 import json # 기본 지도 그리기 m = folium.Map(location=[37,126]) # 좌표 37,126을 중심으로 그림 그리기 m # 본인의 IP query = 'naver.com' url = f'http://ip-api.com/json/{query}' # 웹 요청 res = requests.get(url) location_data = json.loads(res.text) location_data['lat'], location_data['lon'] m = folium.Map(location=[location_data['lat'], locati.. 2022. 10. 26.
[Data Science] Bokeh를 활용한 대화형 웹 시각화 Bokeh를 활용한 대화형 웹 시각화 # bokeh 설치 conda install bokeh import numpy as np from bokeh.io import output_notebook, show from bokeh.plotting import figure output_notebook() p = figure(plot_width=400, plot_height=400) x = [1,2,3,4,5] y = [6,7,2,4,5] p.circle(x, y, size=15, line_color='navy', fill_color='orange', fill_alpha=0.5) show(p) HTML 파일로 추출 import bokeh # 샘플 데이터 다운로드 bokeh.sampledata.download() i.. 2022. 10. 26.
[Data Science] 시계열 데이터 (Time Series Data) 시계열 데이터 (Time Series Data) 시계열 데이터 (time series)는 시간 순서로 배열된 데이터의 한 종류로 시간에 걸쳐 순차적으로 기록된다. 일정 시간 간격으로 배치된 같은 형태 데이터들의 열이다. 시계열 해석 시계열을 해석하고 이해하는 데 쓰이는 여러 가지 방법과 시계열 데이터들이 어떤 법칙에서 생성되는지 연구하는 것이다. 시계열 예측 시계열 데이터로부터 수학적 모델을 만들어 미래를 예측한다. 과학, 공학은 물론 경제학, 경영학 등 (ex: 주가, 물가지수, 환율, 실업률, 번역, 음성, 작곡 등에서도 다양하게 활용된다. 시계열 데이터와 패턴 분류나 예측에서 현재 시점의 값이 과거 (이전 시점)의 값들과 연관된다. 시간대를 넘나드는 다양한 패턴이 존재 가능하다. 가까운 시간대 사이.. 2022. 10. 11.
하둡 (Hadoop) 하둡 (Hadoop)  하둡은 비정형 데이터를 포함한 빅데이터를 다루기 위한 가장 적절한 플랫폼이다. 데이터 증가로 하둡을 적용하는 회사들은 급증하고 있다. 하둡 에코시스템은 Governance, Finance, Banking, Insurance, Heathcare 등 사회 전반에 걸친 모든 요소들과 밀접하게 연관되어 사용되고 있다. 라이브러리 설치 Ubuntu에서 apt-get을 이용해 필요한 라이브러리를 설치한다. # 설치 가능한 리스트 업데이트$ sudo apt-get -y update# 업데이트한 패키지들을 최신 버전에 맞게 업그레이드$ sudo apt-get -y upgrade# 의존성까지 체크해서 업그레이드$ sudo apt-get -y dist-upgrade# 필요 라이브러리 설치$ sudo.. 2022. 10. 4.
[Data Science] 문서의 행렬 표현 (DTM and TF-IDF) CountVectorizer를 이용한 토큰화 import sklearn print(sklearn.__version__) from sklearn.feature_extraction.text import CountVectorizer vector = CountVectorizer() text = ['Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text.'] vector.fit_transform(text).toarray() array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 4,.. 2022. 9. 29.
[Data Science] Text Preprocessing 텍스트 전처리를 위한 라이브러리 설치 ! pip install nltk import nltk from nltk.tokenize import word_tokenize # 문장 구조가 학습된 일종의 모형 nltk.download('punkt') text = "Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text. It involves 'the discovery by computer of new, previously unknown information, by automatically extracting informa.. 2022. 9. 29.
[Data Science] Text Data (2) 한국어 텍스트 데이터의 특성 영어 텍스트의 경우, 띄어 쓰기를 기준으로 토큰화하면 단어가 비교적 깔끔하게 분리되어 나오기 때문에 전처리의 결과가 대부분 좋다. 그러나 한국어 텍스트의 경우, 띄어 쓰기로 구분되는 “어절”이 반드시 “단어”와 일치하지가 않는다. 이는 “교착어”로써의 특성 때문으로, 한국어는 영어와 달리 조사가 존재하고, 이러한 조사가 띄어 쓰기 없이 붙어 있게 되어 이를 전부 분리해 주는 전처리 과정이 필요하다. 즉, 한국어 전처리와 토큰화의 핵심은 조사를 잘 분리하여 토큰화하는 것으로, 이를 위해서는 형태소 (morpheme), 특히 자립 형태소를 잘 추출할 수 있어야한다. 또 하나의 어려운 점은 한국어의 경우 영어에 비해 띄어 쓰기가 잘 지켜지지 않는 경향이 존재한다. 이는 한국어의 경.. 2022. 9. 29.
[Data Science] Text Data (1) Text Data 텍스트 데이터는 일반적으로 단어, 문장 또는 자유 흐름 텍스트의 단락을 나타낼 수 있는 문서로 구성된다. 텍스트 데이터의 고유한 비정형화 (정연하게 포맷된 데이터 열이 없음)와 노이즈가 많은 특성으로 인해 머신러닝 방법이 원시 텍스트 데이터에 직접 작용하는 것이 더 어렵다. 비정형 데이터의 텍스트 데이터 속 정보를 합리적이고 효율적으로 축약하여 숫자, 즉 정형 데이터로 변환하는 것이 하나의 목적이다. Text Mining 텍스트 분석과 유사한 텍스트 데이터 마이닝이라고도 하는 텍스트 마이닝은 텍스트에서 고품질 정보를 추출하는 프로세스이다. 여기에는 "다른 문서 자원에서 정보를 자동으로 추출하여 이전에 알려지지 않은 새로운 정보를 컴퓨터가 발견하는 것"이 ​​포함된다. 어떤 방식으로 텍스.. 2022. 9. 29.
[Data Science] 회귀 모델 단순 선형 회귀 분석 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법이다. 회귀 분석 중 간단한 방법으로 통계학에서 배우는 대부분의 회귀 모델은 선형 회귀, 딥러닝은 대표적인 비선형 회귀이다. 종속 변수 : 독립 변수의 변화에 따라 어떻게 변하는지 알고싶어하는 변수 독립 변수 : 다른 변수의 영향을 받지 않는 변수 회귀 모델은 독립 변수에 따라 종류가 달라진다. 단순 선형 회귀 : 독립 변수가 1개인 경우 다중 선형 회귀 : 독립 변수가 2개 이상인 경우 다항 회귀 : 독립 변수의 차수를 높이는 형태 입력 변수가 X, 출력 변수가 Y일 때, 단순 선형 회귀의 회귀식은 검은 선으로 나타낼 수 있다. 𝛽0는 절편, 𝛽1은 기울기이며 합쳐서 회귀 계수 (coefficients)라고도 불린다... 2022. 9. 29.
[Data Science] 빅 데이터 (Big Data) 빅 데이터 (Big Data) 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. Volume 빅 데이터의 크기는 일반적으로 테라바이트 및 페타바이트보다 크다. Velocity 성장과 발전의 길에 놓여 있는 요구와 과제를 충족하기 위해 데이터가 생성되고 처리되는 속도이다. 빅데이터는 종종 실시간으로 이용할 수 있다. Variety 구조화에서 반구조화 또는 비구조화로의 유형 및 성격의 변화는 기존 도구와 기술에 도전장을 던졌다. 비정형 데이터 (Unstructured Data) 정형 데이터 (Structured data) 비정형 데이터 (Unstructured Da.. 2022. 9. 28.
728x90
반응형
LIST