본문 바로가기
728x90
반응형
SMALL

데이터 사이언스22

[Data Science] Bokeh를 활용한 대화형 웹 시각화 Bokeh를 활용한 대화형 웹 시각화 # bokeh 설치 conda install bokeh import numpy as np from bokeh.io import output_notebook, show from bokeh.plotting import figure output_notebook() p = figure(plot_width=400, plot_height=400) x = [1,2,3,4,5] y = [6,7,2,4,5] p.circle(x, y, size=15, line_color='navy', fill_color='orange', fill_alpha=0.5) show(p) HTML 파일로 추출 import bokeh # 샘플 데이터 다운로드 bokeh.sampledata.download() i.. 2022. 10. 26.
[Data Science] 문서의 행렬 표현 (DTM and TF-IDF) CountVectorizer를 이용한 토큰화 import sklearn print(sklearn.__version__) from sklearn.feature_extraction.text import CountVectorizer vector = CountVectorizer() text = ['Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text.'] vector.fit_transform(text).toarray() array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 4,.. 2022. 9. 29.
[Data Science] Text Preprocessing 텍스트 전처리를 위한 라이브러리 설치 ! pip install nltk import nltk from nltk.tokenize import word_tokenize # 문장 구조가 학습된 일종의 모형 nltk.download('punkt') text = "Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text. It involves 'the discovery by computer of new, previously unknown information, by automatically extracting informa.. 2022. 9. 29.
[Data Science] 빅 데이터 (Big Data) 빅 데이터 (Big Data) 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. Volume 빅 데이터의 크기는 일반적으로 테라바이트 및 페타바이트보다 크다. Velocity 성장과 발전의 길에 놓여 있는 요구와 과제를 충족하기 위해 데이터가 생성되고 처리되는 속도이다. 빅데이터는 종종 실시간으로 이용할 수 있다. Variety 구조화에서 반구조화 또는 비구조화로의 유형 및 성격의 변화는 기존 도구와 기술에 도전장을 던졌다. 비정형 데이터 (Unstructured Data) 정형 데이터 (Structured data) 비정형 데이터 (Unstructured Da.. 2022. 9. 28.
[Data Science] 공공포털 데이터 (9) scatter plot scatter plot은 수치형 데이터가 어디 좌표에 위치하는지 출력할 때 주로 이용된다. 보통은 상관계수, 회귀선을 출력하는데 사용하는데 지리 데이터에서도 사용이 가능하다. 이 scatter plot은 데이터가 어디쯤에 위치하는지를 나타냈지만 정확한 위치는 알기 어렵다. 지역에 따라 다른 색으로 표시한다. Folium Folium map에 직관적으로 지역을 표시 가능하다. # folium 설치 conda install -c conda-forge folium import folium df_seoul_hospital["위도"].mean() df_seoul_hospital["경도"].mean() 처음 folium.Map만 찍으면 세계지도가 나오지만 location과 zoom_start.. 2022. 9. 22.
[Data Science] 공공포털 데이터 (8) 특정 지역만 보기 서울특별시의 데이터만 샘플링을 진행한다. df_seoul = df[df["시도명"] == "서울특별시"].copy() df_seoul.shape 서울시의 구에 얼마나 많은 가게가 있는지 파악한다. df_seoul ["시도명"].value_counts() # bar plot df_seoul ["시도명"].value_counts().plot.bar(figsize=(10, 4), rot=30) # seaborn count plot plt.figure(figsize=(15, 4)) sns.countplot(data=df_seoul, x="시군구명") # matplotlib scatter plot df_seoul[["경도", "위도", "시군구명"]].plot.scatter(x="경도", y=".. 2022. 9. 22.
[Data Science] 공공포털 데이터 (7) 텍스트 데이터 전처리 df_seoul_drug["시군구명"] value_counts()를 하고, 데이터를 c라는 변수에 지정한다. c = df_seoul_drug["시군구명"].value_counts() c.head() 데이터 시각화 c.plot.bar(rot=60) normalize한 데이터도 n이라는 변수에 지정한다. n = df_seoul_drug["시군구명"].value_counts(normalize=True) n.head() 조건을 넣어 서울시의 종합병원만 분석한다. df_seoul_hospital = df[df["상권업종소분류명"] == "종합병원" & (df["시도명"] == "서울특별시")].copy() df_seoul_hospital 시군구명을 불러 온다. df_seoul_hospital.. 2022. 9. 22.
[Data Science] 공공포털 데이터 (6) 원하는 데이터 추출 df["상권업종중분류명"] == "약국/한약방" 0 False 1 False 2 False 3 False 4 False ... 20053 False 20054 False 20055 False 20056 False 20057 False Name: 상권업종중분류명, Length: 20058, dtype: bool df[df["상권업종중분류명"] == "약국/한약방"] # copy를 통해 df_medical이라는 변수에 지정 df_medical = df[df["상권업종중분류명"] == "약국/한약방"].copy() 원하는 데이터 추출 : 여러개 조건 사용 # 1개 조건 df[df["상권업종대분류명"] == "의료"]] 상권업종대분류명이 의료인 데이터의 상권업종중분류명을 가져오고 싶을 때 l.. 2022. 9. 22.
[Data Science] 공공포털 데이터 (5) seaborn : 그래프 그리기 seaborn은 대체로 x, y의 data를 기본으로 넣어줘야 하지만 countplot은 x,y 중 하나만 넣어도 된다. sns.countplot(data=df, y="시도명") 데이터 가공 상권업종대분류명의 데이터 값 당 개수를 센다. df["상권업종대분류명"].value_counts() 상권업종중분류명의 데이터 값 당 개수를 센다. 이 데이터를 c라는 변수로 지정한다. c = df["상권업종중분류명"].value_counts() c.plot.bar(rot=0) c = df["상권업종소분류명"].value_counts() c.plot.bar() c.plot.bar(figsize=(7,8), grid=True) normalize는 전체 대비 비율을 보여 준다. 이 데이터를.. 2022. 9. 21.
[Data Science] 공공포털 데이터 (2) 결측치 결측치 (Missing Value)는 말 그대로 데이터에 값이 없는 것을 뜻한다. 줄여서 'NA'라고 표현하기도 하고, 다른 언어에서는 Null 이란 표현을 많이 쓴다. 결측치는 데이터를 분석하는데에 있어서 매우 방해가 되는 존재이다. 결측치의 특성이 '무작위로 손실' 되지 않았다면, 대부분의 경우 가장 좋은 방법은 제거하는 것이다. 제거하는 방식은 목록 삭제 (Listwist) 단일값 삭제 (Pairwise) 방식으로 다시 구분된다. pandas에서 제공하는 Na/NaN과 같은 누락 데이터를 제거하는 함수가 있다. df.isnull() null_count = df.isnull().sum() 상가업소번호 0 상호명 0 지점명 105507 상권업종대분류코드 0 상권업종대분류명 0 상권업종중분류코드 .. 2022. 9. 19.
728x90
반응형
LIST