본문 바로가기
728x90
반응형
SMALL

data science34

[Data Science] Text Preprocessing 텍스트 전처리를 위한 라이브러리 설치 ! pip install nltk import nltk from nltk.tokenize import word_tokenize # 문장 구조가 학습된 일종의 모형 nltk.download('punkt') text = "Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text. It involves 'the discovery by computer of new, previously unknown information, by automatically extracting informa.. 2022. 9. 29.
[Data Science] 빅 데이터 (Big Data) 빅 데이터 (Big Data) 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. Volume 빅 데이터의 크기는 일반적으로 테라바이트 및 페타바이트보다 크다. Velocity 성장과 발전의 길에 놓여 있는 요구와 과제를 충족하기 위해 데이터가 생성되고 처리되는 속도이다. 빅데이터는 종종 실시간으로 이용할 수 있다. Variety 구조화에서 반구조화 또는 비구조화로의 유형 및 성격의 변화는 기존 도구와 기술에 도전장을 던졌다. 비정형 데이터 (Unstructured Data) 정형 데이터 (Structured data) 비정형 데이터 (Unstructured Da.. 2022. 9. 28.
[Data Science] 데이터 시각화 (4) 파일 불러오기 import pandas as pd import matplotlib.pyplot as plt plt.rcParams["font.family"] = "Malgun Gothic" graph = pd.read_excel("test_data.xlsx", sheet_name = "Sheet1") graph.head(10) 선 그래프 graph.plot(y = ["국어", "영어", "수학"], grid = True, title = "선그래프", color = ["green", "red", "blue"]) plt.show() 산점도 그래프 graph.plot.scatter(x = "반", y = "영어", color = "red", title = "영어 점수 산점도") plt.show() 막대 그래프.. 2022. 9. 22.
[Data Science] 공공포털 데이터 (9) scatter plot scatter plot은 수치형 데이터가 어디 좌표에 위치하는지 출력할 때 주로 이용된다. 보통은 상관계수, 회귀선을 출력하는데 사용하는데 지리 데이터에서도 사용이 가능하다. 이 scatter plot은 데이터가 어디쯤에 위치하는지를 나타냈지만 정확한 위치는 알기 어렵다. 지역에 따라 다른 색으로 표시한다. Folium Folium map에 직관적으로 지역을 표시 가능하다. # folium 설치 conda install -c conda-forge folium import folium df_seoul_hospital["위도"].mean() df_seoul_hospital["경도"].mean() 처음 folium.Map만 찍으면 세계지도가 나오지만 location과 zoom_start.. 2022. 9. 22.
[Data Science] 공공포털 데이터 (8) 특정 지역만 보기 서울특별시의 데이터만 샘플링을 진행한다. df_seoul = df[df["시도명"] == "서울특별시"].copy() df_seoul.shape 서울시의 구에 얼마나 많은 가게가 있는지 파악한다. df_seoul ["시도명"].value_counts() # bar plot df_seoul ["시도명"].value_counts().plot.bar(figsize=(10, 4), rot=30) # seaborn count plot plt.figure(figsize=(15, 4)) sns.countplot(data=df_seoul, x="시군구명") # matplotlib scatter plot df_seoul[["경도", "위도", "시군구명"]].plot.scatter(x="경도", y=".. 2022. 9. 22.
[Data Science] 공공포털 데이터 (7) 텍스트 데이터 전처리 df_seoul_drug["시군구명"] value_counts()를 하고, 데이터를 c라는 변수에 지정한다. c = df_seoul_drug["시군구명"].value_counts() c.head() 데이터 시각화 c.plot.bar(rot=60) normalize한 데이터도 n이라는 변수에 지정한다. n = df_seoul_drug["시군구명"].value_counts(normalize=True) n.head() 조건을 넣어 서울시의 종합병원만 분석한다. df_seoul_hospital = df[df["상권업종소분류명"] == "종합병원" & (df["시도명"] == "서울특별시")].copy() df_seoul_hospital 시군구명을 불러 온다. df_seoul_hospital.. 2022. 9. 22.
[Data Science] 공공포털 데이터 (6) 원하는 데이터 추출 df["상권업종중분류명"] == "약국/한약방" 0 False 1 False 2 False 3 False 4 False ... 20053 False 20054 False 20055 False 20056 False 20057 False Name: 상권업종중분류명, Length: 20058, dtype: bool df[df["상권업종중분류명"] == "약국/한약방"] # copy를 통해 df_medical이라는 변수에 지정 df_medical = df[df["상권업종중분류명"] == "약국/한약방"].copy() 원하는 데이터 추출 : 여러개 조건 사용 # 1개 조건 df[df["상권업종대분류명"] == "의료"]] 상권업종대분류명이 의료인 데이터의 상권업종중분류명을 가져오고 싶을 때 l.. 2022. 9. 22.
[Data Science] 공공포털 데이터 (2) 결측치 결측치 (Missing Value)는 말 그대로 데이터에 값이 없는 것을 뜻한다. 줄여서 'NA'라고 표현하기도 하고, 다른 언어에서는 Null 이란 표현을 많이 쓴다. 결측치는 데이터를 분석하는데에 있어서 매우 방해가 되는 존재이다. 결측치의 특성이 '무작위로 손실' 되지 않았다면, 대부분의 경우 가장 좋은 방법은 제거하는 것이다. 제거하는 방식은 목록 삭제 (Listwist) 단일값 삭제 (Pairwise) 방식으로 다시 구분된다. pandas에서 제공하는 Na/NaN과 같은 누락 데이터를 제거하는 함수가 있다. df.isnull() null_count = df.isnull().sum() 상가업소번호 0 상호명 0 지점명 105507 상권업종대분류코드 0 상권업종대분류명 0 상권업종중분류코드 .. 2022. 9. 19.
[Data Science] Pandas Cheat Sheet (2) Group Data # "a" 컬럼값을 Groupby하여 "b"의 컬럼값 평균값 구하기 df.groupby(["a"])["b"].mean() # pivot_table로 평균값 구하기 pd.pivot_table(df, index="a") "a" 컬럼에 있는 값이 4가 두 개가 있기 때문에 그 값의 평균값이 적용된다. Plotting 데이터를 가지고 다양한 시각화할 수 있다. # 꺾은선 그래프 그리기 df.plot() # 막대그래프 그리기 df.plot.bar() # 밀도함수 그리기 df.plot.density() 2022. 9. 18.
[Data Science] Pandas Cheat Sheet (1) Pandas Cheat Sheet 엑셀로 힘든 대용량의 데이터는 판다스를 활용하여 분석할 수 있다. DataFrame import pandas as pd df = pd.DataFrame({"a" : [4, 5, 6], "b" : [7, 8, 9], "c" : [10, 11, 12]}, index = [1, 2, 3]) df Series df["a"]라고 컬럼을 출력하게 되면 a 컬럼에 있는 4,5,6의 값이 출력이 되는데 이것을 Series 데이터라고 부른다. df["a"] 하지만 대괄호를 하나 더 쓰게 된다면 DataFrame 형태로 출력되는 것을 볼 수 있다. df[["a"]] 결과를 보면 DataFrame은 2차원의 구조를 가지고 있고, Series는 1차원의 구조를 가지고 있는 것을 알 수 있다... 2022. 9. 18.
728x90
반응형
LIST