본문 바로가기

728x90

SMALL

dataframe8

[Spark] 데이터프레임 및 SQL 디렉토리 설정 mkdir workcd workmkdir sparkcd spark Pandas로 CSV 읽기 pyenv activate py3_11_9pythonimport pandas as pdurl = 'https://raw.githubusercontent.com/losskatsu/data-example/main/data/iris.csv'df = pd.read_csv(url)df.head(3) CSV 추출 및 parquet 변환 df.to_parquet('/home/ubuntu/work/spark/iris.parquet', index=False)df.to_csv('/home/ubuntu/work/spark/iris.csv', index=False)quit() SQL pyspark.sql은 데이터프레임과.. 2024. 7. 15.

데이터프레임 저장 Saving a Dataframe to CSV import os import numpy as np import pandas as pd path = "." df = pd.read_csv('auto-mpg.csv', na_values = ['NA', '?']) filename_write = os.path.join(path, "auto−mpg−shuffle.csv") df = df.reindex(np.random.permutation(df.index)) # Specify index = false to not write row numbers df.to_csv(filename_write, index = False) Saving a Dataframe to Pickle 다양한 소프트웨어 프로그램은 CSV로 저장된 텍.. 2023. 7. 27.

[Pandas] 데이터프레임 만들기 데이터프레임 만들기 import pandas as pd import numpy as np csv_data = '''\ 구분,죄종,발생검거,건수 중부,살인,발생,3 중부,살인,검거,2 중부,강도,발생,8 중부,강도,검거,8 중부,사기,발생,143 중부,사기,검거,105 ''' with open('중부 지역 강력 사건 발생 검거 통계.csv', 'w', encoding='UTF-8') as f: f.write(csv_data) df = pd.read_csv('중부 지역 강력 사건 발생 검거 통계.csv') pd.pivot_table(df, index=['죄종', '발생검거'], aggfunc=np.sum) 2022. 10. 26.

[Pandas] shuffle shuffle pandas에서 데이터를 섞어주는 함수가 존재한다. df # row 전체 shuffle df = df.sample(frac = 1) df # shuffling하고 index reset df = df.sample(frac = 1).reset_index(drop = True) df 2022. 10. 17.

[Data Science] Pandas Cheat Sheet (1) Pandas Cheat Sheet 엑셀로 힘든 대용량의 데이터는 판다스를 활용하여 분석할 수 있다. DataFrame import pandas as pd df = pd.DataFrame({"a" : [4, 5, 6], "b" : [7, 8, 9], "c" : [10, 11, 12]}, index = [1, 2, 3]) df Series df["a"]라고 컬럼을 출력하게 되면 a 컬럼에 있는 4,5,6의 값이 출력이 되는데 이것을 Series 데이터라고 부른다. df["a"] 하지만 대괄호를 하나 더 쓰게 된다면 DataFrame 형태로 출력되는 것을 볼 수 있다. df[["a"]] 결과를 보면 DataFrame은 2차원의 구조를 가지고 있고, Series는 1차원의 구조를 가지고 있는 것을 알 수 있다... 2022. 9. 18.

[Pandas] 데이터 전처리 (1) 데이터프레임 (Dataframe) 데이터프레임은 dictionary 데이터 또는 list 데이터를 이용해서 생성할 수 있다. import pandas as pd data_dict = { 'Name' : ['John', 'Sabre', 'Kim', 'Sato', 'Lee', 'Smith', 'David'], 'Country' : ['USA', 'France', 'Korea', 'Japan', 'Korea', 'USA', 'USA'], 'Age' : [31, 33, 28, 40, 36, 55, 48], 'Job' : ['Student', 'Lawyer', 'Developer', 'Chef', 'Professor', 'CEO', 'Banker'] } df = pd.DataFrame(data_dict) impo.. 2022. 7. 23.

[TensorFlow] Pandas 데이터 프레임 전처리 pandas.DataFrame 로드 pandas 데이터 프레임을 tf.data.Dataset에 로드하는 방법의 예제이다. 여기에서는 Cleveland Clinic Foundation for Heart Disease에서 제공하는 작은 데이터세트를 사용한다. CSV에는 수백 개의 행이 있다. 각 행은 환자를 설명하고 각 열은 속성을 설명한다. 이 정보를 사용하여 이 데이터세트에서 환자가 심장 질환이 있는지 여부를 예측하는 이진 분류 작업이다. pandas를 사용하여 데이터 읽기 import pandas as pd import tensorflow as tf 심장 데이터세트가 포함된 csv 파일을 다운로드한다. csv_file = tf.keras.utils.get_file('heart.csv', 'https:/.. 2022. 6. 16.

[Pandas] 데이터프레임 (DataFrame) 데이터프레임 (DataFrame) 시리즈가 1차원 벡터 데이터에 행방향 인덱스 (row index)를 붙인 것이라면 데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다. 2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스 (row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열 인덱스 (column index)도 붙일 수 있다. 데이터프레임 생성 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다. 이 각각의 열에 대한 이름 (라벨)을 키로 가지는 딕셔너리를 만든다. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다. data = { "2015":.. 2022. 2. 15.

이전 1 다음

728x90

LIST

티스토리툴바