본문 바로가기
728x90
반응형
SMALL

데이터프레임5

[Spark] 데이터프레임 및 SQL 디렉토리 설정 mkdir workcd workmkdir sparkcd spark Pandas로 CSV 읽기 pyenv activate py3_11_9pythonimport pandas as pdurl = 'https://raw.githubusercontent.com/losskatsu/data-example/main/data/iris.csv'df = pd.read_csv(url)df.head(3) CSV 추출 및 parquet 변환 df.to_parquet('/home/ubuntu/work/spark/iris.parquet', index=False)df.to_csv('/home/ubuntu/work/spark/iris.csv', index=False)quit() SQL pyspark.sql은 데이터프레임과.. 2024. 7. 15.
[Pandas] DataFrame Option DataFrame Option pandas에는 DataFrame의 디스플레이, 데이터 동작 등과 관련된 전역 동작을 구성하고 사용자 지정하는 옵션 API가 있다. get_option() / set_option() : 단일 옵션의 값을 가져오거나 설정한다. reset_option() : 하나 이상의 옵션을 기본값으로 재설정한다. describe_option() : 하나 이상의 옵션에 대한 설명을 인쇄한다. option_context() : 실행 후 이전 설정으로 되돌아가는 옵션 세트로 코드 블록을 실행한다. import pandas as pd df = pd.read_csv("C:/Users/ex.csv", sep=";") df pd.set_option('display.max_row', 500) # 행 50.. 2022. 8. 11.
[Pandas] 데이터 전처리 (1) 데이터프레임 (Dataframe) 데이터프레임은 dictionary 데이터 또는 list 데이터를 이용해서 생성할 수 있다. import pandas as pd data_dict = { 'Name' : ['John', 'Sabre', 'Kim', 'Sato', 'Lee', 'Smith', 'David'], 'Country' : ['USA', 'France', 'Korea', 'Japan', 'Korea', 'USA', 'USA'], 'Age' : [31, 33, 28, 40, 36, 55, 48], 'Job' : ['Student', 'Lawyer', 'Developer', 'Chef', 'Professor', 'CEO', 'Banker'] } df = pd.DataFrame(data_dict) impo.. 2022. 7. 23.
[Pandas] 데이터프레임 고급 인덱싱 인덱싱 (indexing) 데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱 (indexing)이라고 한다. 앞 절에서는 label, label 리스트, 인덱스 데이터 (정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱한다. 그런데 Pandas는 numpy 행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 특별한 인덱서 (indexer) 속성도 제공한다. loc 인덱서 df.loc[행 인덱싱값] # 또는 df.loc[행 인덱싱값, 열 인덱싱값] 행 인덱싱값은 정수 또는 행 인덱스데이터이고 열 인덱싱값은 label 문자열이다. 인덱스 데이터 인덱스 데이터 슬라이스 인덱스 데이터 리스트 같은 행 인덱스를 가지는 boolean 시리즈 (행 인덱싱의 경우) 또는 .. 2022. 2. 15.
[Pandas] 데이터프레임 (DataFrame) 데이터프레임 (DataFrame) 시리즈가 1차원 벡터 데이터에 행방향 인덱스 (row index)를 붙인 것이라면 데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다. 2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스 (row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열 인덱스 (column index)도 붙일 수 있다. 데이터프레임 생성 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다. 이 각각의 열에 대한 이름 (라벨)을 키로 가지는 딕셔너리를 만든다. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다. data = { "2015":.. 2022. 2. 15.
728x90
반응형
LIST