[Spark] 데이터프레임 및 SQL

728x90

SMALL

디렉토리 설정

mkdir work
cd work
mkdir spark
cd spark

pyenv activate py3_11_9
python

import pandas as pd
url = 'https://raw.githubusercontent.com/losskatsu/data-example/main/data/iris.csv'
df = pd.read_csv(url)
df.head(3)

df.to_parquet('/home/ubuntu/work/spark/iris.parquet', index=False)
df.to_csv('/home/ubuntu/work/spark/iris.csv', index=False)
quit()

pyspark.sql은 데이터프레임과 SQL을 사용해 데이터를 조작하고 분석하는 기능을 제공한다.

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("CSVReader").getOrCreate()

csv를 읽기 위한 앱네임을 지정한다.

df = spark.read.option("header", "true").csv("/home/ubuntu/work/spark/iris.csv")
df.show(5)

다음으로, parquet을 읽기 위한 앱네임을 지정한다.

spark = SparkSession.builder.appName("ParquetReader").getOrCreate()
df = spark.read.parquet("/home/ubuntu/work/spark/iris.parquet")
df.show(7)

728x90

LIST