Data-driven Methodology/Spark
[Spark] 데이터프레임 및 SQL
goatlab
2024. 7. 15. 13:17
728x90
반응형
SMALL
디렉토리 설정
mkdir work
cd work
mkdir spark
cd spark
Pandas로 CSV 읽기
pyenv activate py3_11_9
python
import pandas as pd
url = 'https://raw.githubusercontent.com/losskatsu/data-example/main/data/iris.csv'
df = pd.read_csv(url)
df.head(3)
CSV 추출 및 parquet 변환
df.to_parquet('/home/ubuntu/work/spark/iris.parquet', index=False)
df.to_csv('/home/ubuntu/work/spark/iris.csv', index=False)
quit()
SQL
pyspark.sql은 데이터프레임과 SQL을 사용해 데이터를 조작하고 분석하는 기능을 제공한다.
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("CSVReader").getOrCreate()
csv를 읽기 위한 앱네임을 지정한다.
df = spark.read.option("header", "true").csv("/home/ubuntu/work/spark/iris.csv")
df.show(5)
다음으로, parquet을 읽기 위한 앱네임을 지정한다.
spark = SparkSession.builder.appName("ParquetReader").getOrCreate()
df = spark.read.parquet("/home/ubuntu/work/spark/iris.parquet")
df.show(7)
728x90
반응형
LIST