728x90 반응형 SMALL csv8 [Spark] 데이터프레임 및 SQL 디렉토리 설정 mkdir workcd workmkdir sparkcd spark Pandas로 CSV 읽기 pyenv activate py3_11_9pythonimport pandas as pdurl = 'https://raw.githubusercontent.com/losskatsu/data-example/main/data/iris.csv'df = pd.read_csv(url)df.head(3) CSV 추출 및 parquet 변환 df.to_parquet('/home/ubuntu/work/spark/iris.parquet', index=False)df.to_csv('/home/ubuntu/work/spark/iris.csv', index=False)quit() SQL pyspark.sql은 데이터프레임과.. 2024. 7. 15. 데이터프레임 저장 Saving a Dataframe to CSV import os import numpy as np import pandas as pd path = "." df = pd.read_csv('auto-mpg.csv', na_values = ['NA', '?']) filename_write = os.path.join(path, "auto−mpg−shuffle.csv") df = df.reindex(np.random.permutation(df.index)) # Specify index = false to not write row numbers df.to_csv(filename_write, index = False) Saving a Dataframe to Pickle 다양한 소프트웨어 프로그램은 CSV로 저장된 텍.. 2023. 7. 27. [Python] csv 파일을 목록화하고 폴더 생성후 파일 저장하기 csv 파일을 목록화하고 폴더 생성후 파일 저장하기 import os import matplotlib.pyplot as plt # csv 파일 목록 가져오기 csv_files = os.listdir(".") for csv_file in csv_files: # csv 파일 이름으로 폴더 만들기 folder_name = os.path.splitext(csv_file)[0] try: os.mkdir(folder_name) except FileExistsError: pass # csv 파일을 폴더에 저장 with open(csv_file, "r") as csv_file: data = csv_file.read() # 이미지를 폴더에 저장 plt.plot(data) plt.savefig(os.path.join(fo.. 2023. 5. 15. [Pandas] 폴더 안에 있는 여러 개의 csv 파일 합치기 폴더 안에 있는 여러 개의 csv 파일 합치기 import pandas as pd from glob import glob # 폴더 내의 모든 csv파일 목록 불러오기 file_names = glob("/data/*.csv") # 빈 데이터프레임 하나 생성 total = pd.DataFrame() #빈 데이터프레임 하나를 생성 for file_name in file_names: # csv파일을 하나씩 열어 임시 데이터프레임으로 생성 temp = pd.read_csv(file_name, sep = ',', encoding = 'utf-8') #전체 데이터프레임에 추가하여 넣음 total = pd.concat([total, temp]) total.to_csv("/data/total.csv") df = pd.r.. 2022. 10. 20. [Python] CSV (Comma-Separated Value) CSV (Comma-Separated Value) 테이블 형식 데이터 형식 (tabular data format)이다 (ex: 테이블의 데이터 또는 데이터베이스의 데이터일 수 있음). 이 형식에서 파일의 각 행은 테이블의 행이다. 형식 이름에도 불구하고 구분 기호는 쉼표일 수 없다. 구분 기호가 다른 형식은 고유한 이름을 가질 수 있다 (ex: TSV (탭으로 구분된 값)). 그러나 CSV라는 이름은 일반적으로 모든 구분 기호를 의미한다. # Example of a CSV file (sw_data.csv) hostname,vendor,model,location sw1,Cisco,3750,London sw2,Cisco,3850,Liverpool sw3,Cisco,3650,Liverpool sw4,Cisco.. 2022. 8. 17. [Web Crawler] 다양한 유형의 파일로 저장하기 (csv, xls, txt) 다양한 유형의 파일로 저장하기 (csv, xls, txt) from bs4 import BeautifulSoup from selenium import webdriver import time import sys query_txt = input('크롤링할 키워드 : ') f_name = input('검색 결과를 저장할 txt 파일경로와 이름 지정 (ex. c:\\temp\\test.txt): ') fc_name = input('검색 결과를 저장할 csv 파일경로와 이름 지정 (ex. c:\\temp\\test.csv): ') fx_name = input('검색 결과를 저장할 xls 파일경로와 이름 지정 (ex. c:\\temp\\test.xls): ') # 크롬 드라이버를 사용하여 웹 브라우저 실행 path.. 2022. 2. 16. [Pandas] 데이터 입출력 데이터 입출력 Pandas는 데이터 파일을 읽어 데이터프레임을 만들 수 있다. 여러가지 포맷을 지원한다. CSV Excel HTML JSON HDF5 SAS STATA SQL 가장 단순하지만 널리 사용되는 것은 CSV (Comman Separated Value)이다. CSV 파일 포맷은 데이터 값이 쉽표 (comma)로 구분되는 텍스트 파일이다. %%writefile 명령 샘플 데이터로 사용할 CSV 파일을 %%writefile 매직 (magic) 명령으로 만든다. 이 명령은 셀에 서술한 내용대로 텍스트 파일을 만드는 명령이다. %%writefile sample1.csv c1, c2, c3 1, 1.11, one 2, 2.22, two 3, 3.33, three --> Writing sample1.csv.. 2022. 2. 15. 14. 데이터베이스 (Database) 데이터베이스 (Database) 기존의 파일시스템에서는 중복된 정보를 효율적으로 처리하는 것이 관점 연구 분야였다. 이 중복을 피하여 정보를 일원화하여 처리를 효율적으로 수행하기 위해서 서로 관련성을 가지며 중복이 없는 데이터의 집합을 유지하는 것을 데이터베이스 (database)라고 한다. SQLite SQLite는 데이터베이스 관리 시스템 (DBMS; Database Management System)이다. DBMS는 여러 사용자 또는 응용 프로그램이 데이터를 저장하거나 조회할 수 있게 도와주는 시스템 또는 소프트웨어이다. 대표적인 DBMS로는 MySQL, PostgreSQL, Oracle, MS-SQL 등이 있다. SQLite는 Oracle이나 PostgreSQL과 같은 큰 규모의 DBMS와 달리 서.. 2021. 12. 15. 이전 1 다음 728x90 반응형 LIST