본문 바로가기
728x90
반응형
SMALL

판다스18

[Pandas] 폴더 안에 있는 여러 개의 csv 파일 합치기 폴더 안에 있는 여러 개의 csv 파일 합치기 import pandas as pd from glob import glob # 폴더 내의 모든 csv파일 목록 불러오기 file_names = glob("/data/*.csv") # 빈 데이터프레임 하나 생성 total = pd.DataFrame() #빈 데이터프레임 하나를 생성 for file_name in file_names: # csv파일을 하나씩 열어 임시 데이터프레임으로 생성 temp = pd.read_csv(file_name, sep = ',', encoding = 'utf-8') #전체 데이터프레임에 추가하여 넣음 total = pd.concat([total, temp]) total.to_csv("/data/total.csv") df = pd.r.. 2022. 10. 20.
[Pandas] shuffle shuffle pandas에서 데이터를 섞어주는 함수가 존재한다. df # row 전체 shuffle df = df.sample(frac = 1) df # shuffling하고 index reset df = df.sample(frac = 1).reset_index(drop = True) df 2022. 10. 17.
[Pandas] DataFrame Option DataFrame Option pandas에는 DataFrame의 디스플레이, 데이터 동작 등과 관련된 전역 동작을 구성하고 사용자 지정하는 옵션 API가 있다. get_option() / set_option() : 단일 옵션의 값을 가져오거나 설정한다. reset_option() : 하나 이상의 옵션을 기본값으로 재설정한다. describe_option() : 하나 이상의 옵션에 대한 설명을 인쇄한다. option_context() : 실행 후 이전 설정으로 되돌아가는 옵션 세트로 코드 블록을 실행한다. import pandas as pd df = pd.read_csv("C:/Users/ex.csv", sep=";") df pd.set_option('display.max_row', 500) # 행 50.. 2022. 8. 11.
[Pandas] pandas.read_csv pandas.read_csv 쉼표로 구분된 값 (csv) 파일을 DataFrame으로 읽어온다. 또한, 선택적으로 파일을 청크로 반복하거나 분할하는 것을 지원한다. 추가 도움말은 IO 도구는 온라인 문서에서 찾을 수 있다. pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=N.. 2022. 8. 11.
[Pandas] 데이터프레임 모든 행, 열 출력 데이터프레임 모든 행, 열 출력 import pandas as pd # set output all rows, columns pd.options.display.max_rows = 856 # 행이 856개 pd.options.display.max_columns = 6 # 열이 6개 pd.set_option('display.max_columns', None) df = pd.read_csv('.txt') 2022. 5. 12.
[Pandas] 데이터프레임 (DataFrame) 데이터프레임 (DataFrame) 시리즈가 1차원 벡터 데이터에 행방향 인덱스 (row index)를 붙인 것이라면 데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다. 2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스 (row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열 인덱스 (column index)도 붙일 수 있다. 데이터프레임 생성 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다. 이 각각의 열에 대한 이름 (라벨)을 키로 가지는 딕셔너리를 만든다. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다. data = { "2015":.. 2022. 2. 15.
[Pandas] 시리즈 (Series) (1) 시리즈 시리즈 (Series) 클래스는 numpy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스 (index)를 붙일 수 있다. 데이터 자체는 값 (value)라고 한다. 시리즈 = 값 (value) + 인덱스 (index) 시리즈 생성 데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다. 이 때 인덱스의 길이는 데이터의 길이와 같아야 한다. 다음 예에서 이 “서울”, “부산” 등의 문자열이 인덱스의 값이다. 인덱스의 값을 인덱스 라벨 (label)이라고도 한다. 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다. s = pd.Series([9904312, 3448737, 2890451, 2466052.. 2022. 2. 15.
판다스 (Pandas) 판다스 (Pandas) 판다스 (Pandas)는 python 데이터 처리를 위한 라이브러리입니다. python을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리이다. pip install pandas Pandas는 총 세 가지의 데이터 구조를 사용한다. 시리즈 (Series) 데이터프레임 (DataFrame) 패널 (Panel) 이 중 데이터프레임이 가장 많이 사용된다. https://pandas.pydata.org/pandas-docs/stable/# pandas documentation — pandas 1.4.1 documentation The reference guide contains a detailed description of the pandas API. The reference descr.. 2022. 2. 15.
728x90
반응형
LIST