본문 바로가기
728x90
반응형
SMALL

Python Library/Pandas28

[Pandas] DataFrame Option DataFrame Option pandas에는 DataFrame의 디스플레이, 데이터 동작 등과 관련된 전역 동작을 구성하고 사용자 지정하는 옵션 API가 있다. get_option() / set_option() : 단일 옵션의 값을 가져오거나 설정한다. reset_option() : 하나 이상의 옵션을 기본값으로 재설정한다. describe_option() : 하나 이상의 옵션에 대한 설명을 인쇄한다. option_context() : 실행 후 이전 설정으로 되돌아가는 옵션 세트로 코드 블록을 실행한다. import pandas as pd df = pd.read_csv("C:/Users/ex.csv", sep=";") df pd.set_option('display.max_row', 500) # 행 50.. 2022. 8. 11.
[Pandas] pandas.read_csv pandas.read_csv 쉼표로 구분된 값 (csv) 파일을 DataFrame으로 읽어온다. 또한, 선택적으로 파일을 청크로 반복하거나 분할하는 것을 지원한다. 추가 도움말은 IO 도구는 온라인 문서에서 찾을 수 있다. pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=N.. 2022. 8. 11.
[Pandas] 데이터 전처리 (3) df.drop() : 행과 열 삭제 import pandas as pd data_dict = { 'Name' : ['John', 'Sabre', 'Kim', 'Sato', 'Lee', 'Smith', 'David'], 'Country' : ['USA', 'France', 'Korea', 'Japan', 'Korea', 'USA', 'USA'], 'Age' : [31, 33, 28, 40, 36, 55, 48], 'Job' : ['Student', 'Lawyer', 'Developer', 'Chef', 'Professor', 'CEO', 'Banker'] } df = pd.DataFrame(data_dict) df = df.drop(1, axis=0) df df = df.drop([3, 5], axis =.. 2022. 7. 24.
[Pandas] 데이터 전처리 (2) 열 (column) 데이터 추출하기 데이터프레임 (DataFrame)에서 열 (column) 단위 데이터를 추출하기 위해서는 대괄호 안에 열 이름을 사용한다. df_job = df['Job'] df_job df_job = df[['Job']] df_job cols = ['Country', 'Job'] # df_country_job = df[cols] df_country_job = df[['Country','Job']] df_country_job 인덱스 / 행 번호 Pandas에서는 df.loc[인덱스], df.iloc[행 번호] 사용하여 행 단위로 데이터를 가져온다. loc 인덱스 기준으로 행 데이터 읽기 iloc 행 번호를 기준으로 행 데이터 읽기 행 번호 인덱스 Name Country Age Job .. 2022. 7. 24.
[Pandas] 데이터 전처리 (1) 데이터프레임 (Dataframe) 데이터프레임은 dictionary 데이터 또는 list 데이터를 이용해서 생성할 수 있다. import pandas as pd data_dict = { 'Name' : ['John', 'Sabre', 'Kim', 'Sato', 'Lee', 'Smith', 'David'], 'Country' : ['USA', 'France', 'Korea', 'Japan', 'Korea', 'USA', 'USA'], 'Age' : [31, 33, 28, 40, 36, 55, 48], 'Job' : ['Student', 'Lawyer', 'Developer', 'Chef', 'Professor', 'CEO', 'Banker'] } df = pd.DataFrame(data_dict) impo.. 2022. 7. 23.
[Pandas] 피클 불러오기 피클 불러오기 import pickle import pandas as pd temp_dict = {'name': 'S', 'id': 1} with open('XXX', 'rb') as f: data = pickle.load(f) temp = pd.DataFrame({'a':[1], 'b':[2]}) data = pd.read_pickle('XXX.pkl') 2022. 6. 3.
[Pandas] 데이터프레임 모든 행, 열 출력 데이터프레임 모든 행, 열 출력 import pandas as pd # set output all rows, columns pd.options.display.max_rows = 856 # 행이 856개 pd.options.display.max_columns = 6 # 열이 6개 pd.set_option('display.max_columns', None) df = pd.read_csv('.txt') 2022. 5. 12.
[Pandas] 시계열 자료 다루기 DatetimeIndex 인덱스 시계열 자료는 인덱스가 날짜 혹은 시간인 데이터를 말한다. 판다스에서 시계열 자료를 생성하려면 인덱스를 DatetimeIndex 자료형으로 만들어야 한다. DatetimeIndex는 특정한 순간에 기록된 타임스탬프 (timestamp) 형식의 시계열 자료를 다루기 위한 인덱스이다. 타임스탬프 인덱스의 라벨값이 반드시 일정한 간격일 필요는 없다. DatetimeIndex 인덱스는 다음과 같은 보조 함수를 사용하여 생성한다. pd.to_datetime 함수 pd.date_range 함수 pd.to_datetime 함수를 쓰면 날짜 / 시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성한다. date_str = [.. 2022. 2. 22.
[Pandas] 피봇테이블과 그룹분석 피봇테이블 피봇테이블 (pivot table)이란 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말한다. pandas는 피봇테이블을 만들기 위한 pivot 메서드를 제공한다. 첫번째 인수로는 행 인덱스로 사용할 열 이름, 두번째 인수로는 열 인덱스로 사용할 열 이름, 그리고 마지막으로 데이터로 사용할 열 이름을 넣는다. pandas는 지정된 두 열을 각각 행 인덱스와 열 인덱스로 바꾼 후 행 인덱스의 라벨 값이 첫번째 키의 값과 같고 열 인덱스의 라벨 값이 두번째 키의 값과 같은 데이터를 찾아서 해당 칸에 넣는다. 만약 주어진 데이터가 존재하지 않으면 해당 칸에 NaN 값을 넣는다. data = { "도시": ["서울", "서울", "서울", "부.. 2022. 2. 22.
[Pandas] 데이터프레임 합성 데이터프레임 합성 pandas는 두 개 이상의 데이터프레임을 하나로 합치는 데이터 병합 (merge)이나 연결 (concatenate)을 지원한다. merge 함수를 사용한 데이터프레임 병합 merge 함수는 두 데이터프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다. 이 때 기준이 되는 열, 행의 데이터를 키 (key)라고 한다. df1 = pd.DataFrame({ '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007], '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희'] }, columns=['고객번호', '이름']) df1 df2 = pd.DataFrame({ '고객번호': [1001, 1001, 1005,.. 2022. 2. 21.
728x90
반응형
LIST