본문 바로가기
728x90
반응형
SMALL

pandas30

[Pandas] HTML 파일에서 데이터 입출력 HTML 파일에서 데이터 입출력 import pandas as pd import numpy as np naver_finance_url = "https://finance.naver.com/" html_dfs = pd.read_html(naver_finance_url, encoding = 'euc-kr') print("TOP 종목") html_dfs[0] # table의 개수 len(html_dfs) 12 # html 저장 html_dfs[0].to_html('naver_finance.html') 2022. 10. 21.
[Pandas] 폴더 안에 있는 여러 개의 csv 파일 합치기 폴더 안에 있는 여러 개의 csv 파일 합치기 import pandas as pd from glob import glob # 폴더 내의 모든 csv파일 목록 불러오기 file_names = glob("/data/*.csv") # 빈 데이터프레임 하나 생성 total = pd.DataFrame() #빈 데이터프레임 하나를 생성 for file_name in file_names: # csv파일을 하나씩 열어 임시 데이터프레임으로 생성 temp = pd.read_csv(file_name, sep = ',', encoding = 'utf-8') #전체 데이터프레임에 추가하여 넣음 total = pd.concat([total, temp]) total.to_csv("/data/total.csv") df = pd.r.. 2022. 10. 20.
[Pandas] shuffle shuffle pandas에서 데이터를 섞어주는 함수가 존재한다. df # row 전체 shuffle df = df.sample(frac = 1) df # shuffling하고 index reset df = df.sample(frac = 1).reset_index(drop = True) df 2022. 10. 17.
[Pandas] DataFrame Option DataFrame Option pandas에는 DataFrame의 디스플레이, 데이터 동작 등과 관련된 전역 동작을 구성하고 사용자 지정하는 옵션 API가 있다. get_option() / set_option() : 단일 옵션의 값을 가져오거나 설정한다. reset_option() : 하나 이상의 옵션을 기본값으로 재설정한다. describe_option() : 하나 이상의 옵션에 대한 설명을 인쇄한다. option_context() : 실행 후 이전 설정으로 되돌아가는 옵션 세트로 코드 블록을 실행한다. import pandas as pd df = pd.read_csv("C:/Users/ex.csv", sep=";") df pd.set_option('display.max_row', 500) # 행 50.. 2022. 8. 11.
[Pandas] pandas.read_csv pandas.read_csv 쉼표로 구분된 값 (csv) 파일을 DataFrame으로 읽어온다. 또한, 선택적으로 파일을 청크로 반복하거나 분할하는 것을 지원한다. 추가 도움말은 IO 도구는 온라인 문서에서 찾을 수 있다. pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=N.. 2022. 8. 11.
[Pandas] 데이터 전처리 (2) 열 (column) 데이터 추출하기 데이터프레임 (DataFrame)에서 열 (column) 단위 데이터를 추출하기 위해서는 대괄호 안에 열 이름을 사용한다. df_job = df['Job'] df_job df_job = df[['Job']] df_job cols = ['Country', 'Job'] # df_country_job = df[cols] df_country_job = df[['Country','Job']] df_country_job 인덱스 / 행 번호 Pandas에서는 df.loc[인덱스], df.iloc[행 번호] 사용하여 행 단위로 데이터를 가져온다. loc 인덱스 기준으로 행 데이터 읽기 iloc 행 번호를 기준으로 행 데이터 읽기 행 번호 인덱스 Name Country Age Job .. 2022. 7. 24.
[Pandas] 데이터 전처리 (1) 데이터프레임 (Dataframe) 데이터프레임은 dictionary 데이터 또는 list 데이터를 이용해서 생성할 수 있다. import pandas as pd data_dict = { 'Name' : ['John', 'Sabre', 'Kim', 'Sato', 'Lee', 'Smith', 'David'], 'Country' : ['USA', 'France', 'Korea', 'Japan', 'Korea', 'USA', 'USA'], 'Age' : [31, 33, 28, 40, 36, 55, 48], 'Job' : ['Student', 'Lawyer', 'Developer', 'Chef', 'Professor', 'CEO', 'Banker'] } df = pd.DataFrame(data_dict) impo.. 2022. 7. 23.
[TensorFlow] Pandas 데이터 프레임 전처리 pandas.DataFrame 로드 pandas 데이터 프레임을 tf.data.Dataset에 로드하는 방법의 예제이다. 여기에서는 Cleveland Clinic Foundation for Heart Disease에서 제공하는 작은 데이터세트를 사용한다. CSV에는 수백 개의 행이 있다. 각 행은 환자를 설명하고 각 열은 속성을 설명한다. 이 정보를 사용하여 이 데이터세트에서 환자가 심장 질환이 있는지 여부를 예측하는 이진 분류 작업이다. pandas를 사용하여 데이터 읽기 import pandas as pd import tensorflow as tf 심장 데이터세트가 포함된 csv 파일을 다운로드한다. csv_file = tf.keras.utils.get_file('heart.csv', 'https:/.. 2022. 6. 16.
[Pandas] 피클 불러오기 피클 불러오기 import pickle import pandas as pd temp_dict = {'name': 'S', 'id': 1} with open('XXX', 'rb') as f: data = pickle.load(f) temp = pd.DataFrame({'a':[1], 'b':[2]}) data = pd.read_pickle('XXX.pkl') 2022. 6. 3.
[Pandas] 데이터프레임 모든 행, 열 출력 데이터프레임 모든 행, 열 출력 import pandas as pd # set output all rows, columns pd.options.display.max_rows = 856 # 행이 856개 pd.options.display.max_columns = 6 # 열이 6개 pd.set_option('display.max_columns', None) df = pd.read_csv('.txt') 2022. 5. 12.
728x90
반응형
LIST