본문 바로가기
728x90
반응형
SMALL

pandas30

딥러닝을 위한 특징 벡터 인코딩 딥러닝을 위한 특징 벡터 인코딩 신경망은 다양한 유형의 데이터를 받아들일 수 있다. 테이블 형식의 데이터는 Microsoft Excel에서 일반적으로 볼 수 있는 데이터이다. 신경망에는 숫자 입력이 필요하다. 이 숫자 형식을 특징 벡터 (feature vector)라고 한다. 각 입력 뉴런은 이 벡터로부터 하나의 특징 (또는 열)을 받는다. 훈련 데이터의 각 행은 일반적으로 하나의 벡터가 된다. import pandas as pd pd.set_option ('display.max_columns', 7) pd.set_option ('display.max_rows', 5) df = pd.read_csv("https://data.heatonresearch.com/data/t81-558/jh-simple-dat.. 2023. 11. 7.
[Matplotlib] 눈금 시간 설정 눈금 시간 설정 데이터프레임에서 str 타입의 시간을 축으로 사용하기 위해 pd.to_datetime() 함수를 사용한다. 이 함수를 사용하여 문자열을 datetime64 형식으로 변환하고 데이터프레임의 x축으로 사용할 수 있다. df['Time'] = pd.to_datetime(df['time']) import matplotlib.pyplot as plt import matplotlib.dates as mdates fig, ax = plt.subplots() ax.plot(df['Time'], df['Value']) ax.set_xlabel('Time') ax.set_ylabel('Value') ax.set_title('Time vs Value') # x축 눈금 간격 설정 (1시간 간격으로 눈금 표시).. 2023. 7. 28.
Dropping / Concatenating Dropping Fields 값이 없는 필드를 신경망에 삭제해야 한다. 다음 코드는 MPG 데이터 세트에서 이름 열을 제거한다. import os import pandas as pd df = pd.read_csv('auto-mpg.csv', na_values = ['NA', '?']) print(f"Before drop : {list(df.columns)}") df.drop('name', 1, inplace=True) print(f"After drop : {list(df.columns)}") Before drop : ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'year', 'origin', 'name'] Aft.. 2023. 7. 27.
[Pandas] groupby pandas.DataFrame.groupby 매퍼를 사용하거나 일련의 열로 DataFrame을 그룹화한다. 그룹화 작업에는 개체 분할, 함수 적용 및 결과 결합의 일부 조합이 포함된다. 이는 이러한 그룹에서 많은 양의 데이터 및 계산 작업을 그룹화하는 데 사용할 수 있다. import pandas as pd df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'], 'Max Speed': [380., 370., 24., 26.]}) df Animal Max Speed 0 Falcon 380.0 1 Falcon 370.0 2 Parrot 24.0 3 Parrot 26.0 df.groupby(['Animal']).mean() Max Spee.. 2023. 3. 30.
[Pandas] rolling pandas.DataFrame.rolling 판다스에서는 롤링 윈도우 계산을 제공한다. import pandas as pd df = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]}) df B 0 0.0 1 1.0 2 2.0 3 NaN 4 4.0 window 관측치 2개의 window 길이를 사용한 롤링 합계는 다음과 같이 구현 가능하다. df.rolling(2).sum() B 0 NaN 1 1.0 2 3.0 3 NaN 4 NaN window 범위가 2초인 롤링 합계는 다음과 같다. df_time = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]}, index = [pd.Timestamp('20130101 09:00:00'), pd.Timestamp('20.. 2023. 3. 30.
Data Encoding Data Encoding 시간이 지남에 따라 신경망에 데이터를 인코딩하는 많은 다양한 방법이 있다. 시계열 인코딩은 시간이 지남에 따라 발생하는 이벤트를 신경망에 표현하는 것을 다룬다. 순방향 신경망은 항상 주어진 입력 벡터에 대해 동일한 출력 벡터를 생성하기 때문에 이 인코딩이 필요하다. 순환 신경망은 시간이 지남에 따라 발생하는 데이터를 자동으로 처리할 수 있기 때문에 시계열 데이터를 인코딩할 필요가 없다. from IPython.display import display, HTML import pandas as pd import numpy as np x = [[32], [41], [39], [20], [15]] y = [1,-1,0,-1,1] x = np.array(x) print(x[ :, 0]) .. 2022. 12. 1.
[Pandas] 데이터프레임 만들기 데이터프레임 만들기 import pandas as pd import numpy as np csv_data = '''\ 구분,죄종,발생검거,건수 중부,살인,발생,3 중부,살인,검거,2 중부,강도,발생,8 중부,강도,검거,8 중부,사기,발생,143 중부,사기,검거,105 ''' with open('중부 지역 강력 사건 발생 검거 통계.csv', 'w', encoding='UTF-8') as f: f.write(csv_data) df = pd.read_csv('중부 지역 강력 사건 발생 검거 통계.csv') pd.pivot_table(df, index=['죄종', '발생검거'], aggfunc=np.sum) 2022. 10. 26.
[Pandas] 타이타닉 생존자 분석 타이타닉 생존자 분석 https://www.kaggle.com/datasets/tedllh/titanic-train에서 csv 파일을 다운한다. import numpy as np import pandas as pd import matplotlib.pyplot as plt titanic_df = pd.read_csv('titanic_train.csv') titanic_df titanic_df['Survived'].groupby(titanic_df['Sex']).mean() Sex female 0.742038 male 0.188908 Name: Survived, dtype: float64 titanic_df.pivot_table(index=['Sex'])['Survived'] Sex female 0.7420.. 2022. 10. 25.
[Pandas] Iris (붓꽃) Iris (붓꽃) 비짜루목 붓꽃과 붓꽃속에 속하는 여러해 살이 풀 또는 그 식물의 꽃을 말한다. 꽃봉오리가 먹을 묻힌 붓과 같이 생겼다 하여 붙여진 이름이다. import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import datasets iris = datasets.load_iris() irisdt = pd.DataFrame(iris['data'], columns=iris['feature_names']) irisdt plt.scatter(irisdt['sepal length (cm)'], irisdt['sepal width (cm)'], c=iris.target) for f0 in iris['feature.. 2022. 10. 25.
[Pandas] 시각화 시각화 import numpy as np import pandas as pd import matplotlib.pyplot as plt se0 = pd.Series(np.random.randn(100).cumsum()) se0.plot() df = pd.DataFrame(np.random.randn(100, 5).cumsum(0), columns= ['arr1', 'arr2', 'arr3', 'arr4', 'arr5'] ) df.plot() 막대 그래프 se0.plot(kind='bar') df.plot(kind='bar') # 가로 바 차트 se0.plot(kind='barh') df.plot(kind='barh') df.plot(kind='bar', stacked=True) 히스토그램 값의 빈도를 분리.. 2022. 10. 23.
728x90
반응형
LIST