본문 바로가기
728x90
반응형
SMALL

DNN with Keras72

신경망을 위한 X 및 Y 생성 분류 신경망을 위한 X 및 Y 생성 이제 x와 y를 생성할 수 있다. 이것이 분류 문제에 대해 y를 생성하는 방법이다. 회귀는 더미를 사용하지 않으며 대상의 숫자 값을 인코딩한다. # Convert to numpy − Classification x_columns = df.columns.drop('product').drop('id') x = df[x_columns].values dummies = pd.get_dummies(df['product']) # Classification products = dummies.columns y = dummies.values x와 y 행렬을 표시할 수 있다. print(x) print(y) [[5.08760000e+04 1.31000000e+01 1.00000000e+00.. 2023. 11. 7.
딥러닝을 위한 특징 벡터 인코딩 딥러닝을 위한 특징 벡터 인코딩 신경망은 다양한 유형의 데이터를 받아들일 수 있다. 테이블 형식의 데이터는 Microsoft Excel에서 일반적으로 볼 수 있는 데이터이다. 신경망에는 숫자 입력이 필요하다. 이 숫자 형식을 특징 벡터 (feature vector)라고 한다. 각 입력 뉴런은 이 벡터로부터 하나의 특징 (또는 열)을 받는다. 훈련 데이터의 각 행은 일반적으로 하나의 벡터가 된다. import pandas as pd pd.set_option ('display.max_columns', 7) pd.set_option ('display.max_rows', 5) df = pd.read_csv("https://data.heatonresearch.com/data/t81-558/jh-simple-dat.. 2023. 11. 7.
뉴런의 유형 (1) Types of Neurons 모든 신경망이 모든 종류의 뉴런을 사용하는 것은 아니다. 하나의 뉴런이 여러 종류의 뉴런의 역할을 채우는 것도 가능하다. 신경망에는 보통 네 가지 종류의 뉴런이 있다. • 입력 뉴런 : 각 입력 뉴런을 특징 벡터의 한 요소에 매핑한다. • 은닉 뉴런 : 은닉 뉴런은 신경망이 추상적이고 입력을 출력으로 처리할 수 있도록 한다. • 출력 뉴런 : 각 출력 뉴런은 출력의 한 부분을 계산한다. • 바이어스 뉴런 : 선형 방정식의 y 절편과 유사하게 작업한다. 그리고 각 뉴런을 층으로 배치한다. • 입력층 : 입력층는 데이터 세트로부터 특징 벡터를 받아들인다. 입력층는 일반적으로 바이어스 뉴런을 가진다. • 출력층 : 신경망으로부터의 출력이다. 출력층는 바이어스 뉴런을 가지지 않는다.. 2023. 7. 28.
뉴런과 층 (Neurons and Layers) Neurons and Layers 대부분의 신경망 구조는 어떤 유형의 뉴런을 사용한다. 많은 다른 신경망이 존재하고 프로그래머들은 실험적인 신경망 구조를 도입한다. 결과적으로 모든 신경망 아키텍처를 포함할 수는 없다. 그러나 신경망 구현 사이에는 몇 가지 공통점이 있다. 신경망 알고리즘은 일반적으로 이러한 단위를 뉴런이라고 부를 수도 있고 아닐 수도 있지만 개별적으로 상호 연결된 단위로 구성된다. 신경망 처리 장치에 대한 이름은 문헌 소스에 따라 다르다. 노드, 뉴런 또는 단위라고 할 수 있다. 인공 뉴런은 다른 뉴런일 수 있는 하나 이상의 소스로부터 입력을 받거나 컴퓨터 프로그램으로부터 네트워크에 입력된 데이터를 수신한다. 이 입력은 일반적으로 부동 소수점 또는 이진수이다. 종종 이진 입력은 true .. 2023. 7. 28.
텐서플로우 (TensorFlow) Deep Learning and Neural Network 신경망은 최초의 기계 학습 모델 중 하나였다. 그 인기는 두 번 떨어졌고 이제 세 번째로 증가하고 있다. 딥러닝은 신경망의 사용을 의미한다. 딥러닝의 deep은 많은 숨겨진 계층이 있는 신경망을 의미한다. 신경망은 너무 오랫동안 존재해왔기 때문에 꽤 많은 짐을 가지고 있다. 연구자들은 많은 다른 훈련 알고리즘, 활성화/전달 기능 및 구조를 만들어 왔다. 신경망은 입력을 받아들여 출력을 만든다. 신경망에 대한 입력을 특징 벡터 (feature vector)라고 한다. 신경망에 대한 입력은 항상 고정된 길이이다. 이 벡터의 크기를 변경하는 것은 일반적으로 전체 신경망을 다시 만드는 것을 의미한다. 특징 벡터를 "벡터"라고 하지만 항상 그렇지는 않다... 2023. 7. 28.
그룹화, 정렬 및 섞기 (2) Sorting a Data Set 모델을 학습하기 전에, 훈련 및 전처리 중에 데이터 세트를 셔플하는 것이 항상 좋지만, 데이터 세트를 정렬할 수도 있다. 데이터 세트를 정렬하면 하나 이상의 열에 대해 오름차순 또는 내림차순으로 행을 정렬할 수 있다. import os import pandas as pd import numpy as np np.random.seed(42) df = pd.read_csv('auto-mpg.csv', na_values = ['NA', '?']) df = df.sort_values(by = 'name', ascending = True) print(f"The first car is : {df['name'].iloc[0]}" ) pd.set_option('display.max_co.. 2023. 7. 27.
그룹화, 정렬 및 섞기 (1) Grouping, Sorting, and Shuffling 전체 판다스 데이터 프레임에 영향을 미치는 몇 가지 방법이 있다. 이러한 기술을 통해 데이터 세트를 그룹화, 정렬 및 셔플할 수 있다. 이는 모두 데이터 전처리 및 평가를 위한 필수 작업이다. Shuffling a Dataset 데이터 세트의 행 순서대로 숨어 있는 정보가 있을 수 있다. 시계열 데이터를 다루고 있지 않는 한 행의 순서는 유의하지 않아야 한다. 그러나 순서의 데이터를 가지고 있는 것이 문제가 될 수 있다. 데이터를 훈 및 검증으로 분할하는 경우를 고려해야 한다. 데이터를 k겹 교차 검증으로 분리하는 경우에도 문제가 발생할 수 있다. 이러한 문제 때문에 데이터 세트를 셔플하는 것이 중요하다. 종종 셔플과 재인덱싱이 함께 수행된다. .. 2023. 7. 27.
타겟 인코딩 (Target Encoding) Removing the First Level pd.concat 함수에는 drop_first라는 매개 변수도 포함되어 있는데, 첫 번째 수준을 제거함으로써 k-1 더미를 k개의 범주형 수준에서 벗어나게 할지 여부를 지정한다. 이 경우 첫 번째 수준인 area_a를 제거하고자 하는 이유는 보통 사용되지 않는 [0,0,0]의 인코딩을 사용함으로써 더 효율적인 인코딩을 제공한다. area를 단지 세 개의 열로 인코딩하고 a의 범주형 값을 [0,0,0]으로 매핑한다. import pandas as pd dummies = pd.get_dummies(['a', 'b', 'c', 'd'], prefix = 'area', drop_first = True) print(dummies) 위의 데이터에서 볼 수 있듯이 area.. 2023. 7. 27.
원핫 인코딩 (One-Hot-Encoding) Encoding Categorical Values as Dummies 범주형 값을 부호화하는 전통적인 방법은 더미 변수로 만드는 것이다. 이 기법은 one-hot-encoding이라고도 한다. csv를 다운 받는다. import pandas as pd df = pd.read_csv('jh-simple-dataset.csv', na_values = ['NA', '?']) pd.set_option('display.max_columns', 7) pd.set_option('display.max_rows', 5) display(df) area 열은 숫자가 아니므로 원핫 인코딩으로 인코딩해야 한다. 영역 수와 개별 값을 표시한다. 이 경우 영역 범주형 변수에는 4개의 값만 있다. areas = list(df['ar.. 2023. 7. 27.
범주형 (Categorical) 및 연속형 (Continuous) 값 Categorical and Continuous Values 신경망은 고정된 수의 열이 입력되어야 한다. 이 입력 형식은 스프레드시트 데이터와 매우 유사하다. 신경망이 데이터로부터 학습할 수 있도록 데이터를 표현하는 것이 필수적이다. 데이터를 전처리하는 구체적인 방법을 위해 정의된 4가지 기본 유형의 데이터를 고려하는 것이 중요하다. 통계학자들은 일반적으로 다음과 같은 측정 수준을 말한다. 문자 데이터 (문자열) Nominal : 개별 이산 항목, 순서가 없다. 예를 들어, 색상, 우편 번호 및 모양 Ordinal : 개별 고유 항목에는 순서가 내포되어 있다. 예를 들어, 등급 수준, 직책, 스타벅스 커피 사이즈 (tall, venti, grande) 수치 데이터 (Numeric Data) 간격 (Int.. 2023. 7. 27.
728x90
반응형
LIST