본문 바로가기
728x90
반응형
SMALL

머신러닝32

Dropping / Concatenating Dropping Fields 값이 없는 필드를 신경망에 삭제해야 한다. 다음 코드는 MPG 데이터 세트에서 이름 열을 제거한다. import os import pandas as pd df = pd.read_csv('auto-mpg.csv', na_values = ['NA', '?']) print(f"Before drop : {list(df.columns)}") df.drop('name', 1, inplace=True) print(f"After drop : {list(df.columns)}") Before drop : ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'year', 'origin', 'name'] Aft.. 2023. 7. 27.
자동 기계 학습 (AutoML) 자동 기계 학습 (AutoML) 자동 기계 학습 (Automatic Machine Learning)은 기계 학습을 사용하여 자동화를 시도한다. 데이터는 원시 형태로 AutoML 애플리케이션에 전달되고 모델이 자동으로 생성된다. AutoML 어플리케이션 • AutoKeras • Auto-SKLearn • Auto PyTorch • TPOT • Google Cloud AutoML Tutorial • Azure AutoML AutoKeras AutoKeras는 Keras 기반의 AutoML 시스템이다. AutoKeras의 목표는 모든 사람이 기계 학습에 접근할 수 있도록 하는 것이다. import os import pandas as pd URL = "https://github.com/jeffheaton/dat.. 2023. 7. 24.
결측치 (Missing Values) / 특이치 (Outliers) 결측치 (Missing Values) 결측치는 기계 학습의 현실이다. 모든 데이터 행에는 모든 열에 대한 값이 있는 것이 이상적이다. 하지만, 이것은 거의 그렇지 않다. 일반적인 방법은 결측값을 해당 열의 중앙값으로 바꾸는 것이다. 이 프로그램은 중앙값 (median)을 계산한다. csv 파일을 다운받는다. import os import pandas as pd df = pd.read_csv('auto-mpg.csv', na_values = ['NA', '?']) print(f"horsepower has na? {pd.isnull(df['horsepower']).values.any()}") print("Filling missing values ...") med = df['horsepower'].median.. 2023. 5. 1.
[Machine Learning] K겹 교차 검증 (K-fold cross validation) K겹 교차 검증 (K-fold cross validation) k-fold cross-validation (k-겹 교차 검증)은 가장 널리 사용되는 교차 검증 방법의 하나로, 데이터를 k개로 분할한 뒤, k-1개를 학습용 데이터 세트로, 1개를 평가용 데이터 세트로 사용하는데, 이 방법을 k번 반복하여 k개의 성능 지표를 얻어내는 방법이다. k를 4로 설정하는 경우, 데이터를 폴드 (fold)라고 하는 거의 비슷한 크기의 부분 집합 네 개로 나눈다. 그 다음 일련의 모델을 만든다. 첫 번째 모델은 첫 번째 폴드를 평가용 데이터셋으로 사용하고, 두 번째부터 네 번째까지의 폴드 (3개의 폴드)를 학습용 데이터셋으로 사용한다. 그 다음 모델을 두 번째 폴드를 평가용, 1, 3, 4 폴드를 학습용 데이터셋으로 .. 2023. 4. 27.
[XGBoost] 심혈관 질환 예측 데이터셋 로드 import pandas as pd df = pd.read_csv('Cardiovascular_Disease_dataset.csv') df.head() df['Presence or absence of cardiovascular disease'].value_counts() 0 35021 1 34979 Name: Presence or absence of cardiovascular disease, dtype: int64 데이터 전처리 # 훈련 데이터, 검증 데이터, 테스트 데이터로 나누기 features = df[df.keys().drop(['id','Presence or absence of cardiovascular disease'])].values outcome = df['Presence o.. 2022. 10. 5.
[Machine Learning] SVM 회귀 SVM 회귀 SVM을 회귀에 적용하는 방법은 제한된 마진 오류 (도로 밖 샘플) 안에서 도로 안에 가능한 많은 샘플이 들어가도록 학습한다. 도로 폭은 하이퍼파라미터 ϵ로 조절한다. 마진 안에서 훈련 샘플이 추가되어도 모델의 예측에는 영향이 없게 되면, ϵ에 민감하지 않다고 한다. from sklearn.svm import LinearSVR svm_reg = LinearSVR(epsilon=1.5) svm_reg.fit(X, y) LinearSVR(C=1.0, dual=True, epsilon=1.5, fit_intercept=True, intercept_scaling=1.0, loss='epsilon_insensitive', max_iter=1000, random_state=None, tol=0.0001.. 2022. 9. 30.
[Android Studio] 어플리케이션에 머신러닝 적용 How to Integrate Machine Learning into an Android App 머신러닝과 객체 인식은 오늘날 모바일 개발에서 가장 뜨거운 두 가지 주제이다. 객체 인식은 기계 학습의 큰 부분이며 전자 상거래, 의료, 미디어 및 교육과 같은 영역에서 사용할 수 있다. 이 기사에서는 이미지 레이블 지정 예제를 사용하여 기계 학습을 Android 앱에 통합하는 프로세스를 보여준다. 머신 비전 시장은 빠르게 성장하고 있으며 많은 세계 최대 기술 회사들이 새로운 머신러닝 도구에 투자하고 있다. 이러한 도구를 통해 개발자는 머신 러닝과 머신 비전을 모바일 애플리케이션에 통합할 수 있다. Tutorial on image labeling 첫 번째 단계는 Firebase 서비스에 연결하는 것이다. 이렇.. 2022. 8. 24.
[AI] 로지스틱 회귀 (Logistic Regression) 로지스틱 회귀 (Logistic Regression) 선형 회귀에서 확장한 것으로 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법이다. numerical_derivative, sigmoid 함수 정의 import numpy as np from datetime import datetime np.random.seed(0) def numerical_derivative(f, x): delta_x = 1e-4 # 0.0001 grad = np.zeros_like(x) it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite']) while not it.finished: idx = it.multi_index tmp_val =.. 2022. 7. 10.
특성 엔지니어링 특성 엔지니어링 (Feature engineering) 생체의학 신호의 특성화는 잡음, 신호의 확률적 특성, 개인 내 및 개인 간의 큰 변동성으로 인해 어렵다. 따라서, 통계적 특징 생성, 변환 기반 특징 생성 및 추출, 시간-주파수 분석이 필요하다. 기능 선택은 중복되고 정보가 없는 기능을 제거하는 것을 목표로 하므로 광범위한 테스트 모집단에서 일반화하는 모델을 구축할 수 있다. 파이프라인은 "실제 세계"에서 데이터를 캡처하고 이러한 데이터를 원시 데이터 개체로 표시하는 센서로 구성된다. 아티팩트 및 원치 않는 노이즈 제거, 대체 양식을 얻기 위한 데이터 변환, 평균 강도 / 진폭 수준 조정, 다운샘플링 (decimation) 또는 업샘플링 (보간, interpolation)과 같은 다음 단계를 위해 .. 2022. 4. 27.
[Computational Science] 기계 학습 (Machine Learning) 기계 학습 (Machine Learning) 기계 학습 (機械學習) 또는 머신 러닝 (machine learning)은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구이다. 인공지능의 한 분야로 간주된다. 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이다. 가령, 기계 학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있다. 기계 학습의 핵심은 표현 (representation)과 일반화 (generalization)에 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다. 이는 전산 학습 이론 분야이기도 하다. 다양한 기계 학습의 응용이 존재한다. 문자 인식은 이를 이용한 가장 잘 알려진 사례이다. Statistical .. 2022. 3. 14.
728x90
반응형
LIST