본문 바로가기
728x90
반응형
SMALL

분류 전체보기1513

TabNet TabNet TabNet은 tabular 데이터의 훈련에 맞게 설계됐으며 Tree 기반 모델에서 변수의 선택 특징을 네트워크 구조에 반영한 테이블 형식 데이터 학습 아키텍처 모델이다. TabNet은 순차적인 attention을 사용하여 각 결정 단계에서 추론할 기능을 선택하고, 학습 용량이 가장 두드러진 기능에 사용되므로 해석 가능성과 보다 효율적인 학습을 가능하게 한다. 예제 pip install pytorch_tabnet from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from sklearn.metrics import accuracy_score from pytorch_ta.. 2024. 4. 21.
윈도우 기법 (Windowing) 윈도우 기법 (Windowing) 음성 문장은 일련의 음소 (phonemes)다. 따라서, 음성 신호는 성격이 시변적 (time-variant)이다. 따라서 신호에서 정보를 추출하려면 신호를 충분히 짧은 세그먼트로 분할해야 한다. 즉, 경험적으로 말하면 각 세그먼트에는 하나의 음소만 포함된다. 즉, 음성 신호의 속성이 해당 세그먼트 내에서 시간 변화를 갖지 않을 만큼 충분히 짧은 세그먼트를 추출해야 한다. 윈도우 기법은 신호 처리의 고전적인 방법으로, 입력 신호를 시간적 세그먼트로 분할하는 것을 의미한다. 그러면 세그먼트의 경계가 실제 신호와 일치하지 않는 불연속성으로 표시된다. 신호의 통계적 속성에 대한 분할의 영향을 줄이기 위해 시간 세그먼트에 윈도우 기법을 적용한다. 윈도우 함수는 경계에서 0으로 .. 2024. 4. 17.
관계형 데이터베이스 관리 시스템 (Relational DataBase Management System) 데이터베이스 (Database) 1980년대에 컴퓨터가 보급화 되면서 처리해야 할 데이터가 늘어남에 따라 여러 회사들에서 대규모 데이터를 관리하기 위해서 통합된 환경이 필요했다. 데이터들을 표현할 수 있는 다양한 모델 (Relational Model, Network Model, Hierarchical Model 등)이 등장했다. 데이터를 체계적으로 관리할 수 있는 공간을 데이터베이스 (database)로 정의한다. 그리고 데이터베이스를 관리하는 시스템을 DataBase Management System (DBMS)으로 정의한다. 데이터베이스의 이점 데이터베이스라는 개념이 나타나기 이전엔, File 단위로 데이터를 관리 (ex: 윈도우 탐색기, macOS Finder) 데이터를 효율적으로 관리하기 힘든 여러.. 2024. 4. 16.
[Prompt Engineering] Langchain Langchain LangChain은 LLM을 활용한 애플리케이션 개발을 단순화하기 위해 설계된 오픈 소스 프레임워크이다. 다양한 LLM과 상호 작용하고, 여러 모델을 연결하여 복잡한 AI 어플리케이션을 구축하는 데 도움을 주는 도구이다. 주로 LLM 자체를 개발하는 것보다는 만들어진 LLM을 사용하여 여러 텍스트 분석 기능, 챗봇 개발 등에 사용된다. 개발 환경 설치 pip install langchain langchain-google-genai langchain-community langchainhub langchain-chroma bs4 API 설정 API 키는 https://aistudio.google.com/app/apikey에서 발급받는다. 다만, 5월 2일부터 유료화 예정이다. import .. 2024. 4. 16.
[Matplotlib] WARNING:matplotlib.font_manager:findfont: Font family 'NanumGothic' not found 폰트 깨짐 문제 한글 폰트를 설정해 주지 않으면 한국어가 깨져서 나오는 문제가 발생한다. 폰트 설치 !apt-get -qq install fonts-nanum 예제 import os import matplotlib.pyplot as plt from matplotlib import font_manager import matplotlib.font_manager as fm fe = fm.FontEntry( fname=r'/usr/share/fonts/truetype/nanum/NanumGothic.ttf', # ttf 파일이 저장되어 있는 경로 name='NanumGothic') # 원하는 폰트 설정 fm.fontManager.ttflist.insert(0, fe) # Matplotlib에 폰트 추가 plt... 2024. 4. 12.
[Keras] 모델 플롯 유틸리티 plot_model 함수 keras.utils.plot_model( model, to_file="model.png", show_shapes=False, show_dtype=False, show_layer_names=False, rankdir="TB", expand_nested=False, dpi=200, show_layer_activations=False, show_trainable=False, **kwargs ) model_to_dot 함수 keras.utils.model_to_dot( model, show_shapes=False, show_dtype=False, show_layer_names=True, rankdir="TB", expand_nested=False, dpi=200, subgraph=Fa.. 2024. 4. 2.
[Keras] 멀티모달 함의 분류 (2) 데이터 입력 파이프라인 구축 TensorFlow Hub는 다양한 BERT 계열의 모델을 제공한다. 각 모델에는 해당하는 전처리 계층이 함께 제공된다. 리소스에서 이러한 모델과 해당 전처리 계층에 대해 더 자세히 알 수 있다. 런타임을 짧게 하기 위해 원래 BERT 모델의 더 작은 변형을 사용한다. # Define TF Hub paths to the BERT encoder and its preprocessor bert_model_path = ( "https://tfhub.dev/tensorflow/small_bert/bert_en_uncased_L-2_H-256_A-4/1" ) bert_preprocess_path = "https://tfhub.dev/tensorflow/bert_en_uncased_pre.. 2024. 4. 2.
[Keras] 멀티모달 함의 분류 (1) 멀티모달 함의 분류 멀티모달 함의를 예측하기 위한 모델을 구축하고 훈련한다. Google Research에서 소개한 다중 모드 수반성 데이터 세트 multimodal entailment dataset를 사용한다. 멀티모달 함의란 소셜 미디어 플랫폼에서는 콘텐츠를 감사하고 중간 정도의 콘텐츠를 제공하기 위해 거의 실시간으로 다음 질문에 대한 답을 찾고자 할 수 있다. 주어진 정보는 다른 정보와 모순 (contradict) 되는지? 주어진 정보는 다른 정보를 의미 ( imply)하는지? 자연어 처리에서 이 작업은 텍스트 함의 분석이라고 한다. 이것은 정보가 텍스트 콘텐츠에서 나올 때만 해당된다. 실제로 사용 가능한 정보는 텍스트 콘텐츠뿐만 아니라 텍스트, 이미지, 오디오, 비디오 등의 멀티모달 조합에서 나오.. 2024. 3. 30.
파형 (Waveform) 파형 (Waveform) 음성 신호는 공기를 통해 이동하는 압력 변화 ( pressure variations)로 정의되는 소리 신호다. 압력의 이러한 변화는 파동으로 설명될 수 있고 그에 따라 종종 음파 (sound waves)라고 불린다. 현재, 주로 디지털 시스템에서 그러한 파형의 분석과 처리는 항상 음향 음성 신호가 마이크에 의해 캡처되어 디지털 형태로 변환되었다고 가정할 것이다. 그런 다음 음성 신호는 시간 순간의 상대 기압을 나타내는 일련의 숫자 xn으로 표시다. 이 표현은 종종 PCM으로 약칭되는 펄스 부호 변조 (pulse code modulation)로 알려져 있다. 그런 다음 이 표현의 정확성은 두 가지 요인에 의해 지정된다. 샘플링 주파수 n와 n+1 사이의 시간 단계 xn의 정확성과 .. 2024. 3. 27.
우분투에서 개발 환경 구축 wget  wget은 HTTP 또는 FTP 통신을 사용해서 서버에서 파일 또는 콘텐츠를 다운로드해주는 소프트웨어이다. 아래 명령어를 터미널에 입력하여 wget을 설치해 준다. sudo apt install wget 데이터베이스 MySQL 설치 패키지를 다운로드한다. sudo wget https://dev.mysql.com/get/mysql-apt-config_0.8.29-1_all.deb ll 명령어로 mysql-apt-config_0.8.29-1_all.deb 파일을 확인할 수 있다. "dpkg status database is locked by another process" 에러 발생시 다음 명령어로 해결한다. # lock 파일 제거sudo rm /var/lib/apt/lists/locksudo rm.. 2024. 3. 26.
728x90
반응형
LIST