본문 바로가기

728x90

SMALL

트랜스포머6

[Deep Learning] FNet: Mixing Tokens with Fourier Transforms FNet 트랜스포머의 self-attention은 CNN 또는 RNN 대비 장기 의존성 (long-term dependency)를 해결한다. 하지만 연산 complexity가 O(N²)으로 N이 길어질수록 bottlenect으로 작용한다. FNet은 푸리에 변환 (fourier transform)을 통해 self-attention 대신 token 간의 정보를 학습하는 mixing mechanism으로 simple linear transformation 연산만 문장 내의 다양한 의미 관계를 모델링할 수 있다. 또한, 속도 메모리, 정확도 측면에서 효율성을 보인다. 그리고 FNet hybrid model은 단 두 개의 self-attention sublayer만을 사용하여 BERT에 준하는 성능을 보였다... 2024. 8. 8.

[Deep Learning] 인코더 디코더 모델 인코더 모델 (Encoder Models) 인코더 모델 (encoder models)은 Transformers 모델의 인코더 모듈만 사용한다. 각 단계에서 어텐션 계층 (attention layer)은 초기/원본 입력 문장 (initial sentence)의 모든 단어에 액세스할 수 있다. 이러한 모델은 종종 양방향 (bi-directional) 주의 집중 (attention)을 수행하는 것이 특징이며, auto-encoding model 이라고 부르기도 한다. 이러한 모델의 사전 학습 (pre-training) 과정에서 일반적으로 주어진 초기 문장을 다양한 방법을 사용하여 손상시키고 (ex: 임의의 단어를 masking), 손상시킨 문장을 다시 원래 문장으로 복원하는 과정을 통해서 모델 학습이 진행된.. 2024. 8. 7.

[Speech Recognition] wav2vec2 wav2vec2 wav2vec2 모델은 음성 표현의 자기 지도 학습 (Self-Supervised Learning)을 위한 프레임워크이며, 16kHz 샘플링 음성 오디오에서 대규모 음성 녹음 자료인 960시간의 Librispeech를 통해 사전 훈련되고 미세 조정되었다. 그런 다음, 음성 인식을 위해 감독되는 방식으로 신속하게 미세 조정되거나 다른 어플리케이션을 위한 상위 수준 기능 및 의사 음소 추출기 역할을 할 수 있다. 이 모델은 음성 오디오만으로 강력한 표현을 학습한 후 전사된 (transcribed) 음성을 미세 조정하는 것이 개념적으로 더 간단하면서도 최상의 준지도 (semi-supervised) 방법보다 성능이 뛰어날 수 있음을 처음으로 보여준다. wav2vec2 잠재 공간 (latent .. 2024. 8. 6.

[LLM] PaliGemma Inference PaliGemma PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성 요소를 기반으로 하는 다재다능하고 가벼운 비전 언어 모델 (vision-language model, VLM)이다. 이미지와 텍스트를 모두 입력으로 받고 텍스트를 출력으로 생성하여 여러 언어를 지원한다. 이미지 및 짧은 비디오 캡션, 시각적 질문 답변, 텍스트 읽기, 객체 감지 및 객체 분할과 같은 광범위한 비전 언어 작업에서 동급 최고의 미세 조정 성능을 위해 설계되었다. Transformers PaliGemma 모델의 3B 가중치는 224*224 입력 이미지와 128 토큰 입력/출력 텍스트 시퀀스로 사전 학습되었다. 이 모델은 미세 조정을 위해 float32, bfloa.. 2024. 7. 30.

Hugging Face API (1) Hugging Face 트랜스포머는 자연어 처리의 주류가 되었다. 이 모듈에서는 자연어 처리를 위한 사전 학습된 트랜스포머를 결합하여 자연어 처리를 위한 Hugging Face Python 라이브러리의 데이터 세트, 토큰화기 및 기타 요소를 결합할 수 있다. Hugging Face API를 통해 감정 분석, 엔티티 인식, 언어 번역, 요약 및 텍스트 생성을 빠르게 시작할 수 있다. !pip install transformers !pip install transformers [sentencepiece] 감정 분석 감성 분석은 자연어 처리, 텍스트 분석, 컴퓨터 언어학, 생체 인식 기술을 사용하여 작성된 텍스트의 어조를 식별한다. 작성된 텍스트 구절은 긍정 또는 부정의 단순한 이분법 상태로 분류될 수 있다... 2024. 1. 10.

[Deep Learning] 트랜스포머 (Transformer) 트랜스포머 (Transformer) 트랜스포머 (Transformer)는 2017년 구글이 발표한 논문인 "Attention is all you need"에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션 (Attention)만으로 구현한 모델이다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서도 RNN보다 우수한 성능을 보여주었다. 트랜스포머의 가장 큰 특징은 Convolution, Recurrence를 사용하지 않는다. seq2seq 모델의 한계 기존의 seq2seq 모델은 인코더-디코더 구조로 구성되어져 있다. 여기서 인코더는 입력 시퀀스를 하나의 벡터 표현으로 압축하고, 디코더는 이 벡터 표현을 통해서 출력 시.. 2023. 12. 28.

이전 1 다음

728x90

LIST

티스토리툴바