728x90 반응형 SMALL Hugging Face11 [Speech Recognition] wav2vec2 모델을 이용하여 음성 인식 프로젝트 허깅페이스 로그인 from huggingface_hub import loginlogin(token="hf_") 라이브러리 및 모델 로드 import torchimport librosaimport numpy as npfrom scipy.io import wavfilefrom IPython.display import Audiofrom transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizertokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")# 오디오 파일 로드fi.. 2024. 8. 6. [LLM] PaliGemma Inference PaliGemma PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성 요소를 기반으로 하는 다재다능하고 가벼운 비전 언어 모델 (vision-language model, VLM)이다. 이미지와 텍스트를 모두 입력으로 받고 텍스트를 출력으로 생성하여 여러 언어를 지원한다. 이미지 및 짧은 비디오 캡션, 시각적 질문 답변, 텍스트 읽기, 객체 감지 및 객체 분할과 같은 광범위한 비전 언어 작업에서 동급 최고의 미세 조정 성능을 위해 설계되었다. Transformers PaliGemma 모델의 3B 가중치는 224*224 입력 이미지와 128 토큰 입력/출력 텍스트 시퀀스로 사전 학습되었다. 이 모델은 미세 조정을 위해 float32, bfloa.. 2024. 7. 30. [LLM] Llama 3 모델 Llama 3 Meta는 8 및 70B 크기의 사전 학습 및 instruction 튜닝된 생성 텍스트 모델 모음인 Meta Llama 3 대규모 언어 모델 (LLM) 제품군을 개발하여 출시했다. instruction 튜닝된 Llama 3 모델은 대화 사용 사례에 최적화되어 있으며 일반적인 업계 벤치마크에서 사용 가능한 많은 오픈 소스 채팅 모델보다 성능이 뛰어나다. 입력 모델은 텍스트만 입력하고, 출력 모델은 텍스트와 코드만 생성한다. Llama 3는 최적화된 트랜스포머 아키텍처를 사용하는 자동 회귀 언어 모델이다. 튜닝된 버전은 감독 미세 조정 (supervised fine-tuning, SFT)과 인간 피드백을 통한 강화 학습 (reinforcement learning with human feedba.. 2024. 7. 29. 임베딩 훈련 (Training Embedding) 임베딩 훈련 (Training Embedding) 레스토랑 리뷰를 긍정 또는 부정에 따라 분류하는 신경망을 만든다. 이 신경망은 여기에 주어진 것과 같은 문자열을 입력으로 받을 수 있다. 이 코드에는 각 리뷰에 대한 긍정 또는 부정 레이블도 포함된다. from numpy import array from tensorflow.keras.preprocessing.text import one_hot from tensorflow.keras.preprocessing.sequence import pad_sequences from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Flatten, Embedding, Dense # .. 2024. 1. 11. 임베딩 전송 (Transferring Embedding) 임베딩 전송 (Transferring Embedding) 이제 간단한 원핫 인코딩을 수행하는 임베딩 룩업을 하드코딩하는 방법을 살펴본다. 원핫 인코딩은 입력된 정수 값 0, 1, 2를 각각 벡터 [1, 0, 0], [0, 1, 0], [0, 0, 1]로 변환한다. 다음 코드는 임베딩 레이어의 무작위 조회 값을 이 원핫 인코딩에서 영감을 얻은 조회 테이블로 대체했다. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Embedding import numpy as np embedding_lookup = np.array([ [1, 0, 0], [0, 1, 0], [0, 0, 1] ]) model = Sequent.. 2024. 1. 11. Embedding Layers Embedding Layers 임베딩 레이어는 신경망의 데이터 흐름에 추가 정보를 자동으로 삽입할 수 있는 Keras의 편리한 기능이다. 임베딩 레이어를 사용하면 단어 인덱스 대신 n차원 벡터를 자동으로 삽입할 수 있습. 프로그래머는 자연어 처리 (NLP)와 함께 임베딩 레이어를 사용하는 경우가 많지만, 인덱스 값 자리에 더 긴 벡터를 삽입하고 싶을 때도 이 레이어를 사용할 수 있다. 어떤 면에서 임베딩 레이어는 차원 확장이라고 생각할 수 있다. input_dim : 어휘의 크기는 어느 정도인지 얼마나 많은 카테고리를 인코딩하고 있는지에 대한 이 매개변수는 "조회 테이블"의 항목 수 output_dim : 반환하려는 벡터의 숫자 수 input_length : 입력 특징 벡터에 변환해야 하는 항목의 수 이.. 2024. 1. 11. Training HUGGING FACE models Training HUGGING FACE models 허깅 페이스 모델을 전송하고 훈련하기 위해 허깅 페이스 데이터 세트, 토큰화 도구, 사전 훈련된 모델을 사용한다. 먼저 필요한 경우 허깅 페이스를 설치하다. 허깅 페이스 데이터 세트를 설치하는 것도 필수이다. !pip install transformers !pip install transformers[sentencepiece] !pip install datasets 먼저, 허깅 페이스 허브에서 감정 데이터 세트를 로드한다. 감정 데이터 세트는 분노, 공포, 기쁨, 사랑, 슬픔, 놀라움의 여섯 가지 기본 감정이 포함된 영어 트위터 메시지의 데이터 세트이다. 다음 코드는 Hugging Face 허브에서 감정 데이터 세트를 로드한다. from datasets.. 2024. 1. 11. Tokenizers Tokenizers 토큰화는 문장을 토큰이라는 조각으로 잘게 자르는 작업이며, 동시에 구두점과 같은 특정 문자를 버릴 수도 있다. Hugging Face에는 이러한 문장을 단어와 하위 단어로 나눌 수 있는 토큰화 도구가 포함되어 있다. 영어와 일부 다른 언어는 공통된 단어 부분으로 구성되어 있기 때문에 하위 단어를 토큰화한다. 예를 들어, "sleeping"과 같은 동명사 단어는 "sleep"과 "##ing"으로 토큰화된다. 먼저, 허깅 페이스 토큰화 도구를 생성한다. 허깅 페이스 허브에서 여러 가지 토큰화 도구를 사용할 수 있다. 이 토큰화 도구는 BERT를 기반으로 하며 대소문자를 구분하지 않는 영어 텍스트를 가정한다. from transformers import AutoTokenizer model .. 2024. 1. 10. Hugging Face API (2) Question Answering NLP의 또 다른 일반적인 작업은 참조 텍스트에서 질문에 답하는 것이다. 다음 코드를 사용하여 이러한 모델을 로드한다. reader = pipeline("question-answering") question = "What now shall fade?" 이 예에서는 소네트 18번의 '허깅 페이스'에 "무엇이 사라질 것인가"라는 문제를 출제한다. "영원한 여름"이라는 정답이 보인다. outputs = reader(question=question, context=text) pd.DataFrame([outputs]) Language Translation 언어 번역은 NLP와 허깅 페이스의 또 다른 공통 작업이다. !pip install sentencepiece translato.. 2024. 1. 10. Hugging Face API (1) Hugging Face 트랜스포머는 자연어 처리의 주류가 되었다. 이 모듈에서는 자연어 처리를 위한 사전 학습된 트랜스포머를 결합하여 자연어 처리를 위한 Hugging Face Python 라이브러리의 데이터 세트, 토큰화기 및 기타 요소를 결합할 수 있다. Hugging Face API를 통해 감정 분석, 엔티티 인식, 언어 번역, 요약 및 텍스트 생성을 빠르게 시작할 수 있다. !pip install transformers !pip install transformers [sentencepiece] 감정 분석 감성 분석은 자연어 처리, 텍스트 분석, 컴퓨터 언어학, 생체 인식 기술을 사용하여 작성된 텍스트의 어조를 식별한다. 작성된 텍스트 구절은 긍정 또는 부정의 단순한 이분법 상태로 분류될 수 있다... 2024. 1. 10. 이전 1 2 다음 728x90 반응형 LIST