728x90 반응형 SMALL 파인튜닝2 [LLM] PaliGemma Inference PaliGemma PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성 요소를 기반으로 하는 다재다능하고 가벼운 비전 언어 모델 (vision-language model, VLM)이다. 이미지와 텍스트를 모두 입력으로 받고 텍스트를 출력으로 생성하여 여러 언어를 지원한다. 이미지 및 짧은 비디오 캡션, 시각적 질문 답변, 텍스트 읽기, 객체 감지 및 객체 분할과 같은 광범위한 비전 언어 작업에서 동급 최고의 미세 조정 성능을 위해 설계되었다. Transformers PaliGemma 모델의 3B 가중치는 224*224 입력 이미지와 128 토큰 입력/출력 텍스트 시퀀스로 사전 학습되었다. 이 모델은 미세 조정을 위해 float32, bfloa.. 2024. 7. 30. [LLM] Instruction Tuning In-context learning (Prompt learning) In-context learning 또는 prompt learning은 말 그대로 prompt 내의 맥락적인 의미 (in-context)를 모델이 알아차리고 (learning), 이런 형식에 맞도록 출력을 생성하는 것을 의미한다. 쉽게 말하면, 모델을 업데이트 하지 않고 질문을 잘 만들어서 우리가 원하는 출력을 만드는 접근법이다. Zero-shot learning예시 없이 task를 수행One-shot learning하나의 예시를 주고 task를 수행하는 경우Few-shot learning몇 개의 예시를 주고 task를 수행 Instruction Tuning Instruction Tuning은 In-Context learning과 파인.. 2023. 6. 15. 이전 1 다음 728x90 반응형 LIST