본문 바로가기
728x90
반응형
SMALL

DNN with Keras/NLP with Hugging Face7

임베딩 훈련 (Training Embedding) 임베딩 훈련 (Training Embedding) 레스토랑 리뷰를 긍정 또는 부정에 따라 분류하는 신경망을 만든다. 이 신경망은 여기에 주어진 것과 같은 문자열을 입력으로 받을 수 있다. 이 코드에는 각 리뷰에 대한 긍정 또는 부정 레이블도 포함된다. from numpy import array from tensorflow.keras.preprocessing.text import one_hot from tensorflow.keras.preprocessing.sequence import pad_sequences from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Flatten, Embedding, Dense # .. 2024. 1. 11.
임베딩 전송 (Transferring Embedding) 임베딩 전송 (Transferring Embedding) 이제 간단한 원핫 인코딩을 수행하는 임베딩 룩업을 하드코딩하는 방법을 살펴본다. 원핫 인코딩은 입력된 정수 값 0, 1, 2를 각각 벡터 [1, 0, 0], [0, 1, 0], [0, 0, 1]로 변환한다. 다음 코드는 임베딩 레이어의 무작위 조회 값을 이 원핫 인코딩에서 영감을 얻은 조회 테이블로 대체했다. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Embedding import numpy as np embedding_lookup = np.array([ [1, 0, 0], [0, 1, 0], [0, 0, 1] ]) model = Sequent.. 2024. 1. 11.
Embedding Layers Embedding Layers 임베딩 레이어는 신경망의 데이터 흐름에 추가 정보를 자동으로 삽입할 수 있는 Keras의 편리한 기능이다. 임베딩 레이어를 사용하면 단어 인덱스 대신 n차원 벡터를 자동으로 삽입할 수 있습. 프로그래머는 자연어 처리 (NLP)와 함께 임베딩 레이어를 사용하는 경우가 많지만, 인덱스 값 자리에 더 긴 벡터를 삽입하고 싶을 때도 이 레이어를 사용할 수 있다. 어떤 면에서 임베딩 레이어는 차원 확장이라고 생각할 수 있다. input_dim : 어휘의 크기는 어느 정도인지 얼마나 많은 카테고리를 인코딩하고 있는지에 대한 이 매개변수는 "조회 테이블"의 항목 수 output_dim : 반환하려는 벡터의 숫자 수 input_length : 입력 특징 벡터에 변환해야 하는 항목의 수 이.. 2024. 1. 11.
Training HUGGING FACE models Training HUGGING FACE models 허깅 페이스 모델을 전송하고 훈련하기 위해 허깅 페이스 데이터 세트, 토큰화 도구, 사전 훈련된 모델을 사용한다. 먼저 필요한 경우 허깅 페이스를 설치하다. 허깅 페이스 데이터 세트를 설치하는 것도 필수이다. !pip install transformers !pip install transformers[sentencepiece] !pip install datasets 먼저, 허깅 페이스 허브에서 감정 데이터 세트를 로드한다. 감정 데이터 세트는 분노, 공포, 기쁨, 사랑, 슬픔, 놀라움의 여섯 가지 기본 감정이 포함된 영어 트위터 메시지의 데이터 세트이다. 다음 코드는 Hugging Face 허브에서 감정 데이터 세트를 로드한다. from datasets.. 2024. 1. 11.
Tokenizers Tokenizers 토큰화는 문장을 토큰이라는 조각으로 잘게 자르는 작업이며, 동시에 구두점과 같은 특정 문자를 버릴 수도 있다. Hugging Face에는 이러한 문장을 단어와 하위 단어로 나눌 수 있는 토큰화 도구가 포함되어 있다. 영어와 일부 다른 언어는 공통된 단어 부분으로 구성되어 있기 때문에 하위 단어를 토큰화한다. 예를 들어, "sleeping"과 같은 동명사 단어는 "sleep"과 "##ing"으로 토큰화된다. 먼저, 허깅 페이스 토큰화 도구를 생성한다. 허깅 페이스 허브에서 여러 가지 토큰화 도구를 사용할 수 있다. 이 토큰화 도구는 BERT를 기반으로 하며 대소문자를 구분하지 않는 영어 텍스트를 가정한다. from transformers import AutoTokenizer model .. 2024. 1. 10.
Hugging Face API (2) Question Answering NLP의 또 다른 일반적인 작업은 참조 텍스트에서 질문에 답하는 것이다. 다음 코드를 사용하여 이러한 모델을 로드한다. reader = pipeline("question-answering") question = "What now shall fade?" 이 예에서는 소네트 18번의 '허깅 페이스'에 "무엇이 사라질 것인가"라는 문제를 출제한다. "영원한 여름"이라는 정답이 보인다. outputs = reader(question=question, context=text) pd.DataFrame([outputs]) Language Translation 언어 번역은 NLP와 허깅 페이스의 또 다른 공통 작업이다. !pip install sentencepiece translato.. 2024. 1. 10.
Hugging Face API (1) Hugging Face 트랜스포머는 자연어 처리의 주류가 되었다. 이 모듈에서는 자연어 처리를 위한 사전 학습된 트랜스포머를 결합하여 자연어 처리를 위한 Hugging Face Python 라이브러리의 데이터 세트, 토큰화기 및 기타 요소를 결합할 수 있다. Hugging Face API를 통해 감정 분석, 엔티티 인식, 언어 번역, 요약 및 텍스트 생성을 빠르게 시작할 수 있다. !pip install transformers !pip install transformers [sentencepiece] 감정 분석 감성 분석은 자연어 처리, 텍스트 분석, 컴퓨터 언어학, 생체 인식 기술을 사용하여 작성된 텍스트의 어조를 식별한다. 작성된 텍스트 구절은 긍정 또는 부정의 단순한 이분법 상태로 분류될 수 있다... 2024. 1. 10.
728x90
반응형
LIST