본문 바로가기
728x90
반응형
SMALL

nlp12

조기 중지의 이점 Benefits of Early Stopping 손실은 신경망이 오답에 대해 어느 정도 확신을 가졌는지를 측정한다. 정확도는 신경망의 신뢰도와 관계없이 올바른 분류의 비율이다. import matplotlib.pyplot as plt history_dict = history.history acc = history_dict['accuracy'] val_acc = history_dict['val_accuracy'] loss = history_dict['loss'] val_loss = history_dict['val_loss'] epochs = range(1, len(acc) + 1) plt.plot(epochs, loss, 'bo', label='Training loss') plt.plot(epochs, v.. 2024. 2. 13.
임베딩 훈련 (Training Embedding) 임베딩 훈련 (Training Embedding) 레스토랑 리뷰를 긍정 또는 부정에 따라 분류하는 신경망을 만든다. 이 신경망은 여기에 주어진 것과 같은 문자열을 입력으로 받을 수 있다. 이 코드에는 각 리뷰에 대한 긍정 또는 부정 레이블도 포함된다. from numpy import array from tensorflow.keras.preprocessing.text import one_hot from tensorflow.keras.preprocessing.sequence import pad_sequences from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Flatten, Embedding, Dense # .. 2024. 1. 11.
임베딩 전송 (Transferring Embedding) 임베딩 전송 (Transferring Embedding) 이제 간단한 원핫 인코딩을 수행하는 임베딩 룩업을 하드코딩하는 방법을 살펴본다. 원핫 인코딩은 입력된 정수 값 0, 1, 2를 각각 벡터 [1, 0, 0], [0, 1, 0], [0, 0, 1]로 변환한다. 다음 코드는 임베딩 레이어의 무작위 조회 값을 이 원핫 인코딩에서 영감을 얻은 조회 테이블로 대체했다. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Embedding import numpy as np embedding_lookup = np.array([ [1, 0, 0], [0, 1, 0], [0, 0, 1] ]) model = Sequent.. 2024. 1. 11.
Embedding Layers Embedding Layers 임베딩 레이어는 신경망의 데이터 흐름에 추가 정보를 자동으로 삽입할 수 있는 Keras의 편리한 기능이다. 임베딩 레이어를 사용하면 단어 인덱스 대신 n차원 벡터를 자동으로 삽입할 수 있습. 프로그래머는 자연어 처리 (NLP)와 함께 임베딩 레이어를 사용하는 경우가 많지만, 인덱스 값 자리에 더 긴 벡터를 삽입하고 싶을 때도 이 레이어를 사용할 수 있다. 어떤 면에서 임베딩 레이어는 차원 확장이라고 생각할 수 있다. input_dim : 어휘의 크기는 어느 정도인지 얼마나 많은 카테고리를 인코딩하고 있는지에 대한 이 매개변수는 "조회 테이블"의 항목 수 output_dim : 반환하려는 벡터의 숫자 수 input_length : 입력 특징 벡터에 변환해야 하는 항목의 수 이.. 2024. 1. 11.
Training HUGGING FACE models Training HUGGING FACE models 허깅 페이스 모델을 전송하고 훈련하기 위해 허깅 페이스 데이터 세트, 토큰화 도구, 사전 훈련된 모델을 사용한다. 먼저 필요한 경우 허깅 페이스를 설치하다. 허깅 페이스 데이터 세트를 설치하는 것도 필수이다. !pip install transformers !pip install transformers[sentencepiece] !pip install datasets 먼저, 허깅 페이스 허브에서 감정 데이터 세트를 로드한다. 감정 데이터 세트는 분노, 공포, 기쁨, 사랑, 슬픔, 놀라움의 여섯 가지 기본 감정이 포함된 영어 트위터 메시지의 데이터 세트이다. 다음 코드는 Hugging Face 허브에서 감정 데이터 세트를 로드한다. from datasets.. 2024. 1. 11.
허깅페이스 (Hugging Face) 허깅페이스 (Hugging Face)  기계 학습을 사용하여 애플리케이션을 구축하기 위한 도구를 개발하는 미국 회사이다. 자연어 처리 애플리케이션용으로 구축된 변환기 라이브러리와 사용자가 기계 학습 모델 및 데이터 세트를 공유할 수 있는 플랫폼으로 가장 유명하다. https://huggingface.co/ Hugging Face – The AI community building the future.The AI community building the future. Build, train and deploy state of the art models powered by the reference open source in machine learning.huggingface.co 2023. 5. 9.
자연어 처리 (NLP) 자연어 처리 (NLP) 자연어 처리 (⾃然語處理) 또는 자연 언어 처리 (⾃然⾔語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 정보 검색, QA 시스템, 문서 자동 분류, 신문 기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어지고 있다. 전통적인 프로그래밍 언어 자연어 처리 기계 (혹은 컴퓨터)를 실행하기 위해서 기계가 이해할 수 있는 프로그래밍 언어로 명령을 내리고 그 결과를 사용자에게 전달 인간의 언어 (자연 언어)로 명령을 내리면 기계가 자연어 처리 (NLP)를통해 이해하여 처리하고그 결과를 사용자에게 전달 비정형 데이터 인터넷과 모바일의 발달로 온라인 매체에 대한 데이터가 급격하게 증가 전 세계에서 .. 2023. 1. 5.
[NLP] No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly. 오라클 JDK 다운로드 사이트에서 본인 os에 맞는 jdk를 설치한다. 그 다음 _jvmfinder.py 파일을 찾는다. _get_from_java_home의 def 부분의 java_home 변수를 수정한다. java_home = "jdk 설치 경로" 2022. 4. 22.
[NLP] 정제 (Cleaning) / 정규화 (Normalization) corpus에서 용도에 맞게 token을 분류하는 작업을 tokenization라고 하며, tokenization 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제 (cleaning) 및 정규화(normalization)하는 일이 항상 함께 한다. 정제 (Cleaning) 갖고 있는 corpus로부터 noise 데이터를 제거한다. 정규화 (normalization) 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. cleaning 작업은 tokenization 작업에 방해가 되는 부분들을 배제시키고 tokenization 작업을 수행하기 위해서 tokenization 작업보다 앞서 이루어지기도 하지만, tokenization 작업 이후에도 여전히 남아있는 noise들을 제거하기 위해 지속적.. 2021. 12. 14.
[NLP] 토큰화 (Tokenization) 텍스트 전처리(Text preprocessing) 용도에 맞게 텍스트를 사전에 처리하는 작업 토큰화 (Tokenization) NLP에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화 (tokenization) & 정제 (cleaning) & 정규화 (normalization)하는 일을 하게 된다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부른다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다. 단어 토큰화 (Word Tokenization) token의 기준을 단어 (word)로 하는 경우, 단어 토큰화 (word tok.. 2021. 12. 14.
728x90
반응형
LIST