본문 바로가기

728x90

SMALL

시퀀스3

Tokenizers Tokenizers 토큰화는 문장을 토큰이라는 조각으로 잘게 자르는 작업이며, 동시에 구두점과 같은 특정 문자를 버릴 수도 있다. Hugging Face에는 이러한 문장을 단어와 하위 단어로 나눌 수 있는 토큰화 도구가 포함되어 있다. 영어와 일부 다른 언어는 공통된 단어 부분으로 구성되어 있기 때문에 하위 단어를 토큰화한다. 예를 들어, "sleeping"과 같은 동명사 단어는 "sleep"과 "##ing"으로 토큰화된다. 먼저, 허깅 페이스 토큰화 도구를 생성한다. 허깅 페이스 허브에서 여러 가지 토큰화 도구를 사용할 수 있다. 이 토큰화 도구는 BERT를 기반으로 하며 대소문자를 구분하지 않는 영어 텍스트를 가정한다. from transformers import AutoTokenizer model .. 2024. 1. 10.

[Keras] Sequential 모델 Sequential 모델 # Keras expects this data format (n_samples, height, width, channels) sequential model은 layer를 선형으로 연결하여 구성한다. layer 인스턴스를 생성자에게 넘겨줌으로써 sequential model을 구성할 수 있다. from keras.models import Sequential from keras.layers import Dense, Activation model = Sequential([ Dense(32, input_shape=(784,)), Activation('relu'), Dense(10), Activation('softmax'), ]) 다른 방법으로 .add() 메소드를 통해서 쉽게 layer.. 2021. 12. 20.

03. 자료형을 이용한 자료관리 Sequence python에는 세 가지 시퀀스 (sequence) 자료형이 있다. 각각의 요소들이 연속적으로 이어진 string, tuple, list의 문자열 수치 관리하는 기본 자료형 문자열 (string) : 'Hello'. 문자열(string)은 문자(character)들의 sequence 리스트 (list) : 자료 수정이 자유로움. [1, 4, 5] 튜플 (tuple) : 숫자와 문자를 함께 관리. ('Good', 10, 49.2) 슬라이싱 (Slicing) sequence의 일부(subsequence)를 취하는 것을 슬라이싱이라 한다. s[start:end] 구문을 사용한다. start와 end는 얻고자 하는 subsequence의 인덱스다. a = [0,1,2,3,4,5,6,7,8,9] .. 2021. 12. 8.

이전 1 다음

728x90

LIST

티스토리툴바