본문 바로가기
728x90
반응형
SMALL

전체 글1523

[Chronobiology] 일주기 시간 유형 (Circadian Chronotype) 일주기 시간 유형 (Circadian Chronotype) 일주기 시스템의 타이밍을 측정하는 데 자주 사용되는 도구는 설문지를 통해 평가하는 일주기 선호도 또는 크로노타입이다. 일주기 시간 유형은 일반적으로 개인이 선호하는 일상 활동 시간 또는 수면 시간에 의해 정의된다. 가장 일반적으로 사용되는 설문지는 아침-저녁형 설문지, 뮌헨 크로노타입 설문지 (MCTQ), 교대 근무자를 위한 뮌헨 크로노타입 설문지 (MCTQShift)이다. 이러한 설문지는 건강한 대조군에서는 일주기 시스템의 다른 측정치 (ex: CBT 및 멜라토닌 수치)와 상당히 잘 일치하지만, 환자 집단에서는 이러한 관계가 명확하지 않다. 이러한 설문지는 일주기 리듬 자체를 측정하지는 않지만, 극단적인 조기 또는 후기 유형을 식별하고 '사회적.. 2024. 1. 16.
[Chronobiology] 수면 평가용 설문지 (Sleep Log / Diary) 수면 평가용 설문지 (Sleep Log / Diary) 개체의 행동을 토대로 일주기 리듬을 간접 적으로 평가할 수도 있다. 어떤 개체는 일찍 취침을 시작하 고 일찍 기상하여 활동을 시작하고, 어떤 개체는 늦게 잠자리에 들고 늦게 일어나 활동을 시작한다. 인간에게 있어서 보통 자신의 활동 시기가 앞당겨져 있는 사람과 반대로 뒤로 밀려져 있는 사람이 있다. 즉, 남들보다 일찍 자고 일찍 일어나는, 일명 ‘아침형 인간’과 남들에 비해 늦게 자고 늦게 일어나는 ‘저녁형 인간’으로 나뉠 수 있다. 아침/저녁형의 개인별 특성, 수면 주기의 지연 혹은 전진이 유전적 요인의 영향을 받는다는 결과들이 보고되고 있다. 이러한 패턴을 평가하기 위한 간단한 방법은 수면 일기를 사용하는 것이다. 취침 시간과 기상 시간 등을 개.. 2024. 1. 16.
임베딩 훈련 (Training Embedding) 임베딩 훈련 (Training Embedding) 레스토랑 리뷰를 긍정 또는 부정에 따라 분류하는 신경망을 만든다. 이 신경망은 여기에 주어진 것과 같은 문자열을 입력으로 받을 수 있다. 이 코드에는 각 리뷰에 대한 긍정 또는 부정 레이블도 포함된다. from numpy import array from tensorflow.keras.preprocessing.text import one_hot from tensorflow.keras.preprocessing.sequence import pad_sequences from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Flatten, Embedding, Dense # .. 2024. 1. 11.
임베딩 전송 (Transferring Embedding) 임베딩 전송 (Transferring Embedding) 이제 간단한 원핫 인코딩을 수행하는 임베딩 룩업을 하드코딩하는 방법을 살펴본다. 원핫 인코딩은 입력된 정수 값 0, 1, 2를 각각 벡터 [1, 0, 0], [0, 1, 0], [0, 0, 1]로 변환한다. 다음 코드는 임베딩 레이어의 무작위 조회 값을 이 원핫 인코딩에서 영감을 얻은 조회 테이블로 대체했다. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Embedding import numpy as np embedding_lookup = np.array([ [1, 0, 0], [0, 1, 0], [0, 0, 1] ]) model = Sequent.. 2024. 1. 11.
Embedding Layers Embedding Layers 임베딩 레이어는 신경망의 데이터 흐름에 추가 정보를 자동으로 삽입할 수 있는 Keras의 편리한 기능이다. 임베딩 레이어를 사용하면 단어 인덱스 대신 n차원 벡터를 자동으로 삽입할 수 있습. 프로그래머는 자연어 처리 (NLP)와 함께 임베딩 레이어를 사용하는 경우가 많지만, 인덱스 값 자리에 더 긴 벡터를 삽입하고 싶을 때도 이 레이어를 사용할 수 있다. 어떤 면에서 임베딩 레이어는 차원 확장이라고 생각할 수 있다. input_dim : 어휘의 크기는 어느 정도인지 얼마나 많은 카테고리를 인코딩하고 있는지에 대한 이 매개변수는 "조회 테이블"의 항목 수 output_dim : 반환하려는 벡터의 숫자 수 input_length : 입력 특징 벡터에 변환해야 하는 항목의 수 이.. 2024. 1. 11.
Training HUGGING FACE models Training HUGGING FACE models 허깅 페이스 모델을 전송하고 훈련하기 위해 허깅 페이스 데이터 세트, 토큰화 도구, 사전 훈련된 모델을 사용한다. 먼저 필요한 경우 허깅 페이스를 설치하다. 허깅 페이스 데이터 세트를 설치하는 것도 필수이다. !pip install transformers !pip install transformers[sentencepiece] !pip install datasets 먼저, 허깅 페이스 허브에서 감정 데이터 세트를 로드한다. 감정 데이터 세트는 분노, 공포, 기쁨, 사랑, 슬픔, 놀라움의 여섯 가지 기본 감정이 포함된 영어 트위터 메시지의 데이터 세트이다. 다음 코드는 Hugging Face 허브에서 감정 데이터 세트를 로드한다. from datasets.. 2024. 1. 11.
Tokenizers Tokenizers 토큰화는 문장을 토큰이라는 조각으로 잘게 자르는 작업이며, 동시에 구두점과 같은 특정 문자를 버릴 수도 있다. Hugging Face에는 이러한 문장을 단어와 하위 단어로 나눌 수 있는 토큰화 도구가 포함되어 있다. 영어와 일부 다른 언어는 공통된 단어 부분으로 구성되어 있기 때문에 하위 단어를 토큰화한다. 예를 들어, "sleeping"과 같은 동명사 단어는 "sleep"과 "##ing"으로 토큰화된다. 먼저, 허깅 페이스 토큰화 도구를 생성한다. 허깅 페이스 허브에서 여러 가지 토큰화 도구를 사용할 수 있다. 이 토큰화 도구는 BERT를 기반으로 하며 대소문자를 구분하지 않는 영어 텍스트를 가정한다. from transformers import AutoTokenizer model .. 2024. 1. 10.
Hugging Face API (2) Question Answering NLP의 또 다른 일반적인 작업은 참조 텍스트에서 질문에 답하는 것이다. 다음 코드를 사용하여 이러한 모델을 로드한다. reader = pipeline("question-answering") question = "What now shall fade?" 이 예에서는 소네트 18번의 '허깅 페이스'에 "무엇이 사라질 것인가"라는 문제를 출제한다. "영원한 여름"이라는 정답이 보인다. outputs = reader(question=question, context=text) pd.DataFrame([outputs]) Language Translation 언어 번역은 NLP와 허깅 페이스의 또 다른 공통 작업이다. !pip install sentencepiece translato.. 2024. 1. 10.
Hugging Face API (1) Hugging Face 트랜스포머는 자연어 처리의 주류가 되었다. 이 모듈에서는 자연어 처리를 위한 사전 학습된 트랜스포머를 결합하여 자연어 처리를 위한 Hugging Face Python 라이브러리의 데이터 세트, 토큰화기 및 기타 요소를 결합할 수 있다. Hugging Face API를 통해 감정 분석, 엔티티 인식, 언어 번역, 요약 및 텍스트 생성을 빠르게 시작할 수 있다. !pip install transformers !pip install transformers [sentencepiece] 감정 분석 감성 분석은 자연어 처리, 텍스트 분석, 컴퓨터 언어학, 생체 인식 기술을 사용하여 작성된 텍스트의 어조를 식별한다. 작성된 텍스트 구절은 긍정 또는 부정의 단순한 이분법 상태로 분류될 수 있다... 2024. 1. 10.
[Spark] 스파크 클러스터 스파크 클러스터 실행 환경은 일반적으로 여러 시스템 (ex: 클러스터)에 분산된다. 실행을 위해 작업을 클러스터에 제출한다. Spark 자체는 Scala / Java로 작성되었다. 그러나 Python 인터페이스를 사용하면 데이터 과학 전문가가 이점을 누릴 수 있다. 배포 유형 자체 호스팅 클러스터 배포 (24시간 풀타임 엔지니어가 필요) 클라우드 솔루션 (ex: Google Cloud의 Cloud Dataproc 및 AWS의 EMR) 공급 업체 기반 배포 (ex: Databricks) 여기서 공급 업체는 GCP, AWS 및 Azure와 같은 IAAS 제공업체 위에 위치한다. 여러 데이터 과학 도구에 쉽게 액세스할 수 있다. Airflow 및 MLflow와 같은 워크플로 관리 도구와 통합된다. PySpar.. 2024. 1. 8.
728x90
반응형
LIST