본문 바로가기
728x90
반응형
SMALL

Linguistic Intelligence38

ChatGPT ChatGPT 대화를 위한 언어 최적화 모델이다. 대화 방식으로 상호 작용하는 ChatGPT라는 모델을 훈련했다. 대화 형식을 통해 ChatGPT는 후속 질문에 답하고, 실수를 인정하고, 잘못된 전제에 이의를 제기하고, 부적절한 요청을 거부할 수 있다. ChatGPT는 프롬프트의 지시를 따르고 자세한 응답을 제공하도록 훈련된 InstructGPT의 형제 모델이다 . https://chat.openai.com/chat 2022. 12. 11.
[언어 지능] 음성 인식 (Acoustic Recognition) 음성 인식 (Acoustic Recognition) 음성 인식은 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말한다. STT (Speech-to-Text)라고도 한다. 키보드 대신 문자를 입력하는 방식으로 주목을 받고 있다. 일반적으로 마이크나 전화를 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 과정을 말한다. 인식된 결과는 명령이나 제어, 데이터 입력, 문서 준비 등의 응용 분야에서 최종 결과로 사용될 수 있으며, 음성이해와 같은 분야에는 언어 처리과정의 입력으로 사용될 수 있다. 음성 인식 시스템은 여러 가지 항목들에 의하여 특징 지워질 수 있다. 먼저 고립 단어 인식 (isolated word recognition) 은 단어간의 경계.. 2022. 8. 27.
언어 지능 (Linguistic Intelligence) 언어 지능 (Linguistic Intelligence) 언어 지능은 단어로 구성된 개념을 사용하여 이해하고 추론하는 능력이다. 보다 광범위하게는 문제 해결, 추상적 추론, 및 작업 기억과 연결된다. 언어 지능은 가장 g -loaded한 능력 중 하나이다. 언어 지능을 이해하려면 말과 언어를 제어 하는 ​​메커니즘을 이해하는 것이 중요하다. 이러한 메커니즘은 음성 생성 (말하기), 음성 이해 (듣기), 쓰기 생성 (쓰기) 및 쓰기 이해 (읽기)의 네 가지 주요 그룹으로 나눌 수 있다. 실용적인 의미에서 언어 지능은 개인이 목표를 달성하기 위해 서면 및 구두 언어 를 모두 사용할 수 있는 정도이다. 언어 지능은 하워드 가드너 (Howard Gardner)의 다중 지능 이론의 일부로, 구어와 문어를 모두 이.. 2022. 8. 27.
[NLP] No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly. 오라클 JDK 다운로드 사이트에서 본인 os에 맞는 jdk를 설치한다. 그 다음 _jvmfinder.py 파일을 찾는다. _get_from_java_home의 def 부분의 java_home 변수를 수정한다. java_home = "jdk 설치 경로" 2022. 4. 22.
[NLP] 정제 (Cleaning) / 정규화 (Normalization) corpus에서 용도에 맞게 token을 분류하는 작업을 tokenization라고 하며, tokenization 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제 (cleaning) 및 정규화(normalization)하는 일이 항상 함께 한다. 정제 (Cleaning) 갖고 있는 corpus로부터 noise 데이터를 제거한다. 정규화 (normalization) 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. cleaning 작업은 tokenization 작업에 방해가 되는 부분들을 배제시키고 tokenization 작업을 수행하기 위해서 tokenization 작업보다 앞서 이루어지기도 하지만, tokenization 작업 이후에도 여전히 남아있는 noise들을 제거하기 위해 지속적.. 2021. 12. 14.
[NLP] 토큰화 (Tokenization) 텍스트 전처리(Text preprocessing) 용도에 맞게 텍스트를 사전에 처리하는 작업 토큰화 (Tokenization) NLP에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화 (tokenization) & 정제 (cleaning) & 정규화 (normalization)하는 일을 하게 된다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부른다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다. 단어 토큰화 (Word Tokenization) token의 기준을 단어 (word)로 하는 경우, 단어 토큰화 (word tok.. 2021. 12. 14.
[NLP] 설명가능한 인공지능 (Explainable AI, XAI) 설명가능한 인공지능 (XAI) 언어 데이터를 대상으로 한 딥러닝 알고리즘의 예측결과에 대해 인간에게 설명할 수 있는 AI모델 딥러닝의 한계 : 'black box' algorithm, 예측결과가 그렇게 나왔는지 설명 불가능 ML은 기계가 인간 사용자에게 자신의 결정과 조치를 설명할 수 없다는 점에서 제한된다. 따라서 보다 지능적이고 자율적이며 공생적인 시스템을 요구하는 과제에 직면해 있다. 차세대 인공 지능 기계 파트너를 이해하고 적절하게 신뢰하고 효과적으로 관리하려면 설명 가능한 AI, 특히 설명 가능한 기계 학습이 필수적이다. ◦ 높은 수준의 학습 성능(예측 정확도)을 유지하면서 더 설명 가능한 모델 생성 ◦ 인간 사용자가 차세대 인공 지능 파트너를 이해하고 적절하게 신뢰하며 효과적으로 관리할 수 있.. 2021. 12. 14.
NLP (Natural Language Processing)란? NLP (Natural Language Processing) 자연어(natural language)란 우리가 일상 생활에서 사용하는 언어를 말한다. 자연어 처리 (natural language processing)란 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말한다. 인공지능과 전산언어학이 접목된 분야로서, 컴퓨터가 인간의 언어로 쓰여진 데이터를 이해하고 정보를 추출하여 처리하는 분야이다. NLP는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되는 분야이다. AI가 IT 분야에서 중요 키워드로 떠오르고 있다. NLP는 기계에게 인간의 언어를 이해시킨다는 점에서 인.. 2021. 12. 13.
728x90
반응형
LIST