시각 지능 (Visual Intelligence)
시각지능 분야는 이미지 또는 영상 데이터를 인식하여 상황을 판단하거나 데이터를 가공하여 새로운 이미지 또는 영상을 생성하는 기술 분야이다.
시각지능의 상호작용 기술로는 영상/이미지 검색이 있다. 첩보 영화에서 자주 등장하는 범죄자 얼굴 검색을 한 가지 예로 생각할 수 있다. 물론 아직 기술적 수준이 매체에서 비춰지는 수준까지는 이르지 못한다. 그러나 이제는 일상적인 스마트폰의 지문, 홍채, 안면 인식부터 공항, 공연장 등 공공시설에서의 범죄자 식별 등 다양한 부문에서 활용되고 있으며 기술 수준이 높아지고 있다.
학습
시각지능에서 학습의 목표는 입력된 이미지 데이터에서 객체를 인식하는 것에 있다. 먼저 전체 이미지에서 배경과 구분되는 객체 영역을 식별한 후 분리된 객체 영역의 특징을 분석하여 객체를 인식한다. 이 과정에서 다량의 이미지 데이터를 학습할 필요가 있으며 지도 또는 비지도 학습의 방식이 모두 활용된다.
대표적인 알고리즘으로는 이단계 방식 (Two-Stage Methods)인 Faster R-CNN (Convolution Neural Network), R_FCN (Fully Convolution Network) 등의 알고리즘과 단일 단계 방식 (Single-Stage Methods)인 YOLO (You Only Look Once), RetinaNet 등이 있다.
추론
인식된 객체를 기반으로 이미지가 나타내고 있는 상황을 판단한다. 최근 한국전자통신연구원 (ETRI)에서는 CCTV 영상에 나타난 보행자의 관절 움직임, 쓰레기 봉투의 위치 등을 분석하여 쓰레기를 무단 투기하는 보행자를 식별하고 경고 메시지를 송출하는 기술하는 등 시각 인식을 기반으로 하는 상황 추론을 실생활에 적용하고 있다.
수행
상황 판단에 근거하여 실제적으로 영상 및 이미지를 조작하는 기술이 주를 이룬다. 대표적인 예로는 이미지 합성, 이미지 변환, 영상 편집 등의 기술이 있다. 이미지 합성 기술은 이미지에서 객체를 인식하고 해당 객체의 구조에 맞는 이미지를 합성하는 방식으로 이루어진다.
스마트폰 카메라를 활용한 이미지 보정 기능부터 시작해서 최근 사회 문제로 대두되고 있는 딥페이크 등의 이미지 합성이 있다. 이미지 변환의 경우 훼손되거나 해상도가 낮은 이미지를 고해상도 이미지로 변환하거나 복원하는 등에 활용되고 있으며, 영상 편집의 경우 촬영된 영상의 중요 부분을 AI가 자동으로 추출하여 하이라이트로 제공하는 등에 활용되고 있다. 대표적인 예로는 윔블던 테니스 대회에서 IBM의 왓슨을 활용하여 주요 선수들의 표정과 움직임 등을 토대로 하이라이트를 편집하여 제공한 사례가 있다.
https://www.2e.co.kr/news/articleView.html?idxno=300957
AI, 현재와 미래 - 1부. 인공지능 기술은 어떻게 분류되는가? - 투이컨설팅
인공지능의 상업화 현황인공지능 기업인 딥마인드는 세계적인 바둑기사들을 연이어 격퇴하며 유명세를 탄 ‘알파고(AlphaGo)’를 개발하여 주목을 받았다. 그 후 바둑, 스타크래프트 등 다양한
www.2e.co.kr
'Visual Intelligence > Image Deep Learning' 카테고리의 다른 글
[시각 지능] CNN (Convolutional Neural Network) (0) | 2022.08.06 |
---|---|
[시각 지능] 컨벌루션 (Convolution) (0) | 2022.07.31 |
[시각 지능] Fashion MNIST (0) | 2022.07.31 |
[시각 지능] MNIST (0) | 2022.07.30 |
[시각 지능] 컴퓨터 비전 (Computer Vision) (0) | 2022.07.30 |