본문 바로가기
Data-driven Methodology/DS (Data Science)

데이터 사이언스 (Data Science)

by goatlab 2021. 12. 21.
728x90
반응형
SMALL

데이터 사이언스 (Data Science)

 

 

data science는 통계, 과학적 방법, AI 및 데이터 분석을 포함한 여러 분야를 결합하여 데이터에서 가치를 추출한다. data science를 실천하는 사람들을 data scientist라고 하며, 그들은 다양한 기술을 결합해 웹, 스마트폰, 고객, 센서 및 기타 소스에서 수집된 데이터를 분석하고 실행 가능한 통찰력 (insight)을 도출한다. data science에는 고급 데이터 분석을 수행하기 위한 데이터 정리, 집계 및 조작을 포함하여 분석을 위한 데이터 준비가 포함된다. 그런 다음 분석 애플리케이션과 data scientist가 결과를 검토하여 패턴을 발견하면 정보에 입각한 insight를 얻을 수 있다.

 

Data Science, AI 및 ML의 차이점

 

◦ AI는 컴퓨터가 어떤 식으로든 인간의 행동을 모방하게 하는 것을 의미

◦ data science는 AI의 하위 집합이며 통계, 과학적 방법 및 데이터 분석의 중첩 영역을 더 많이 나타내고, 데이터에서 의미와 insight를 추출하는 데 사용

◦ ML은 AI의 또 다른 하위 집합이며 컴퓨터가 데이터에서 사물을 파악하고 AI 애플리케이션을 제공할 수 있도록 하는 기술로 구성

◦ DL은 컴퓨터가 더 복잡한 문제를 해결할 수 있도록 하는 머신 러닝의 하위 집합

 

데이터 사이언스가 수행되는 방식

 

데이터를 분석하고 처리하는 프로세스는 선형이 아니라 반복적이다.

 

1. 계획 : 프로젝트와 잠재적인 결과물을 정의


2. 데이터 모델 구축 :  data scientist는 종종 다양한 오픈 소스 라이브러리 또는 데이터베이스 내 도구를 사용하여 ML 모델을 구축한다. 데이터 수집, 데이터 프로파일링 및 시각화 또는 기능 엔지니어링에 도움이 되는 API로써 적절한 도구는 물론 컴퓨팅 성능과 같은 올바른 데이터 및 기타 리소스에 대한 액세스가 필요하다.


3. 모델 평가 :  data scientist는 모델 배포에 대한 확신을 갖기 전에 모델에 대한 높은 정확도를 달성해야 한다. 모델 평가는 일반적으로 새로운 데이터에 대한 모델 성능을 측정하기 위한 포괄적인 평가 측정 지표 및 시각화 모음을 생성하고 시간에 따라 순위를 지정하여 프로덕션에서 최적의 동작을 가능하게 한다. 모델 평가는 예상되는 기본 동작을 고려하기 위해 원래 성능을 뛰어 넘는다.


4. 모델 설명 :  ML 모델 결과의 내부 메커니즘을 인간의 관점에서 설명할 수 있는 것이 항상 가능한 것은 아니지만 점점 더 중요해지고 있다. data scientist는 예측 생성에 사용되는 요소의 상대적 가중치 및 중요도에 대한 자동 설명과 모델 예측에 대한 모델별 설명 세부 정보를 원한다.


5. 모델 배포 :  훈련된 ML 모델을 올바른 시스템에 적용하는 것은 어려운 과정이다. 이는 모델을 확장 가능하고 안전한 API로 운영하거나 데이터베이스 내 머신 러닝 모델을 사용하여 더 쉽게 만들 수 있다.


6. 모델 모니터링 :  모델 배포로 끝나는 것은 아니다. 모델이 제대로 작동하는지 확인하기 위해 배포 후에는 항상 모델을 모니터링해야 한다. 모델이 학습된 데이터는 일정 기간이 지나면 더 이상 향후 예측과 관련이 없을 수 있다.

 

https://www.oracle.com/kr/data-science/what-is-data-science/

 

데이터 과학이란 무엇인가?

데이터 과학이 웹, 스마트폰, 고객, 센서 및 기타 소스로부터 수집한 데이터 분석에 필수적인 선도 기술로 자리잡은 이유를 확인해 보세요.

www.oracle.com

 

728x90
반응형
LIST