728x90
반응형
SMALL
데이터 사이언스 (Data Science)
data science는 통계, 과학적 방법, AI 및 데이터 분석을 포함한 여러 분야를 결합하여 데이터에서 가치를 추출한다. data science를 실천하는 사람들을 data scientist라고 하며, 그들은 다양한 기술을 결합해 웹, 스마트폰, 고객, 센서 및 기타 소스에서 수집된 데이터를 분석하고 실행 가능한 통찰력 (insight)을 도출한다. data science에는 고급 데이터 분석을 수행하기 위한 데이터 정리, 집계 및 조작을 포함하여 분석을 위한 데이터 준비가 포함된다. 그런 다음 분석 애플리케이션과 data scientist가 결과를 검토하여 패턴을 발견하면 정보에 입각한 insight를 얻을 수 있다.
Data Science, AI 및 ML의 차이점
◦ AI는 컴퓨터가 어떤 식으로든 인간의 행동을 모방하게 하는 것을 의미
◦ data science는 AI의 하위 집합이며 통계, 과학적 방법 및 데이터 분석의 중첩 영역을 더 많이 나타내고, 데이터에서 의미와 insight를 추출하는 데 사용
◦ ML은 AI의 또 다른 하위 집합이며 컴퓨터가 데이터에서 사물을 파악하고 AI 애플리케이션을 제공할 수 있도록 하는 기술로 구성
◦ DL은 컴퓨터가 더 복잡한 문제를 해결할 수 있도록 하는 머신 러닝의 하위 집합
데이터 사이언스가 수행되는 방식
데이터를 분석하고 처리하는 프로세스는 선형이 아니라 반복적이다.
1. 계획 : 프로젝트와 잠재적인 결과물을 정의 2. 데이터 모델 구축 : data scientist는 종종 다양한 오픈 소스 라이브러리 또는 데이터베이스 내 도구를 사용하여 ML 모델을 구축한다. 데이터 수집, 데이터 프로파일링 및 시각화 또는 기능 엔지니어링에 도움이 되는 API로써 적절한 도구는 물론 컴퓨팅 성능과 같은 올바른 데이터 및 기타 리소스에 대한 액세스가 필요하다. 3. 모델 평가 : data scientist는 모델 배포에 대한 확신을 갖기 전에 모델에 대한 높은 정확도를 달성해야 한다. 모델 평가는 일반적으로 새로운 데이터에 대한 모델 성능을 측정하기 위한 포괄적인 평가 측정 지표 및 시각화 모음을 생성하고 시간에 따라 순위를 지정하여 프로덕션에서 최적의 동작을 가능하게 한다. 모델 평가는 예상되는 기본 동작을 고려하기 위해 원래 성능을 뛰어 넘는다. 4. 모델 설명 : ML 모델 결과의 내부 메커니즘을 인간의 관점에서 설명할 수 있는 것이 항상 가능한 것은 아니지만 점점 더 중요해지고 있다. data scientist는 예측 생성에 사용되는 요소의 상대적 가중치 및 중요도에 대한 자동 설명과 모델 예측에 대한 모델별 설명 세부 정보를 원한다. 5. 모델 배포 : 훈련된 ML 모델을 올바른 시스템에 적용하는 것은 어려운 과정이다. 이는 모델을 확장 가능하고 안전한 API로 운영하거나 데이터베이스 내 머신 러닝 모델을 사용하여 더 쉽게 만들 수 있다. 6. 모델 모니터링 : 모델 배포로 끝나는 것은 아니다. 모델이 제대로 작동하는지 확인하기 위해 배포 후에는 항상 모델을 모니터링해야 한다. 모델이 학습된 데이터는 일정 기간이 지나면 더 이상 향후 예측과 관련이 없을 수 있다. |
https://www.oracle.com/kr/data-science/what-is-data-science/
728x90
반응형
LIST
'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글
[Data Science] 추정과 검정 (0) | 2022.03.07 |
---|---|
[Data Science] 확률 및 확률 분포 (0) | 2022.03.07 |
[Data Science] 기술 통계와 통계적 추론 (0) | 2022.03.07 |
[Data Science] 통계 분석 (0) | 2022.03.07 |
[Data Science] 데이터 분석 기법 (0) | 2022.03.07 |