본문 바로가기
Learning-driven Methodology/ML (Machine Learning)

[Machine Learning] MLOps

by goatlab 2022. 5. 11.
728x90
반응형
SMALL

MLOps (Machine Learning Operations)

 

MLOps는 머신러닝 작업 (Machine Learning Operations)을 뜻한다. MLOps는 ML 모델을 프로덕션으로 전환하는 프로세스를 간소화하고, 뒤이어 이를 유지관리하고 모니터링하는 데 주안점을 둔 ML 엔지니어링의 핵심 기능이다. MLOps는 협업 기능이며, 주로 데이터 사이언티스트, DevOps 엔지니어, IT로 구성된다.

 

 

MLOps는 ML과 AI 솔루션 제작과 품질에 대한 유용한 접근법이다. 데이터 사이언티스트와 ML 엔지니어는 MLOps 방식을 채택하여 협업을 추진하고 모델 개발과 프로덕션 속도를 증강할 수 있다. 이를 위해 ML 모델의 적절한 모니터링, 검증과 governance를 포함해 지속적인 통합과 배포 (CI/CD) 관례를 구현해야 한다.

 

ML의 대량 생산은 쉽지 않은 일이다. ML 수명 주기는 데이터 수집, 데이터 준비, 모델 훈련, 모델 조정, 모델 배포, 모델 모니터링, 설명 가능성과 같은 복잡한 구성 요소가 많이 모인 형태로 구성되어 있다. 또한 데이터 엔지니어링부터 데이터 사이언스, ML 엔지니어링에 이르기까지 여러 팀에 걸친 협업과 전달이 필요한 일이기도 하다. 따라서 이 모든 프로세스를 동기화하고 협력이 이루어지는 상태를 유지하려면 극히 엄격한 운영 원칙을 적용해야 한다. MLOps는 ML 수명 주기의 실험, 반복과 지속적 개선을 총망라한다.

 

MLOps의 주된 장점은 효율성, 확장성과 리스크 완화이다.

 

- 효율성 : MLOps를 사용하면 데이터 팀이 모델을 더욱 빨리 배포하고 양질의 ML 모델을 제공하며 배포와 프로덕션 속도를 높일 수 있다.

- 확장성 : MLOps는 엄청난 확장성과 관리를 지원하므로 수천 개의 모델을 감독, 제어, 관리, 모니터링하여 지속해서 통합, 제공하고 지속해서 배포할 수 있다. 구체적으로 MLOps는 ML 파이프라인 재현성을 제공하므로 여러 데이터 팀에서 좀 더 긴밀하게 결합된 협업을 추진할 수 있고 DevOps 팀과 IT 팀의 갈등이 줄어들며 릴리즈 속도도 빨라진다.

- 리스크 완화 : ML 모델에는 철저한 규제 검토와 드리프트 검사가 필요할 때가 많다. MLOps를 이용하면 투명성을 강화할 수 있고 그러한 요청에 더욱 빨리 대응할 수 있으며 주어진 기업이나 업계의 규정을 더욱 엄격히 준수하는 데 도움된다.

 

  • EDA (Exploratory Data Analysis) : 재생산 가능하고 편집 가능하며 공유할 수 있는 데이터 세트, 표와 시각화를 만들어 머신 러닝 수명 주기에 적합한 데이터를 반복적으로 탐색, 공유하고 준비한다.

  • 데이터 준비와 피처 엔지니어링 : 데이터를 반복적으로 변환, 집계 및 중복 제거하여 미세하게 조정된 특징 (feature)을 만든다. 이보다 더 중요한 것은 피처 스토어를 활용하여 여러 데이터 팀을 상대로 데이터를 표시하고 공유할 수 있게 하는 것이다.

  • 모델 훈련 및 조정 : scikit-learn이나 hyperopt와 같은 대중적인 오픈 소스 라이브러리를 이용하여 모델을 훈련하고 모델 성능을 개선할 수 있다. 이보다 더 간단한 대안으로는 AutoML과 같은 자동 ML 툴을 사용하여 시험 작동을 자동으로 수행하고, 검토와 배포가 가능한 코드를 만드는 방법도 있다.

  • 모델 검토 및 governance : 모델 계보, 모델 버전을 추적하고 모델 아티팩트와 전환을 수명 주기 전체에 걸쳐 관리한다. MLflow와 같은 오픈 소스 MLOps 플랫폼의 도움을 받아 ML 모델 전반에 걸쳐 검색, 공유와 협업을 수행한다.

  • 모델 유추와 서빙 : 모델 새로 고침 빈도, 추론 요청 횟수와 테스트 및 QA 면에서 이와 비슷한 프로덕션 세부 사항을 관리한다. 레포지토리나 오케스트레이터 (DevOps 원칙을 차용함)와 같은 CI/CD 툴을 사용하여 프로덕션 이전의 파이프라인을 자동화한다.

  • 모델 배포와 모니터링 : 권한 부여와 클러스터 생성을 자동화하여 등록된 모델을 (대량) 생산한다. 또한, REST API 모델 엔드포인트를 활성화한다.

  • 자동 모델 재훈련 : 알림과 자동화를 생성하여 훈련과 추론 데이터가 서로 달라 모델 드리프트가 발생하는 경우 시정 조치한다.

 

https://www.run.ai/guides/machine-learning-operations

 

Machine Learning Operations

Learn what stops machine learning from reaching its full potential and how MLOps can optimize the ML and AI application lifecycle.

www.run.ai

 

728x90
반응형
LIST