728x90
반응형
SMALL
데이터 공학 (Data Engineering)
데이터 공학은 대규모 데이터 수집, 저장 및 분석을 위한 시스템을 설계하고 구축하는 작업이다. 거의 모든 산업에 응용 프로그램이 있는 광범위한 분야이다. 조직은 방대한 양의 데이터를 수집할 수 있는 능력을 갖추고 있으며, 데이터 과학자와 분석가에게 전달될 때까지 데이터의 가용성이 높은 상태를 유지할 수 있는 적절한 인력과 기술이 필요하다.
데이터 과학자의 삶을 더 쉽게 만들 수 있을 뿐만 아니라, 데이터 엔지니어로 일하는 것은 세계에서 실질적인 변화를 가져올 수 있는 기회를 제공할 수 있다. 머신러닝과 딥러닝과 같은 분야는 데이터 엔지니어가 해당 데이터를 처리하고 채널링하지 않으면 성공할 수 없다.
데이터 엔지니어는 다양한 환경에서 작업하여 원시 데이터를 수집, 관리 및 데이터 과학자와 비즈니스 분석가가 해석할 수 있는 유용한 정보로 변환하는 시스템을 구축한다. 이들의 궁극적인 목표는 조직이 데이터를 사용하여 성능을 평가하고 최적화하는 데 사용할 수 있도록 데이터에 액세스할 수 있도록 하는 것이다.
- 비즈니스 요구사항에 맞는 데이터셋 획득 - 데이터를 유용하고 실행 가능한 정보로 변환하는 알고리즘 개발 - 데이터베이스 파이프라인 아키텍처 구축, 테스트 및 유지 관리 - 경영진과 협업하여 회사 목표 파악 - 새로운 데이터 검증 방법 및 데이터 분석 도구 생성 - 데이터 governance 및 보안 정책 준수 보장 |
데이터 파이프라인을 구축하는 데 전념하는 데이터 엔지니어와 데이터 웨어하우스를 관리하는 데 주력하는 데이터 엔지니어가 있는 기업도 있다. 즉, 웨어하우스를 데이터로 채우고 데이터가 저장된 위치를 추적하기 위한 테이블 스키마를 만드는 기업도 있다.
1. 코딩 : 코딩 언어에 대한 숙달은 이 역할에 필수적이다. 일반적인 프로그래밍 언어는 SQL, NoSQL, Python, Java, R 및 Scala. 2. 관계형 및 비관계형 데이터베이스 : 데이터베이스는 가장 일반적인 데이터 스토리지 솔루션 중 하나이다. 관계형 및 비관계형 데이터베이스와 데이터베이스 작동 방식을 모두 숙지해야 한다. 3. ETL (추출, 변환 및 로드) 시스템 : ETL은 데이터베이스 및 기타 소스의 데이터를 데이터 웨어하우스와 같은 단일 저장소로 이동하는 프로세스이다. 일반적인 ETL 도구로는 Xplenty, Stitch, Aluma 및 Talend가 있다. 4. 데이터 저장소 : 특히 빅 데이터에 관해서는 모든 유형의 데이터가 동일한 방식으로 저장되어서는 안 된다. 예를 들어, 기업을 위한 데이터 솔루션을 설계할 때 데이터 레이크와 데이터 웨어하우스를 언제 사용해야 하는지 알고 싶어할 것이다. 5. 자동화 및 스크립팅 : 자동화는 단순히 조직이 매우 많은 정보를 수집할 수 있기 때문에 빅 데이터 작업에 필수적인 부분이다. 반복 작업을 자동화하는 스크립트를 작성할 수 있어야 한다. 6. 기계 학습 : 기계 학습이 데이터 과학자들의 관심사이지만, 팀의 데이터 과학자들의 요구를 더 잘 이해하기 위해 기본 개념을 파악하는 것이 도움이 될 수 있다. 7. 빅데이터 도구 : 데이터 엔지니어는 일반 데이터만 사용하는 것이 아니다. 그들은 종종 빅 데이터를 관리하는 임무를 맡는다. 툴과 기술은 진화하고 있고 회사마다 다르지만, 인기 있는 것 중에는 하둡, 몽고DB, 카프카가 있다. 8. 클라우드 컴퓨팅 : 기업이 클라우드 서비스를 위해 물리적 서버를 거래하는 경우가 증가함에 따라 클라우드 스토리지 및 클라우드 컴퓨팅을 이해해야 한다. 초보자들은 아마존 웹 서비스 (AWS)나 구글 클라우드의 과정을 고려할 수 있다. 9. 데이터 보안 : 일부 기업에는 전용 데이터 보안 팀이 있을 수 있지만, 많은 데이터 엔지니어는 여전히 데이터를 안전하게 관리하고 저장하여 손실이나 도난으로부터 데이터를 보호해야 한다. |
https://www.coursera.org/articles/what-does-a-data-engineer-do-and-how-do-i-become-one
728x90
반응형
LIST
'Data-driven Methodology > Data Engineering' 카테고리의 다른 글
[Data Engineering] 다중 컨테이너 앱 (0) | 2024.01.23 |
---|---|
[Data Engineering] 데이터베이스 유지 (0) | 2024.01.23 |
[Data Engineering] 어플리케이션 업데이트 (0) | 2024.01.23 |
[Data Engineering] 도커 (Docker) (0) | 2024.01.22 |
Extract / Transform / Load (ETL) (0) | 2022.05.11 |