본문 바로가기
IT & 데이터 사이언스/이론 & 개념

[Cloud] 데이터 엔지니어와 클라우드

by 바른 호랑이 2022. 5. 30.
728x90
반응형

※  클라우드 컴퓨팅이란?

 

[개념 설명 / 클라우드 컴퓨팅] 클라우드 컴퓨팅이란?

안녕하세요. 바른 호랑이입니다. 이번 게시글에서는 클라우드 컴퓨팅에 대해서 설명해드릴 예정입니다. 클라우드 컴퓨팅의 개념은 1965년 미국의 컴퓨팅 학자인 존 매카시에 의해서 유래되었습

data-is-power.tistory.com

※  데이터의 형식과 분석에 대하여 

 

[개념 설명 / 데이터 형식] 데이터 형식과 분석에 대하여

안녕하세요. 바른 호랑이입니다. 이번 게시글에서는 데이터 형식에 관해서 설명해드릴 예정입니다. 인터넷, SNS와 같은 정보통신기술의 급속한 발달 덕분에 우리의 생활은 다방면에서 빠르게 변

data-is-power.tistory.com

 

안녕하세요. 바른 호랑이입니다.
이번 게시글에서는 데이터 엔지니어와 클라우드 컴퓨팅의 관계성에 대해 알아볼 예정입니다.
클라우드에 대한 내용과 데이터의 형태에 대한 전반적인 내용이 궁금하신 분들은 위의 게시글을 참조해주세요. 데이터 엔지니어와 클라우드 컴퓨팅과의 관계를 설명하기 위해서는 우선 현 시대의 데이터에 대해 이해하는 것이 선행되어야 합니다. 지난 수십년 동안 데이터의 생산량이 기하급수적으로 증가함에 따라 기업에게 있어 이와 같은 데이터를 저장, 해석, 관리, 변환 ,처리, 집계하여 내부관리자, 투자자, 비즈니스 파트너, 규제기관 및 소비자 등과 같은 이해관계자들에게 적절히 설명하는 것이 매우 중요해졌습니다.
현 시대의 데이터 소비자들은 PC, 태블릿, 모바일 디바이스를 이용하여 시공간적인 제약사항이 거의 없이 데이터를 소비하고 있으며, 소비하는 동시에 새로운 데이터를 생산하고 있습니다. 이들이 소비하고 생산하는 데이터는 텍스트, 스트림, 오디오, 비디오 및 메타데이터와 같이 특정한 하나의 기준으로 통일시키는 것은 현실적으로 불가능하게 됨에 따라 크게 정형, 비정형, 반정형 데이터라는 카테고리로 세분화하여 관리 및 사용하고 있습니다.
이와 같은 상황에서 데이터 엔지니어는 조직이 안전하고 지속적으로 사용가능한 데이터 시스템을 유지할 수 있게 해야하며, GDPR(General Data Protection Regulation : 일반 데이터 보호 규정)같은 관련 규정과 PCI DSS(Payment Card Industry Data Security Standard)같은 산업 표준을 준수할 수 있게 지원해야합니다. 시스템에 사용되는 데이터는 온-프레미스 또는 클라우드에 존재할 수 있으며, 실시간 처리 또는 일괄처리의 형식으로 활용되게 됩니다. 클라우드 서비스 제공자들은 다양한 데이터 형식을 안전하게 저장, 변환, 처리, 분석, 시각화할 수 있는 데이터 기술셋을 제공하고 있기에 데이터 엔지니어에게 있어 클라우드 컴퓨팅은 조직 및 직무 목표를 달성하기 위해 사용할 수 있는 하나의 강력한 툴이 될 수 있습니다.
데이터 엔지니어가 위와 같은 목적을 달성하기 위해서는 데이터가 관리되는 시스템의 주요요소 중 하나인 서버환경에 대한 이해가 필요합니다. 서버환경은 크게 2가지로 세분화하여 확인할 수 있으며 내용은 아래와 같습니다.


1. 온-프레미스 환경

- 서버가 조직의 인프라 내에 호스트되어 있는 경우로, 일반적으로 사내에 물리적으로 존재함

- 조직 내 IT팀 또는 IT 파트너가 직접 제어, 관리, 유지 및 조달을 진행하며, 데이터는 로컬 네트워크를 통해 공유됨

- 비용 및 유지관리 

ㆍ하드웨어, 소프트웨어 설치, 라이선스 요금, 지원 등과 같은 초기 투자비용이 높으며, 유지보수 비용 추가발생
- 보안 및 위협 방지

ㆍ적은 수의 사람들이 애플리케이션에 액세스 가능 & 보안 시스템 구축 책임이 조직에 있음

ㆍ높은 수준의 보안 전문지식과 물리적 자산, 네트워크에 대한 지속적 모니터링 / 유지 관리가 요구됨
- 규정 준수
ㆍ조직 자체적으로 특수지식과 전문지식이 필요하며, 인력과 리소스를 보유하여 관리하는 것이 필요
- 스케일링 성능
ㆍ하드웨어 및 소프트웨어 추가, 컴퓨팅 역량 증대와 같은 리소스 추가 등의 스케일링 책임이 조직에 있음
- 안정성
ㆍ조직내 구성원이 저장소에 액세스시 인터넷 연결이 필요하지 않음 / 가용성이 보장됨
- 데이터 백업
ㆍ데이터가 내부 서버에 저장되며, 데이터 손실의 위험을 조직이 부담하게됨(클라우드와 병행하여 보완)

2. 클라우드 저장소 
- Microsoft, Amazon, Google과 같은 외부 서비스 공급자가 데이터를 호스트하는 형태
- 클라우드 공급자가 모든 하드웨어, 소프트웨어 및 기타 인프라를 조달하고 데이터 센터를 관리

- 사용자는 인터넷을 통해 PC, 웹, 모바일에서 서비스에 액세스하고 계정을 관리

- 비용 및 유지관리

ㆍ초기 투자비용이 낮으며, 월간 구독 요금만 지불하면 됨
ㆍ유지 관리, 최신 소프트웨어, 보안 및 지원을 모두 클라우드 공급자가 담당
- 보안 및 위협 방지
ㆍ클라우드 공급자에 의해 보안 시스템 및 유지관리가 진행됨

ㆍ상위 클라우드 공급자들이 제공하는 다계층 보안의 종류 

: 액세스 제어 시스템, 지속적인 위협 모니터링, 데이터 암호화, 물리적 데이터 센터 보안, 네트워크 보호, 응용 프로그램 보안, 데이터 중복도, 유효성 검사, 대량 파일 삭제 보호, 의심스러운 로그인 및 활동 모니터링
- 규정 준수
ㆍ클라우드 공급자가 규정 준수와 관련된 팀 운영 및 관리 
- 스케일링 성능

ㆍ조직은 서버를 구성하고 관리할 책임이 없으며, 사용한 만틈 클라우드 공급자에게 비용을 지불

- 안정성 
ㆍ양질의 인터넷 연결이 필수적이며, 연결 지연 및 불가시 운영 저하 및 생산성 저하를 초래

- 데이터 백업
ㆍ클라우드 공급자가 기본 제공 공급도, 장애조치, 백업, 자동 로깅, 모니터링 같은 데이터 손실 방지 기능 제공


위와 같은 서버환경 속에서 데이터 엔지니어는 다양한 형태를 가지고 있는 원시 데이터들을 ETL 또는 ELT과정을 진행할 수 있는 아키텍처를 구상하고 구축하게 되며, 적절하게 구축된 아키텍처는 조직의 의사결정에 필요한 정보들을 최적의 상태로 제작 및 전달해줌으로써 조직의 효율성과 효과성을 증대하는데 도움을 주게 됩니다. 이상으로 데이터 엔지니어와 클라우드의 관계성에 대해 설명을 해드렸습니다. 데이터 분석과 관련 분야에 관심이 있으신 분들은 해당 부분에 대해 좀 더 공부해보셔도 좋을 것 같습니다.

P.S 더 나은 개발자가 되기위해 공부중입니다. 잘못된 부분을 댓글로 남겨주시면 학습하는데 큰 도움이 될 거 같습니다.

728x90
반응형

댓글