안녕하세요. 바른호랑이입니다.
이번 게시글에서는 Azure 주요 서비스 중 하나인 Azure Synapse Analytics에 대해 알아볼 예정입니다.
Azure Synapse Analytics는 Microsoft사에서 데이터 웨어 하우징, 빅 데이터 분석, 데이터 통합 및 시각화를 단일 환경으로 결합하는 통합 분석 플랫폼입니다. Azure Synapse Analytics에서 지원하는 분석 형식의 범위는 크게 4가지로 구분할 수 있으며, 세부적인 내용은 아래와 같습니다.
1. 설명적 분석 Descriptive analytics
- 비즈니스에서 무슨 일이 일어나고 있는가와 관련된 것으로 데이터 웨어하우스 생성과 연관됨
- 서버리스 SQL풀을 사용하여 데이터레이크에 저장된 파일에서 데이터를 준비
2. 진단적 분석 Diagnostic analytics
- 비즈니스에서 해당 일이 왜 일어나는가와 관련된 것으로 설명적 분석보다 많은 데이터 탐색이 필요함
- 서버리스 SQL풀을 사용하여 데이터레이크에 저장된 파일에서 추가 데이터를 더 빠르게 검색
3. 예측 분석 Predictive analytics
- 앞으로 무슨일이 일어날 수 있는가와 관련된 것으로 Apache Spark 엔진을 사용
- Azure Machine Learning Services, Azure Databricks 등의 다른 서비스와 함께 사용 가능
4. 처방적 분석 Prescriptive analytics
- 예측 분석을 사용하여 실시간에 가까운 데이터 분석을 모니터링
- Apache Spark와 Azure Synapse Link, Azure Stream Analytics를 통해 스트리밍 기능 제공
- 서비스에 통합되는 Power BI를 사용하여 데이터 시각화 가능
위와 같은 4가지 분석방식을 지원하기 위해 Azure Synapse Analytics는 데이터 웨어하우징용 SQL 기술, 빅데이터 분석용 Spark 기술, 로그 및 시계열 분석용 Data Explorer, 데이터 통합 및 ETL/ELT를 위한 파이프라인, 시각화용 PowerBI등과 같은 서비스들을 결합하여 제공하고 있으며 각각의 기술들은 아래와 같은 형태로 제공되어집니다.
1. Synapse SQL
- 데이터 웨어하우징 및 데이터 가상화 시나리오를 지원, T-SQL을 확장하여 스트리밍 및 ML시나리오 처리
- 서버리스 SQL과 전용 SQL 리소스 모델을 모두 제공하며, 성능 및 비용 예측이 가능
- 스트리밍 기능을 기본적으로 제공하며, T-SQL PREDICT를 통해 ML모델을 사용하여 AI와 SQL을 통합
2. Apache Spark
- 오픈 소스 빅 데이터 엔진인 Apache Spark와 데이터 준비, 엔지니어링, ETL 및 ML에 사용할 수 있음
- Spark 애플리케이션 내 .NET 코드와 C# 전문지식을 활용할 수 있게 .NET for Spark를 지원
3. Data Lake
- 정형, 반정형, 비정형 데이터를 저장할 수 있는 스토리지를 제공
- Data Lake의 파일에서 정의된 테이블은 Spark 또는 Hive에서도 원활하게 사용 가능
- SQL, Spark는 Data Lake에 저장된 Parquet, CSV, TSV 및 JSON 파일을 검색 및 분석이 가능
4. Data Explorer
- 로그 및 원격 분석 데이터를 활용할 수 있게 대화형 쿼리 환경을 제공
- 온-프레미스, 클라우드, 타사 데이터 원본에서 로그 및 이벤트 데이터를 통합하고 상관관계를 설정
- 인프라 기반 로그 솔루션을 대체, IoT Analytics솔루션과 SaaS 솔루션을 제공
5. 통합환경제공
- Azure Synapse Pipeline으로 데이터 이동을 오케스트레이션 및 대규모 데이터 변환을 진행(ETL/ELT)
- 수집, 탐색, 준비, 오케스트레이션, 시각화등을 지원, SQL, Spark 및 Data Explorer에서 리소스 모니터링
- RBAC(Role-Based Access Control : 역할 기반 액세스 제어)를 사용하여 액세스 간소화
- SQL, Spark 또는 KQL 코드를 작성하고 엔터프라이즈 CI/CD 프로세스와 통합
이와같은 Azure Synapse는 파이프라인을 사용하여 시스템에서 사용할 데이터를 수집, 준비, 모델링하여 제공할 수 있으며, Azure Synapse Analytics의 구성요소들을 사용하거나 기존 분석 솔루션을 위해 이미 구현된 기존 Azure 서비스와도 상호작용하는 것을 통해 데이터를 통합 및 분석할 수 있습니다.
이상으로 Azure의 주요 데이터 통합 및 분석서비스인 Azure Synapse Analytics에 대해 알아보았습니다. 클라우드를 활용한 데이터 분석에 관심이 있으신 분들은 해당 부분에 대해 좀 더 공부해보셔도 좋을 것 같습니다.
P.S 더 나은 개발자가 되기위해 공부중입니다. 잘못된 부분을 댓글로 남겨주시면 학습하는데 큰 도움이 될 거 같습니다.
'IT & 데이터 사이언스 > 이론 & 개념' 카테고리의 다른 글
[개념 설명] 케이블이란? (0) | 2022.06.13 |
---|---|
[개념 설명] 네트워크에 대하여 (0) | 2022.06.09 |
[Cloud] 데이터 엔지니어와 클라우드 (0) | 2022.05.30 |
[Cloud] Azure Data Factory에 대하여 (0) | 2022.05.30 |
[개념 설명] 데이터 형식과 분석에 대하여 (0) | 2022.05.26 |
댓글