본문 바로가기
AWS SAA-C02

AWS SAA-C02개념정리::대량 데이터 처리(Kinesis,Redshift등)

by krheyjin 2021. 6. 17.
728x90
반응형

1. 관련 서비스들
-S3, Glacier, Kinesis, Glue, EMR, Athena, QuickSight, Redshift 등

2. 데이터 웨어하우스
-데이터 웨어하우스: 이용 용도에 따른 데이터를 모아 활용
-데이터수집:목적별 데이터(필요한 데이터만 추출 및 수집)수집. 구조화 데이터 중심.
-데이터축적:필요한 데이터만을 추출 및 축적
-데이터처리,가공:관련된 데이터 구조(스키마)로 변환, 축적, SQL에 의한 조작
-가시화분석:이용자가 데이터 분석/리포트 내용 등의 이용목적을 사전에 정하여 구축.

3. 데이터 레이크
-데이터 레이크: 가능한 한 가공하지 않은 데이터를 저장(텍스트, 영상, 이미지, 음성, 위치데이터등등)
-데이터수집:미가공 데이터+목적별데이터.구조화/반구조화/비구조화 데이터.
-데이터축적:변환하지 않은 데이터 형식으로 저장하거나 엣지 처리한 데이터를보존.
-데이터처리,가공:사전에 스키마(데이터 구조)를 정의하지 않는 SQL/SAS/Map Reduce/R/No SQL 등으로 조작
-가시화분석:사전에 목적을 정의하지 않고 사용자가 데이터군에서 새로운 가치를 추출하여 데이터를 해석하고 활용

4. Apache시리즈
-빅 데이터 분산 처리를 위한 대표적인 시스템
-Apache Hadoop:대량 데이터 배치처리에 적합
-Apache Spark:스트리밍 처리에 적합

5. Kinesis
-스트림 데이터를 수집·처리하기 위한 풀 관리형 서비스. 주로 3가지 서비스로 구성된다
-Amazon Kinesis Streams:스트림 데이터를 처리할 분석시스템이나 애플리케이션 구축.스트리밍 처리를 셔드(Shard)로 나누어 분산시켜 실행하므로 고속 처리 가능
-Amazon Kinesis Firehose:스트림 데이터를 S3나 Redshift 등으로 간편전송.각종 DB로 전달, 축적하기 위한 스트림 처리를 수행. Lambda와 연계하면 ETL로서도 기능한다.
-Amazon Kinesis Analytics:스트림 데이터를 표준 SQL 쿼리로 즉각 가시화·분석

6.Redshift 개요
-빠르고 비용 대비 효과가 높은 관리형 DWH/데이터레이크 분석 서비스
-수백기가바이트의 데이터부터 시작하여 페타바이트 이상까지 확장
-1 테라바이트당 연간 1,000USD 이하의 비용으로 이용 가능
-자동 워크로드 관리 등 자동 테이블 유지관리등 많은 관리태스크 및 데이터 배치가 자동화되어 있는 풀 관리형
-PostgreSQL호환성을 지닌 열(컬럼)지향 데이터 모델
-여러개의 노드를 묶어 클러스터를 구성함. 단일 AZ에서 움직이며 멀티 AZ는 구성 불가
-AQUA에 의한 분산 캐시로 타 클라우드 데이터 웨어하우스에 비해 최대 10배속도로 동작

7. Redshift의 구성
-클러스터라는 그룹단위를 가지며 그안에 여러 노드를 배치하고, 그 노드를 통해 데이터처리를 실행
-RedShift는 노드 타입 변경 및 추가와 클러스터 추가를 통한 스케일링 가능

8. RedShift Spectrum
-사용자가 관리하는 S3버킷에 대해 직접 데이터 해석 실행가능하게 해줌.(쿼리엔진)

9. 타 서비스에서 RedShift로의 데이터연계
-S3: 가장 빈번하게 사용되는 데이터 연계처이며, S3에서 데이터를 취득하여 Redshift으로 해석할 수도 있으며, S3 내부의 데이터 해석을 직접 실행할 수도 있다.
-Kinesis: Kinesis data Firehose를 이용하여 스트리밍 데이터의 저장처로 Redshift을 지정하여 데이터를 저장하고 해석에 이용할 수 있음
-RDS: RDS와의 직접 접속은 할수없지만 AWS Data Pipeline이나 DMS를 이용하여 데이터 이행 실시 가능
-DynamoDB: DynamoDB에서 Redshift로 데이터 복사 실행 가능
-Amazon EMR: EMR에서 Redshift로 데이터 복사 실행 가능

10. RedShift에서 타 서비스로의 데이터연계
-Redshift에서 데이터를 연계하면 QuickSight를 이용한 데이터 가시화와 더불어 S3를 이용한 데이터 추출도 가능
-Amazon QuickSight: Redshift에 접속하여 데이터 가시화 실시 가능
-S3: UNLOAD 명령어를 실행함으로써 Redshift에서 S3로 데이터를 추출하는 것이 가능
-Amazon Machine Learning: RedShift를 기계학습의 학습데이터로 설정하여 이용 가능
-RDS: 직접 연계는 안되지만, PostgreSQL의 기능을 이용하여 데이터를 RDS와 연계 가능

11. Amazon QuickSight
-Quick Sight는 데이터를 가시화 해석하기 위한 BI툴. RedShift 데이터 가시화 가능.

12. AWS Glue
-데이터를 추출, 변환, 로드(ETL)를 수행하는 완전 관리형 서비스

13. AWS Lake Formation
-복잡한 설정이 필요한 데이터 레이크 구성을 쉽고 빠르게 실현하는 서비스

14. Amazon EMR
-Apache Spark, Apache Hive, Presto 등의 빅데이터 프레임워크를 사용하여 대량데이터 처리 및 분석

#제 돈 주고산 유료강의를 듣고 정리한 요약노트입니다.
#AWS비슷비슷한 서비스, 기능들 위주로 요약했습니다.
#일본거주자라 일본어강의여서 가끔 단어가 이상할 수 있습니다.

 

728x90
반응형

댓글