본문 바로가기

카테고리 없음

DP-900

1. 핵심 데이터 개념

2. 관계형 데이터에 대한 고려 사항

3. 비관계형 데이터에 대한 고려 사항

4. 분석 워크로드

 

Data

- 단순한 사실이나 값의 모음을 컴퓨터/기계가 인식할 수 있는 형태로 표현한 정보

- 숫자, 문자, 기호 등으로 의미를 부여하기 전 가공되지 않은 형태

 

Information

- 데이터를 해석하고 가공하여 의미를 부여한 결과물

- 데이터 조직화,분석,해석의 과정을 거쳐 유용한 내용으로 전환

 

DataBase

- 조직화된 데이터의 집합

- 데이터를 저장,관리,조작하고 사용자에게 데이터 제공

 

핵심 데이터 개념

 

1. 데이터를 제시하는 방법

- 구조적 데이터 : 테이블 형식으로 정리된 데이터

                            테이블, 행, 열로 구성되어있으며

                            관계형 데이터베이스에서 주로 사용

                            데이터 쿼리/조작이 용이하고 저장/관리가 용이하다.

- 반구조적 데이터 : 일부분만 구조화된 요소를 가지고 있음

                                텍스트 파일, 로그 파일, XML 파일등의 형식이 반구조적 데이터의 예시이다.

                                구조적 데이터보다 유연하지만 데이터 일부 요소를 해석하는 작업이 필요

- 비구조적 데이터 : 전혀 구조화되지 않은 데이터

                                텍스트문서, 이미지, 오디오, 비디오 등이있다.

                                테이블 형태로 표현 불가하며 추가적인 처리와 분석이 필요

 

2. 데이터 스토리지에 대한 옵션

 

데이터 파일 형식

     - 텍스트 파일 : 문자열로 구성된 데이터를 표현한 파일로 각 줄은 쉼표, 탭, 기타 구분자들로 구분되어 있다.

                             ex) csv, tsv, json

     - 엑셀 파일 : 스프레드시트 형식으로 여러 시트로 구성되며 각 시트는 행과 열로 구성된다.

                          다양한 데이터 유형(숫자, 문자열, 날짜) 등을 저장 가능하다

     - 이진 파일 : 0과 1로 구성된 이진 형식의 데이터를 저장한다.

                         ex) .db, .jpg, .png, .mp4, .avi

     - XML 파일 : 계층적 구조를 갖는 언어로 데이터를 저장한다. 데이터를 설명하는 태그와 요소로 구성되고

                          데이터의 구조와 의미를 명확하게 표현할 수 있다.

 

데이터베이스 유형

     - 관계형 데이터베이스 : 테이블로 구성, 관계를 통해 여러 테이블에 분산되어 저장, SQL을 사용하여 데이터 접근

                                            ex) Microsoft SQL Server, MySQL, PostgreSQL

     - NoSQL 데이터베이스 : 비관계형 데이터베이스로 데이터를 컬렉션, 문서, 그래프, 키-값 등의 형태로 저장

                                             확장성과 유연성이 높아 대량의 데이터 처리에 적합

                                             ex) MongoDb, Cassandra, Redis, Cosmos DB

     - 데이터 웨어하우스 : 대량의 데이터를 저장하고 분석하기 위해 구축된 중앙 집중식 데이터 저장소

                                        ex) Azure Synapse Analytics, Google BigQuery

     - 데이터 레이크 : 대규모의 비정형 데이터를 저장하는 저장소, 데이터를 원시 상태로 저장한다.

                                ex) Azure Data Lake Storage, Amazon S3

     - 그래프 데이터베이스 : 데이터를 그래프 형태로 저장하고 관리, 데이터간의 관계와 네트워크를 효율적으로 표현

                                            ex) Azure Cosmos DB, Neo4j

데이터 워크로드

     - 트랜잭션 워크로드 : 다중 사용자/프로세스가 동시에 데이터를 조작하는 환경에서 안정적인 작업을 보장

                                        데이터의 일관성과 무결성 유지

                                        동시에 실행되는 여러 트랜잭션이 서로 영향을 미치는 규칙을 격리 수준이라고 하는데

                                        데이터의 일관성과 격리성을 유지하면서 동시성을 상향시킨다.

                                        오류나 예외 상황에 대비하여 롤백 및 복구 기능도 제공한다.

     - 분석 워크로드 : 데이터에서 유용한 정보를 추출하고 의미 있는 통찰력을 도출(데이터 마이닝, 머신 러닝)

                                 데이터를 시각적으로 표현하여 패턴, 관계를 이해하기 쉽게 표현 (그래프, 차트, 대시보드)

                                 과거 데이터와 통계적 모델링을 활용하여 미래 결과를 예측(회귀 분석, 머신 러닝 알고리즘)

                                 데이터 구조와 관계를 설계하고 정의하는 데이터 모델링도 실행한다.

 

데이터 워크로드에 대한 역할 및 책임

     - 데이터베이스 관리자 : 데이터베이스 시스템의 설계, 구축, 운영, 유지보수 담당

     - 데이터 엔지니어 : 데이터 파이프라인을 구축하고 데이터를 수집, 저장, 처리, 전송

                                     다양한 데이터 소스에서 데이터를 추출/정제하고 데이터 품질을 관리하고 모니터링

     - 데이터 분석가 : 데이터를 수집, 분석하고 인사이트를 도출

 

관계형 데이터

 

관계형 데이터 기능

     - 데이터 구조화 : 테이블을 사용하여 데이터를 체계화한다.

                                 행과 열로 구성되어 있는데 행은 개별 데이터를 저장하고 열은 데이터의 속성을 정의한다

     - 데이터 무결성 : 데이터의 일관성과 정확성을 유지한다.

     - 데이터 조작/검색 : 데이터를 업데이트, 삭제, 조회등 다양한 조작을 한다.

     - 데이터 일관성/신뢰성 유지 : 트랜잭션을 지원하여 데이터 일관성을 유지한다.

 

정규화

     - 정의 : 데이터를 작은 단위로 분해하여 중복을 최소화하는 과정

                  관계형 데이터베이스 설계의 핵심 원칙

     - 과정 : 제 1정규형 (비정규화된 데이터를 데이터베이스에 등록될 수 있는 형태로 개선)

                  제 2정규형 (종속관계가 있는 데이터들끼리 별도의 테이블 생성)
                  제 3정규형 (새로운 속성을 만들어 중복을 최소화하고 세분화)

     - 이유 : 중복된 데이터를 최소화하고 데이터 일관성 유지, 데이터 효율적 저장

                  데이터 중복,삭제,갱신으로 인한 이상현상 방지

                  테이블을 적절하게 분리하여 쿼리 작성 단순화

                  데이터의 크기를 줄여 성능 향상

 

SQL문

 

SQL

     - 정의 : 관계형 데이터베이스 관리 시스템에서 데이터 관리/처리를 위한 표준화된 언어

     - 예시 :

 

     - 특징 : 선언적 언어 (어떻게 데이터를 처리할지 명시하는 방식이 아닌 원하는 결과를 명시하는 방식)

                  데이터 조작 언어 (데이터를 조회, 삽입, 수정, 삭제하는 등의 데이터 조작 작업에 사용)

                  표준화된 언어 (미국 표준협회와 국제 표준화 기구에서 표준으로 정의된 언어)

 

비관계형 데이터

 

AZURE STORAGE

     - Azure Blob Storage : 대용량의 비정형 데이터를 저장하는데 사용되는 서비스

                                          파일, 이미지, 동영상 등의 객체를 컨테이너와 블록 구조로 저장

                                          액세스 레벨을 설정하여 공개적 접근 또는 제한된 액세스 설정

     - Azure File Storage : 클라우드 기반의 파일 공유를 제공하는 서비스

                                         파일 공유를 통해 가상 머신, 클라우드 서비스에서 동시에 파일 액세스

     - Azure Table Storage : 대량의 정렬되지 않은 데이터를 저장하는 NoSQL 데이터베이스 서비스

                                           테이블 형식으로 데이터 저장

                                           빠른 속도로 대량의 데이터 처리, 데이터 분산/복제 지원

 

AZURE COSMOS DB

     - 정의 : Microsoft Azure에서 제공하는 분산형, 다중 모델 데이터베이스 서비스

     - 특징 : 다양한 데이터 모델을 지원한다. (키-값, 문서, 그래프, 등등)

                  데이터를 전 세계적으로 분산하여 빠른 응답 시간과 고가용성을 제공하며 지리적 장애를 없애준다.

                  필요에 따라 데이터베이스의 처리량/저장용량을 자동 조정한다.

                  다양한 API를 지원한다.

                  데이터의 보안과 개인정보 보호를 위해 다양한 기능을 제공한다.

     - 활용 : 대규모 IoT 데이터 수집 및 분석, 실시간 웹 모바일 애플리케이션, 게임/소셜 애플리케이션, 분석

 

분석 워크로드

 

데이터 수집 및 처리에 대한 고려사항

     - 데이터 유형 및 형식, 데이터 볼륨, 실시간 처리, 데이터 정합성과 오류 처리, 보안 규정 준수, 비용 최적화