- ETL
- ETL (Extraction, Transformation, Loading) 이란?
- 현재 시스템에서 데이터를 추출 (Extraction)하여 새로운 시스템의 데이터베이스에 적합한 형식과 내용으로 변환 (Transformation)한 후, 적재 (Loading)하는 일련의 과정
- 데이터 추출 (Extraction)
- 전화 대상이 되는 원천 시스템의 데이터베이스 데이터를 순차적 접근 파일 (SAM) 형태로 추출하는 과정
- 데이터 변환 (Transformation)
- 원천 시스템에서 추출한 데이터 파일을 목적 시스템의 파일로 변환하는 과정
- 데이터 적재 (Loading)
- 목적 데이터베이스에 맞게 변환된 데이터를 데이터베이스에 저장하는 과정
- ETL (Extraction, Transformation, Loading) 이란?
- 파일 처리 기술
- 파일 처리 기술이란?
- 파일을 디스크에 저장할 때, 기억 공간을 최대한 효율적으로 사용하도록 하고, 필요한 자료의 탐색을 쉽게 하기 위한 기술
- 파일 구성의 분류
- 순차 파일(SAM: Sequential Access Method File)
- 입력되는 레코드들을 논리적인 순서에 따라 기억 장치에서 물리적으로 연속된 공간에 저장해 놓은 파일
- 장점: 기록 밀도가 높아 기록 효율이 좋은
- 단점: 삽입, 삭제시 자료의 이동이 많음
- 직접 파일(DAM: Direct Access Method File)
- 주어진 키를 해싱 함수를 계산해서 나온 주소에 저장하는 방식
- 장점: 검색 속도가 빠름
- 단점: 기억 공간의 효율이 낮음
- 색인 순차 파일(ISAM: Indexed Sequential Access Method File)
- 입력되는 레코드들을 키 값 순으로 정렬(Sort) 하여 기록하고, 레코드의 키 항목만을 모은 색인을 구성하여 편성하는 방식
- 기본 영역, 인덱스 영역, 오버플로우 영역으로 구성
- 장점: 순차 처리와 랜덤 처리가 모두 가능
- 단점: 오버플로우 영역으로 메모리 낭비 초래
- VSAM (Virtual Sequential Access Method file)
- 기본 영역과 오버플로우 영역을 구분하지 않음
- 순차 파일(SAM: Sequential Access Method File)
- 파일 처리 기술이란?
- 데이터 전환 수행 계획
- 데이터 전환이란?
- 신정보 시스템(목적 시스템 또는 To-Be 시스템)을 개발할 때 구정보 시스템(원천 시스템 또는 As-Is 시스템)에 축적된 자료를 신정보 시스템에서 운용 가능하도록 변경, 저장하는 작업
- 데이터 전환 수행 절차
- 데이터 전환 범위
- 전환 대상의 상세 내용과 데이터 형식, 대상 건수까지 파악하여 명시해야 함
- 데이터 전환 일정
- 팀별 업무를 분장하여 팀별 역할과 납기를 기록
- 데이터 전환 절차
- 데이터 전환을 위한 단계를 구분하고 각 단계별 작업 내용과 사용되는 도구를 별도로 기록
- 데이터 전환 범위
- 데이터 전환이란?
- 체크 리스트
- 체크 리스트란?
- 데이터 전환 작업자가 수행할 작업 항목과 작업 내용을 확인하는 과정
- 전환 프로그램의 오류, 업무 프로세스의 변경, 시간의 제약, 데이터 요건 변경, 하드웨어 장애 등의 리스크에 최대한 대응하기 위해 체크 리스트를 작성
- 체크 리스트 작성 단계
- 데이터 전환 작업자가 수행할 작업 항목 확인
- 데이터 전환 작업자가 각 단계별로 작업할 내용을 상세하게 분할하고 주의할 사항을 기록
- 체크 리스트 작성
- 작업 내용을 확인한 후 팀별 작업 담당자를 할당함
- 데이터 전환 작업자가 수행할 작업 항목 확인
- 체크 리스트란?
- 데이터 검증
- 데이터 검증이란?
- 데이터 전환 계획서의 내용과 체크 리스트의 작업 내용을 확인하는 단계
- 데이터 검증을 위한 전환 단계별 결과를 확인하고 전환 실적과 작업별 시작 시간과 종료 시간을 기록
- 데이터 검증의 단계
- 검증 종류와 내용을 확인
- 전환 단계별 검증 종류와 내용을 확인하고 검증을 진행
- 데이터 검증 종류: 로그 검증, 기본 항목 검증, 응용 프로그램 검증, 응용 데이터 검증
- 전환 단계별 전환 결과를 검증
- 추출 후, 변환 후, 적재 검증, 데이터 적재 후 검증
- 검증 종류와 내용을 확인
- 데이터 검증이란?
- 데이터 정제
- 데이터 정제란?
- 원천 데이터와 전환된 목적 데이터베이스 데이터의 품질을 분석하여 정상 데이터와 오류 데이터를 정량적으로 측정
- 발견된 오류를 분석하여 오류의 원인을 파악하고 원천 데이터와 응용 프로그램의 정제 필요 여부를 결정
- 데이터 정제의 일반적 방법
- 결측치(Missing Value) 처리
- 결측치란 누락된 값, 비어있는 값을 의미
- 잡음 있는 (Noisy)데이터 처리
- 잡음(noise)이란 측정된 변수에 무작위 오류나 분산이 존재하는 것을 의미
- 데이터 불일치 문제 처리
- 입력자 오류, 의도적 오류 (예: 응답자가 특정 사항에 대한 답변을 회피), 데이터의 노후화 (예: 주소 변경) 등 발생
- 결측치(Missing Value) 처리
- 데이터 정제란?
- 데이터 품질 분석
- 데이터 품질 관리란?
- 기관이나 조직 내외부의 정보 시스템 및 DB 사용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 및 개선 활동을 의미함
- 원천 데이터의 품질 분석
- 전환 전에 원천 데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있으며, 이전에 미처 발견하지 못한 데이터의 오류도 찾아낼 수 있음
- 전환된 목적 데이터베이스의 품질 분석
- 원천 데이터와 목적 데이터베이스의 속성 간 대응 관계는 주로 N:M의 대응 관계이므로 양자 간의 대응 관계를 정확히 표현하려면 데이터 레이아웃을 정확하게 파악하고 품질 검증을 진행해야 함
- 데이터 품질 관리란?
- 오류 데이터 측정
- 오류 데이터 측정
- 데이터 품질 기준에 따라 정상 데이터와 오류 데이터를 분리하고 그 수량을 정확히 측정하여 오류 관리 목록에 기재하는 과정
- 오류 데이터 정제
- 오류 목록의 내용을 확인하고 오류 해결 방안을 참조하여 원천 데이터의 정제를 요청할 것인지, 아니면 전환 프로그램을 수정할 것인지 데이터 정제 여부를 결정하는 과정
- 발견된 데이터 오류를 분석하고 원인을 파악
- 파악된 원인을 기반으로 원천 데이터와 전화 프로그램의 정제 필요 여부를 결정
- 오류 목록의 내용을 확인하고 오류 해결 방안을 참조하여 원천 데이터의 정제를 요청할 것인지, 아니면 전환 프로그램을 수정할 것인지 데이터 정제 여부를 결정하는 과정
- 오류 데이터 측정
'정보처리기사' 카테고리의 다른 글
[정보처리기사] 필기 노트 - SQL 응용 (0) | 2024.10.12 |
---|---|
[정보처리기사] 필기 노트 - SQL 활용 (1) | 2024.10.12 |
[정보처리기사] 필기 노트 - 물리 테스트 시나리오 설계 (4) | 2024.10.10 |
[정보처리기사] 필기 노트 - 논리 테스트 시나리오 설계 (0) | 2024.10.09 |
[정보처리기사] 필기 노트 - 인터페이스 구현 (0) | 2024.10.08 |