• ETL
    • ETL (Extraction, Transformation, Loading) 이란?
      • 현재 시스템에서 데이터를 추출 (Extraction)하여 새로운 시스템의 데이터베이스에 적합한 형식과 내용으로 변환 (Transformation)한 후, 적재 (Loading)하는 일련의 과정
    • 데이터 추출 (Extraction)
      • 전화 대상이 되는 원천 시스템의 데이터베이스 데이터를 순차적 접근 파일 (SAM) 형태로 추출하는 과정
    • 데이터 변환 (Transformation)
      • 원천 시스템에서 추출한 데이터 파일을 목적 시스템의 파일로 변환하는 과정
    • 데이터 적재 (Loading)
      • 목적 데이터베이스에 맞게 변환된 데이터를 데이터베이스에 저장하는 과정
  • 파일 처리 기술
    • 파일 처리 기술이란?
      • 파일을 디스크에 저장할 때, 기억 공간을 최대한 효율적으로 사용하도록 하고, 필요한 자료의 탐색을 쉽게 하기 위한 기술
    • 파일 구성의 분류
      • 순차 파일(SAM: Sequential Access Method File)
        • 입력되는 레코드들을 논리적인 순서에 따라 기억 장치에서 물리적으로 연속된 공간에 저장해 놓은 파일
        • 장점: 기록 밀도가 높아 기록 효율이 좋은
        • 단점: 삽입, 삭제시 자료의 이동이 많음
      • 직접 파일(DAM: Direct Access Method File)
        • 주어진 키를 해싱 함수를 계산해서 나온 주소에 저장하는 방식
        • 장점: 검색 속도가 빠름
        • 단점: 기억 공간의 효율이 낮음
      • 색인 순차 파일(ISAM: Indexed Sequential Access Method File)
        • 입력되는 레코드들을 키 값 순으로 정렬(Sort) 하여 기록하고, 레코드의 키 항목만을 모은 색인을 구성하여 편성하는 방식
        • 기본 영역, 인덱스 영역, 오버플로우 영역으로 구성
        • 장점: 순차 처리와 랜덤 처리가 모두 가능
        • 단점: 오버플로우 영역으로 메모리 낭비 초래
      • VSAM (Virtual Sequential Access Method file)
        • 기본 영역과 오버플로우 영역을 구분하지 않음
  • 데이터 전환 수행 계획
    • 데이터 전환이란?
      • 신정보 시스템(목적 시스템 또는 To-Be 시스템)을 개발할 때 구정보 시스템(원천 시스템 또는 As-Is 시스템)에 축적된 자료를 신정보 시스템에서 운용 가능하도록 변경, 저장하는 작업
    • 데이터 전환 수행 절차
      • 데이터 전환 범위
        • 전환 대상의 상세 내용과 데이터 형식, 대상 건수까지 파악하여 명시해야 함
      • 데이터 전환 일정
        • 팀별 업무를 분장하여 팀별 역할과 납기를 기록
      • 데이터 전환 절차
        • 데이터 전환을 위한 단계를 구분하고 각 단계별 작업 내용과 사용되는 도구를 별도로 기록
  • 체크 리스트
    • 체크 리스트란?
      • 데이터 전환 작업자가 수행할 작업 항목과 작업 내용을 확인하는 과정
      • 전환 프로그램의 오류, 업무 프로세스의 변경, 시간의 제약, 데이터 요건 변경, 하드웨어 장애 등의 리스크에 최대한 대응하기 위해 체크 리스트를 작성
    • 체크 리스트 작성 단계
      • 데이터 전환 작업자가 수행할 작업 항목 확인
        • 데이터 전환 작업자가 각 단계별로 작업할 내용을 상세하게 분할하고 주의할 사항을 기록
      • 체크 리스트 작성
        • 작업 내용을 확인한 후 팀별 작업 담당자를 할당함
  • 데이터 검증
    • 데이터 검증이란?
      • 데이터 전환 계획서의 내용과 체크 리스트의 작업 내용을 확인하는 단계
      • 데이터 검증을 위한 전환 단계별 결과를 확인하고 전환 실적과 작업별 시작 시간과 종료 시간을 기록
    • 데이터 검증의 단계
      • 검증 종류와 내용을 확인
        • 전환 단계별 검증 종류와 내용을 확인하고 검증을 진행
        • 데이터 검증 종류: 로그 검증, 기본 항목 검증, 응용 프로그램 검증, 응용 데이터 검증
      • 전환 단계별 전환 결과를 검증
        • 추출 후, 변환 후, 적재 검증, 데이터 적재 후 검증
  • 데이터 정제
    • 데이터 정제란?
      • 원천 데이터와 전환된 목적 데이터베이스 데이터의 품질을 분석하여 정상 데이터와 오류 데이터를 정량적으로 측정
      • 발견된 오류를 분석하여 오류의 원인을 파악하고 원천 데이터와 응용 프로그램의 정제 필요 여부를 결정
    • 데이터 정제의 일반적 방법
      • 결측치(Missing Value) 처리
        • 결측치란 누락된 값, 비어있는 값을 의미
      • 잡음 있는 (Noisy)데이터 처리
        • 잡음(noise)이란 측정된 변수에 무작위 오류나 분산이 존재하는 것을 의미
      • 데이터 불일치 문제 처리
        • 입력자 오류, 의도적 오류 (예: 응답자가 특정 사항에 대한 답변을 회피), 데이터의 노후화 (예: 주소 변경) 등 발생
  • 데이터 품질 분석
    • 데이터 품질 관리란?
      • 기관이나 조직 내외부의 정보 시스템 및 DB 사용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 및 개선 활동을 의미함
    • 원천 데이터의 품질 분석
      • 전환 전에 원천 데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있으며, 이전에 미처 발견하지 못한 데이터의 오류도 찾아낼 수 있음
    • 전환된 목적 데이터베이스의 품질 분석
      • 원천 데이터와 목적 데이터베이스의 속성 간 대응 관계는 주로 N:M의 대응 관계이므로 양자 간의 대응 관계를 정확히 표현하려면 데이터 레이아웃을 정확하게 파악하고 품질 검증을 진행해야 함
  • 오류 데이터 측정
    • 오류 데이터 측정
      • 데이터 품질 기준에 따라 정상 데이터와 오류 데이터를 분리하고 그 수량을 정확히 측정하여 오류 관리 목록에 기재하는 과정
    • 오류 데이터 정제
      • 오류 목록의 내용을 확인하고 오류 해결 방안을 참조하여 원천 데이터의 정제를 요청할 것인지, 아니면 전환 프로그램을 수정할 것인지 데이터 정제 여부를 결정하는 과정
        • 발견된 데이터 오류를 분석하고 원인을 파악
        • 파악된 원인을 기반으로 원천 데이터와 전화 프로그램의 정제 필요 여부를 결정

WRITTEN BY
ppdha82

,