일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 자바
- Entity
- Java
- 리눅스 기초
- preprocessing
- Class
- python
- X.org
- systemd
- Reference Type
- Inheritance
- External Scheme
- 리눅스 마스터 1급
- selenium
- 셀레니움
- 백준
- zsh
- 리눅스
- Binary Search
- dbms
- BFS
- X윈도우
- Unity
- literal
- Polymolphism
- Mac
- Entity Set
- OOP
- Physical Scheme
- Operator
- Today
- Total
목록2024/07/16 (5)
Byeol Lo
비정형 데이터를 처리하기 위해서 우선 비정형 데이터 수집 시스템의 특징을 보자.초고속 수집 성능과 확장성: 대용량 데이터를 놓치지 않고 수집할 수 있어야 하며, 수집 대상 서버가 증가한다면, 증가한 서버 수만큼 에이전트의 수를 늘리는 방식으로 확장할 수 있는 구조를 가져야 함데이터 전송 보장 메커니즘: 분산 파일시스템, 데이터베이스, NoSQL 등에 저장함. 이때 다양한 데이터 전송 방식을 쓰는데, 단계 별로 신호를 주고 받을 때 신호가 유실되지 않도록 보장해야 함. 이때 각 방식은 성능과 안정성이라는 trade-off 가 존재하므로 비즈니스 특성을 고려하여서 설계해야 함다양한 수집과 저장 플러그인: 하둡 저장, NoSQL을 포함한 다양한 데이터베이스에 저장하는 플러그인들을 제공인터페이스 상속을 통한 어..
데이터 통합 및 연계는 다음이 혼합되어 사용됨BatchNear Real TimeReal TimeBatchNear Real TimeReal Time비실시간임대용량 데이터 위주높은 데이터 조작 복잡성ETL 가능CDC(Change Data Capture)감사 중적웹서비스/SOA교차 참조데이터 재 처리 허용Point-to-Point 데이터 연계자동화 도구 및 자체 개발 SW 혼용Near Real Time중간 용량의 데이터중간 데이터 조작 복잡성ETL 가능CDCPooling(IS의 데이터베이스에서 통합데이터베이스로의 풀링) and DB Stream웹서비스/SOA감사 중적(audit trail)다수 데이터 원천 및 목표 시스템데이터 재 처리 허용자동화 도구 및 자체 개발 SW 허용실시간(Real-Time) 데이터 ..
다수의 기업에서는 부서 간에 데이터를 공유하는 것이 필수이다. 이 데이터는 IS(Information System)를 통해서 전부 얻게 되는데, 여기서 기존 단위 업무 위주의 IS 개발 시에는 그때그때 필요에 따라 IS들간의 point-to-point 연결이 필요할 것이고, 유지보수성이 극도로 저하되고, 데이터 통합과 표준화를 불가능하게 한다. 이때 필요한 것이 EAI인데, EAI는 기업의 IS 들의 데이터를 동기화시키는 소프트웨어 및 IS 아키텍처 프레임워크이다. 이질적인 정보들을 서로 같게 해서 데이터 엔티티들에 대한 폭넓고 통합적인 뷰를 제공한다. 또한 비즈니스 프로세스를 자동화하고 실시간으로 통합 연계할 수 있다. EAI를 디자인하는 방식은 다양한데, point-to-point 방식으로 정보시스템..
데이터베이스는 하나의 시점의 데이터가 아니라 계속 변화되는 데이터다. 따라서 데이터 내의 변경이 있을 때는 다른 사람들이 데이터베이스 내부의 데이터가 변경됐는지 모를 것이다. CDC는 이를 알려주기 위해 필요한 후속 처리(데이터 전송/공유) 를 자동화하는 기술 또는 설계 기법이자 구조다. 또한, CDC는 실시간 또는 근접 실시간 데이터 통합을 기반으로 하는 데이터 웨어하우스 및 기타 데이터 저장소 구축에 폭 넓게 활용된다. 이때 CDC는 물리 계층부터 어플리케이션 계층까지 다양한 기술을 통해 구현될 수 있다.Time Stamp on Rows: 마지막 변경 시점을 기록하기 위한 time stamp 필드를 두고 최근의 타임스탬프 값을 갖는 레코드로 변경Version Numbers on Rows: 버전을 기록..
ETL은 데이터 이동과 변환 절차와 관련된 업계 표준 용어임. ETL은 데이터 웨어 하우스(DW, Data Warehouse), 운영 데이터 스토어(ODS, Operational Data Store), 데이터 마트(DM, Data Mart)에 대한 데이터 적재 작업의 핵심 구성 요소임. 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management) 에 폭넓게 활용됨. 먼저 관련 시스템(DW, ODS, DM) 이 무엇인지 간단하게만 보자. DW, Data Warehouse 여러 운영 시스템과 외부 데이터 소스에서 수집된 데이터를 통합하고, 분석가능한 형태로 저장하는 중앙 저장소임. 보통 BI 를 지원하고 있어..