Notice
Recent Posts
Recent Comments
09-29 07:02
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

Byeol Lo

[ADP] 1장 데이터의 이해 - 데이터의 가치와 미래 본문

AI/ADP

[ADP] 1장 데이터의 이해 - 데이터의 가치와 미래

알 수 없는 사용자 2024. 7. 11. 01:00

빅데이터의 정의

  • 데이터 자체의 특성 변화 관점: 3V(데이터의 양에서 Volume, 유형과 소스 출처에서의 Variety, 수집과 처리에서의 Velocity)를 가지는 데이터
  • 처리, 분석, 기술적 변화를 위한 정의: 새로운 데이터를 처리, 저장, 분석하는 기술 및 아키텍처 혹은 클라우드 컴퓨팅
  • 보다 넓은 정의: 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰, 가치를 추출하는 일

 

출현 배경 - 패러다임의 전환(paradigm shift)

  • 산업계의 변화 - 양질 전환 법칙으로 설명할 수 있음. 정보가 지속적으로 축적되면서 가치 창출이 가능할 만큼 충분한 규모에 도달
  • 학계의 변화 - 빅데이터를 활용한 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 지속적으로 발전
  • 기술발전의 변화
    • 아날로그 → 디지털
    • 인터넷 발전
    • 모바일 시대
    • 클라우드 컴퓨팅 - 클라우드 분산 병렬처리 컴퓨팅

 

빅데이터 기능

빅데이터의 기능을 비유한 표현

  1. 산업혁명의 석탄, 철: 제조업, 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화 생활 전반에 변화를 가져옴
  2. 21세기의 원유: 각종 비즈니스, 공공기관 대국민 서비스, 경제 성자에 필요한 정보를 제공하여 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어냄
  3. 렌즈: 데이터가 산업 전반에 영향을 미침(구글의 Ngram Viewer, 게놈 프로젝트)
  4. 플랫폼: 비즈니스 측면에서의 공동 활용의 목적으로 구축된 유무형의 구조물이며, 다양한 서드파티 사업자들이 비즈니스에 필여한 정보를 추출해 활용할 수 있으며, 빅데이터는 그 자체로 플랫폼 역할을 함.

 

빅데이터가 만들어 내는 본질적인 변화

  1. 정보의 사전처리 → 사후처리: 예전에는 폼을 이용하여 필요한 정보만을 수집하고 필요하지 않는 정보는 버렸지만, 가능한 많은 데이터를 모은 후 데이터 마이닝 기법을 활용하여 다양한 데이터를 입력 받을 수 있는 사후처리로 전환이 되고 있다.
  2. 표본조사 → 전수조사: 수집 비용이 적으며, 거대한 데이터를 처리할 수 있는 통계 도구, 기술들이 나옴, 또한 데이터를 모아두면 바뀐 질문에 따라 재가공 가능하여 융통성을 확보
  3. Quality → Quantity: 양질의 정보가 오류의 정보보다 많기 때문에 전체적으로 긍정적인 효과를 얻을 수 있음, 데이터가 증가함에 따라 사소한 몇 개의 오류는 대세에 영향을 주지 못함.
  4. 인과관계 → 상관관계: 예전에는 변인간의 인과관계를 찾으려 했지만, 인터넷 로그 등을 이용하면 특정 사이트를 이용하는 사용자 전수조사가 가능하므로 굳이 샘플링을하지 않아도 되며, 비즈니스 상황에서는 인과관계를 모르고 상관관계 분석만으로도 충분한 경우가 많음.

 

빅데이터의 가치

 빅데이터의 가치 선정이 어려운 이유

  1. 데이터의 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되어 언제/어디서/누가 활용할지 모르기에 특정 데이터의 가치를 산정하는게 어렵다.
  2.  새로운 가치 창출이 될 수 있다.
  3. 분석 기술의 발전으로 인해 높은 비용을 들여야 하는 데이터 처리가 저렴한 비용에 분석이 되면서 활용도가 증가하게 되면서 가성비가 변경이 됨.

 

빅데이터의 영향

  1. 기업 측면에서 혁신, 경쟁력, 생산성 향상을 가져다 줌
  2. 정부 측면에서 환경 탐색, 상황 분석, 미래 대응 능력이 향상됨
  3. 개인 측면에서 목적에 따라 다양하게 활용할 수 있음

 

빅데이터 활용 기본 테크닉

  • Association Rule Learning - 어떤 변인들 간에 어떤 상관관계가 있는가?
  • Classification Tree Analysis - 어떤 특성을 가진 집단에 속하는가?
  • Genetic Algorithms - 최적의 보상을 얻으려면 어떤 전략을 취해야 하는가?
  • Machine Learning - 훈련 데이터로부터 학습한 특성을 통해 예측하는 문제
  • Regression Analysis - 독립 변수를 조작하여 종속변수가 어떻게 변하는지 파악, 두 변인의 인과 관계 파악
  • Sentiment Analysis - 특정 콘텐츠에 대해 쓴 사람의 감정을 파악
  • Social Network Analysis - 특정인이 다른 사람과 몇촌인지 파악

실생활에서 사용할 수 있는 대표적 테크닉이다.

 

위기 요인과 통제 방안

위기 요인

  1. 사생활 침해(익명화-anonymization 기술 사용하여 완화 가능)
  2. 책임 원칙 훼손(예측 알고리즘의 희생)
  3. 데이터 오용(데이터의 활용자가 데이터를 너무 과신함)

통제 방안

  1. 동의에서 책임으로: 개인정보 제공자의 동의를 통해 해결하기 보다 개인정보 사용자의 책임으로
  2. 결과 기반 책임 원칙 고수: 기존 책임 원칙을 더 보강하고 강화함
  3. 알고리즘 접근 허용: 오픈소스

 

Comments