Post

Big Data 01: INTRO

1. 빅데이터의 4V

  1. Volume
  2. Variety
  3. Velocity
  4. Veracity(데이터가 믿을 만한지)

2. 데이터가 중요한 이유

통상적으로 데이터는 저장, 처리, 분석의 과정이 필요하다.
저장과 처리의 경우 데이터 엔지니어가 수행하며, 분석의 경우 데이터 분석을 통해 수행된다.
일반적으로 데이터는 단순히 저장을 하는데 의의를 두기보다는 Processing(가공)하고 Analyzing(분석)하는데 초점을 둔다.

3. 데이터 마이닝이란?

데이터로부터 지식 발견하는 것을 말한다.
방대한 양의 데이터가 주어지면, Valid, Useful, Unexpected, Understandable한 패턴과 모델을 찾아 지식을 발견하는 것을 데이터 마이닝이라고 한다.

4. 데이터 마이닝 방식

  • Descriptive methods
    데이터를 설명하는 인간이 이해할 수 있는 패턴을 찾는 방법
    예) Clustering
  • Predictive methods
    변수들을 이용해 알 수 없는 미래의 값을 예측하는 방법
    예) Recommender Systems

5. Bonferroni의 원리

데이터 마이닝을 할 때, 무의미한 패턴을 발견하는 위험이 존재한다.

본페르니의 원리는 다음과 같다.
데이터가 본래 갖고 있는 가치보다 더 많은 패턴을 찾고 싶을 때, 쓰레기 값이 나온다는 원리이다.

This post is licensed under CC BY 4.0 by the author.