“데이터과학을 위한 통계” 책을 읽고 있다.
앞으로 거기에 나오는 개념들을 포스팅해보려 한다.

데이터의 종류를 구분하는 이유

  • 데이터 분석, 예측 모델링 할 때, 데이터 종류에 따라 시각화, 해석, 통계 모델 결정 방법이 달라진다.
  • 데이터를 다루는 프로그램에서 데이터 종류를 어떻게 나누는가에 따라
    연산속도의 차이가 있기 때문에 잘 분류하는 것이 좋다.

정형 데이터의 종류

보통 RDBMS에 들어가는 정형화된 데이터 종류.

수치형 (Numeric)

  • 숫자를 이용해 표현 할 수 있는데이터
  • 연속형 데이터, 이산 데이터 등이 포함된다.

    ### 연속형 (Continuous)

    • 일정 범위 안에서 어떤 값이든 취할수 있는 데이터
    • 실수로 표현 가능
    • 평균과 표준편차, 분산으로 표현 가능
    • 예) 나이, 몸무게

    ### 이산 (Discrete)

    • 횟수와 같이 정수값만 취할 수 있는 데이터
    • 예) 불량품 수, 무단횡단 횟수

범주형 (Categorical), 다항형 (Polychotomous)

  • 가능한 범주 안의 값만을 취하는 데이터
  • 명목형 데이터, 순서형 데이터 등이 포함됨

    ### 명목형 (Nomial)

    • 순서가 없는 범주형 데이터
    • 예) 좋아하는 음식, 혈액형, 성공여부

    ### 순서형 (Ordinal)

    • 값들 사이에 순서가 있는 범주형 데이터
    • 예) 설문조사결과(나쁨,보통,중간), 영화 별점(1~5개)

    ### 이진 (Binary)

    • 두 개의 값 만을 갖는 범주형 데이터
    • 예) 참/거짓, 생존/사망

Leave a comment