https://brunch.co.kr/@rapaellee/4


분석이란 걸 위한 통계 완전 기초

Chapter 1. 통계 기본 함수

Chapter 2. 표준화/정규화

  * 통계 분석에 유용하지만 극악의 난이도를 부여하는 시간(time)에 대해서 부가적으로 약간 이야기하겠습니다.

Chapter 3. 데이터 전처리

Chapter 4. 클러스터링, 장바구니

Chapter 5. 의사결정나무(Decision Tree), 회귀분석(Regression), 신경망분석(Neural Network)

Chapter 6. 모형평가, WoE


00. 시간 (Time)

  - 통계 분석 뿐만 아니라 대부분의 일들에서 시간 개념이 들어가면 상상하기에 매우 복잡해 집니다.

  남자들은 군대로 회피하기도 하죠.^^

  - 또한 통계에서 본격적으로 이야기하는 시계열(Time series)까지는 아니더라도, 데이터에 시간의 개념이 들어가면 정지해있던 데이터에 방향성이 부여되면서 데이터가 볼만해지기 시작합니다.

  - 시간의 분석 단위는 상황에 따라 다르지만, 시/분/초 보다는 일/주/월/분기/반기/년 단위가 자주 쓰입니다.


  일반 데이터와 시간이 결합되면 다음과 같이 됩니다.

  - 매출 + 시간(월) = 월별 매출 추이

  - 주식가격 + 시간(일) = 일별 주식 시세

  - 평균 + 시간(월) = 월별 이동 평균

  - 고객 등급 + 시간(월) = 월별 고객등급 변동 추이


  어떤 데이터를 보면 거기에 시간의 흐름에 따른 변화를 상상/관찰하는 습관을 가지는 것을 권장합니다.


01. 표준화 (Standardization)

  - 수식: (요소값 - 평균) / 표준편차

  - 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값으로, 이 방법을 적용하려는 때는 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 합니다.

  예를 들어, 삼성전자와 현대차의 주식시세에 대해 동일 기간에 대해 표준화를 수행하면 두 종목이 어떤 특징을 가지고 움직이는 지 관찰하는데 도움이 됩니다.

   또 다른 예시로 몸무게와 키에 대해 표준화를 수행한 후 데이터를 보았을 때 몸무게는 음수, 키는 양수 값이 나온다면 그 사람은 평균보다 키가 크고 몸이 마른 편이라 볼 수 있습니다.

  - 또한 이 방법은 데이터를 다소 평평하게 하는(로그보다는 덜하지만 데이터의 진폭을 줄이는) 특성을 가집니다. 이 방법을 적용하면 간극이 줄어드는 효과가 발생하여 고객별 매출금액과 같이 간극이 큰 데이터의 간극을 줄이는 결과를 얻게 됩니다. 그 결과 분석 대상 고객군을 정하는 데 (약간의) 편의성을 제공하게 됩니다.

일별 가격 데이터에 표준화 적용


02. 정규화 (Normalization)

  - 수식: (요소값 - 최소값) / (최대값 - 최소값)

  - 정규화는 전체 구간을 0~100으로 설정하여 데이터를 관찰하는 방법입니다.

  이 방법은 데이터 군 내에서 특정 데이터가 가지는 위치를 볼 때 사용합니다.

  시세와 같이 주기를 띄는 데이터의 경우 과거 대비 현재 데이터의 위치를 파악하기에 용이합니다.

일반 가격 데이터에 정규화 적용


  정규화/표준화는 데이터를 보는 유일한 값은 아니지만, 데이터를 볼 때 중간단계 가공 방법 혹은 대략적으로 형태를 볼 때 유용하게 쓰이며 수식 또한 어렵지 않습니다.

  여기까지 우선 데이터를 살펴보기 위한 기본적인 함수/방법을 마치고, 다음 단원에선 데이터 전처리에 대해 기록하도록 하겠습니다. 데이터 전처리는 정해져 있는 것이 아니라서 경험 위주의 기술이며, 생각을 더듬어가며 기록해야 하기에 약간의 시일이 소요될 듯 합니다.