[머신러닝 배우기] 8.데이터 - 데이터 표준화와 문제유형

데이터 표준화

데이터를 비교하기 쉽게 만드는 방법을 데이터 표준화라고 한다. 데이터 형에 따라 표준화 방법이 달라진다. 수치 데이터와 카테고리 데이터, 서수 데이터의 표준화에 대해서 알아보자.

수치 데이터 표준화

키와 몸무게처럼 서로 단위가 다른 수치를 직접 비교하는건 의미가 없다. 이런 경우 둘다 평균이 0이고 표준편차가 1인 데이터로 바꾼 후 비교하면 두 데이터간의 상관관계를 발견할 수도 있다. 이런 방식을 z-score 표준화라고 한다.

$z-score-standardization$

식은 위에처럼 표현할 수 있다. 고등학교때 한번쯤 보았을 식이다. 값과 평균을 빼서 표준편차로 나누는 식이다.

이 외에도 척도화와 벡터 정규화방식으로 데이터를 변환하여 사용할 수 있다.

카테고리 데이터 표준화

카테고리 데이터 사이의 유사도 계산을 위해 원-핫 인코딩이라는 방식을 사용한다. 데이터를 1 또는 0으로 나타내는 것이다. 예를들어, 사용자1이 상품A,C를 샀다면 상품 A와 C는 1이고 B와 D는 0으로 나타내는 것이다.

이렇게 카테고리를 변환하고 나면 다른 사용자들과 각각의 상품을 샀는지 안샀는지를 직접 비교하여 얼마나 유사한지를 쉽게 알아 볼 수 있다.

서수 데이터 표준화

서수 데이터란 쉽게 말해 영화의 평점이나, 설문조사의 ‘전혀 그렇지 않다’ 부터 ‘매우 그렇다’ 같은 형식을 말한다. 일반적으로 아래의 식을 사용하여 표준화한다.

(점수 - 1/2) / 최고점수

문제 유형

문제 유형은 우리가 머신러닝에서의 학습방법에 대해 이야기 할 때 언급한 적이 있다. 크게 회귀, 분류, 군집화, 표현형학습이 있다.

회귀 문제

회귀는 입력을 받아서 가장 적합한 숫자값을 예측하는 문제라고 볼 수 있다. 주가시장정보를 종합해 주식값을 예측한다던지 하는 것이다. 다른 문제를 해결하다가도 결국 회귀문제로 귀결되는 경우가 많고, 다른 머신러닝 기법들의 풀이 근간이 되기도 한다. 회귀는 가장 기본적이면서 중요하다고 할 수 있다.

분류 문제

분류는 입력을 보고 여러가지 항목중에 어느 것인지 선택하는 것이라고 볼 수 있다. 신문기사를 보고 이 기사가 어느 분류인지를 선택하는 것 등이 해당된다.

군집화 문제

군집화는 비슷한 성격의 데이터를 묶는 문제이다. 이야기만 들어서는 분류문제와 같아 보이는데, 차이점은 답이 주어진상태에서 선택하는 것이 아니라 입력된 데이터들 간의 내재된 분류를 찾아야 한다는 점이다.

표현형학습

표현형학습은 쉽게 이야기해서 복잡한 데이터를 단순화 하는 것을 학습하는것이다. ‘고양이’와 ‘야옹이’를 같은 것으로 해석할 수 있게 되면 표현형을 학습했다고 할 수 있다.