본문 바로가기

AI 프로그래밍

데이터 다중 분류 : 원-핫 인코딩, 소프트맥스 개념 및 예제

- 2023.04.17


다중 분류 (Multi Classification)

 

다중 분류

: 여러 개의 답 중 하나를 고르는 분류 문제

- 이항 분류와는 접근 방식이 조금 다름

 

Iris 시각화

 

  • 데이터의 일부를 불러와 내용 확인

 

 

  • seaborn.pairplot 함수로 데이터 한번에 보기 (상관도 그래프)
  • species 기준

 

 

 

원-핫 인코딩

 

원-핫 인코딩 (One-Hot Encoding)

: 여러 개의 값으로 된 문자열을 0과 1로만 이루어진 형태로 만들어 주는 과정

  • 각각의 데이터 범주에 대해 연속성, 순서에 대한 의미가 사라짐
  • 판다스가 제공하는 get_dummies() 함수 이용

 

  • 데이터 프레임을 X와 y로 분류

 

 

  • y의 값이 숫자가 아닌 문자 -> 모두 숫자형으로 변경
  • 자신의 이름과 일치하면 1, 나머지는 0

 

 

소프트맥스

 

소프트맥스

: 각 항목당 예측 확률을 0과 1 사이의 값으로 나타내는데, 각 샘플당 예측 확률의 총합이 1인 형태로 바꾸어 주게 됨

  • setosa일 확률, versicolor일 확률, virginica일 확률을 따로따로 구해야 함
  • activation란에 'softmax'
  • 손실 함수 : categorical_crossentropy 사용

 

 

Iris 결과

 

  • 전체 코드

 

 

 

  • 결과 : 정확도 97.3%