머신러닝 예제에서 많이 사용하는 데이터셋 중 하나가 iris 데이터셋입니다. Iris는 붓꽃을 의미하고 프랑스 국화라고 하네요. 이 데이터셋은 현대 통계학에서 대가이신 Roland Fisher 분이 수집한 데이터셋입니다.
이 데이터셋의 포함된 붓꽃의 특성은 아래와 같습니다.
- 꽃받침 길이 (cm)
- 꽃받침 너비 (cm)
- 꽃입 길이 (cm)
- 꽃입 너비 (cm)
그리고 타겟 즉 예측해야할 라벨은 바로 붓꽃의 종류이며, 종류는 다음과 같습니다.
- Setosa
- Versicolour
- Virginica
본 예제에서는 데이터 전처리 과정을 간소화시키기 위해서 타겟이 문자열이 아닌 0, 1, 2인 정수로 인코딩 되어 있습니다.