02. Supervised Learning
선행 개념인 Machine Learning에 대해서는 앞선 글(01. Introduction to Machine Learning)을 참고해주세요.
Supervised Learning
Supervised Learning은 훈련 데이터에 대한 label 또는 답변이 제공되는 머신러닝의 한 유형입니다.
(Label 예시: 메시지에 대한 #스팸 또는 #not 스팸 label)
Supervised Learning의 주요 목표는 관찰되지 않았거나 label이 없는 다른 데이터의 레이블을 찾는 것입니다.
Supervised Learning: Types
회귀(Regression)
회귀는 실제 값을 예측하는 목표를 가진 Supervised Learning의 한 유형입니다. 일반적인 예로는 주택 가격 예측이 있습니다.
예를 들어, 아래 사진과 같이 크기가 500인 주택의 가격은 얼마인지를 예측하는 것입니다.
분류(Classification)
분류는 각 데이터 샘플을 분류하는 것입니다. 필기된 숫자의 사진이 어떤 숫자 Label인지 분류하는 MNIST 데이터셋이 대표적인 예입니다.
Supervised Learning: 회귀와 분류
회귀와 분류는 같은 목표와 방법을 가지지만 출력 유형이 다릅니다.
- 회귀: 연속적인 결과를 예측합니다.
- 분류: 이산적인 결과를 예측합니다.
Supervised Learning: 추가 예시들
- 얼굴 인식: 자세, 조명, 안경, 수염, 메이크업, 헤어 스타일 등을 인식합니다.
- 문자 인식: 다양한 필기체 스타일에 관계없이 문자를 인식합니다. (예: MNIST)
- 음성 인식: 구간별 종속성을 찾아냅니다.
- 의료 진단: 증상을 통해 질병을 진단합니다.
- 생체 인식: 물리적 및/또는 행동 특성을 사용한 인식/인증: 얼굴, 홍채, 서명 등
- 이상치/신규성 감지 (예: 스팸 감지)
퀴즈
당신이 회사를 운영하고 있고, 두 가지 문제 각각에 대해 학습 알고리즘을 개발하려고 합니다.
- 문제 1: 당신은 동일한 품목의 대량 재고를 가지고 있습니다. 다음 3개월 동안 이 품목들이 얼마나 팔릴지 예측하려고 합니다.
- 문제 2: 소프트웨어가 개별 고객 계정을 검토하고, 각 계정이 해킹되었는지/침해당했는지를 결정하려고 합니다.
이를 분류 문제로 봐야 할까요, 아니면 회귀 문제로 봐야 할까요?
- 둘 다 분류 문제로 취급합니다.
- 문제 1을 분류 문제로, 문제 2를 회귀 문제로 취급합니다.
- 문제 1을 회귀 문제로, 문제 2를 분류 문제로 취급합니다.
- 둘 다 회귀 문제로 취급합니다.
정답은 3번입니다.(문제 1:연속적인 결과, 문제 2:이산적인 결과)
이러한 질문들은 Supervised Learning의 이해를 돕고, 실제 문제에 어떻게 적용할 수 있는지에 대한 통찰력을 제공합니다.
이는 당면한 문제를 해결하기 위해 개발자가 어떤 학습 방법을 사용하는 것이 유용한지 판단하는데 도움이 됩니다.
결과적으로 우리는 데이터에서 유용한 패턴을 학습하고 예측을 수행할 수 있습니다.