05. Linear Regression - Gradient Descent

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

J's Study log

05. Linear Regression - Gradient Descent 본문

Machine Learning/Supervised Learning(감독학습)

05. Linear Regression - Gradient Descent

정우섭 2023. 7. 4. 17:03

Gradient Descent

우리가 Gradient Descent를 사용하는 목적은 당연히 Cost Function의 최솟값을 찾기 위해서이다.

Gradient Descent는 아래 사진에 보이는 이론으로 optimal 𝜃 값을 찾는다.

미분결과값이 양수인 경우, 양수방향으로 이동시키기 위해서 𝜃 값을 증가시킨다.

반대로, 미분결과값이 음수인 경우에는 𝜃 값을 감소시킨다.

연산을 수행할 때, 𝛂(learning rate) 값을 곱해준다.

Learning Rate

머신러닝에서 "learning rate"(학습률)은 모델의 학습 속도를 제어하는 매개변수다.

학습률은 Gradient Descent와 같은 최적화 알고리즘에서 사용되며, 모델 파라미터를 업데이트하는 간격을 결정한다.

학습률이 너무 높으면, 모델은 최적의 솔루션을 "넘어서" 버릴 수 있다.

이는 모델이 최소비용을 찾는 과정에서 비용 함수의 골짜기를 너무 크게 건너뛰어서 적절한 해답을 찾지 못하게 만들 수 있다.

학습률이 너무 높아서 모델의 학습이 수렴하지 않고, 비용 함수 값이 진동하거나 발산할 수 있다.

반대로 학습률이 너무 낮으면, 모델은 최적의 솔루션에 도달하는 데 너무 많은 시간을 소요하게 된다.

학습률이 너무 낮아서 모델의 학습이 매우 느려질 수 있으며, 때로는 지역 최솟값에 갇히거나, 최적의 해답에 도달하기 전에 학습이 중단될 수 있다.

따라서 학습률은 매우 중요한 하이퍼파라미터로, 적절한 값을 설정하는 것이 중요하다.

이 값을 찾는 일반적인 방법은 여러 학습률을 시도하고 검증 오차가 가장 낮은 값을 선택하는 Greed Search이나 Random Search 등이다.(결국 노가다이다..)

또한, 학습률 스케줄링 같은 기법을 사용하여 학습 과정 동안 학습률을 동적으로 조정할 수도 있다.

Gradient Descent Update

위 결과를 얻기 위해, 아래 수식을 통해 𝜃 값이 수렴할 때까지 연산을 수행한다.

𝜃 값 업데이트 시에 조심해야하는 문제가 있다.

아래와 같이 각 𝜃 에 대한 업데이트를 모든 𝜃 에 대한 연산이 끝난 후, 동시에 수행되어야 한다는 것이다.

왜 그런 것일까?

동시에 업데이트 하지않으면(사진:Incorrect의 경우) temp1을 연산할 때 문제가 발생한다.

원래 (𝜃0, 𝜃1)에 대한 연산을 수행해야하는데, (업데이트 된 𝜃0, 𝜃1)에 대한 연산이 수행되기 때문에 오류가 발생하기 때문이다.

Gradient Descent Algorithm

Batch Gradient Descent: 전체 훈련 세트에 대해 그래디언트를 계산한다. 이 방법은 전체 데이터에 대해 계산을 하기 때문에 한 번의 업데이트가 많은 시간과 메모리를 필요로 하지만, 최적화 과정이 안정적이다.

m = M → Batch Gradient Descent (BGD)
- 장점: 올바른 방향을 가리킴, 단점: 속도가 느리고, local minimum에 빠질 수 있음

Stochastic Gradient Descent (SGD): SGD는 매개변수를 업데이트하기 위해 훈련 세트에서 무작위로 선택한 하나의 샘플에 대해 그래디언트를 계산한다. 이 방법은 계산이 빠르고 메모리를 적게 사용하지만, 업데이트가 불안정하고 최적화 과정이 불규칙적이다.

m = 1 → Stochastic Gradient Descent (SGD)
- 장점: 더 넓은 탐색 범위를 가짐, 단점: 잘못된 방향을 가리킬 수 있음 (수렴하기 어려움)

Mini-Batch Gradient Descent: 이 방법은 Batch와 SGD의 중간 형태로, 훈련 세트의 작은 무작위 부분집합(즉, mini-batch)에 대해 그래디언트를 계산한다. 이 방법은 Batch와 SGD의 장점을 혼합한 것으로, 계산 효율성과 알고리즘의 안정성 사이에 좋은 균형을 제공한다.