📌 딥러닝 최적화 & 유도 바이어스 핵심 정리
1. Gradient Descent vs SGD
✔ Gradient Descent (GD)
- 전체 데이터를 한 번에 사용하여 업데이트
- 장점: 안정적이고 부드럽게 수렴
- 단점: 계산량 큼, 속도 느림
✔ SGD (Stochastic Gradient Descent)
- 일부 데이터(배치)만 사용해서 업데이트
🔑 핵심 개념
- Iteration (Step): 배치 1번 학습
- Epoch: 전체 데이터 1번 다 사용
✔ SGD 특징
장점
- 계산 효율 ↑ (빠름)
- 다양한 방향 탐색 가능 → 로컬 미니멈 탈출 가능성 ↑
단점
- 변동성 큼 (불안정)
- 방향이 들쭉날쭉
✔ GD vs SGD 차이 요약
| 구분 | GD | SGD |
| 데이터 사용 | 전체 | 일부 |
| 속도 | 느림 | 빠름 |
| 안정성 | 높음 | 낮음 |
| 탐색 능력 | 낮음 | 높음 |
2. SGD + Momentum (모멘텀)
✔ 왜 필요한가?
SGD는 너무 자유분방하게 움직임 → 불안정
👉 해결: 이전 방향을 기억하자
✔ Momentum 개념
- 과거 업데이트 방향을 평균내서 반영
- 물리의 관성 개념
✔ 효과
장점
- 진동 감소
- 수렴 속도 증가
- 더 안정적인 학습
✔ 핵심 파라미터
- γ (감마): 과거를 얼마나 반영할지 결정
- 0.9 → 최근 9 step 정도 반영
- 0.99 → 더 긴 과거 반영
3. 대표 Optimizer
실무에서 거의 이렇게 사용됨 👇
- Adam
- AdamW ⭐ (요즘 가장 많이 사용)
- RMSProp
👉 결론:
Optimizer 자체보다 Learning Rate 튜닝이 훨씬 중요
4. Learning Rate (학습률)
✔ 중요성
- 너무 크면 → 발산
- 너무 작으면 → 학습 느림
✔ 해결 방법: Scheduler
학습률을 점점 줄임
- 초반: 크게 → 탐색
- 후반: 작게 → 정밀 조정
5. Batch Size
✔ 특징
- 작을수록 → 불안정하지만 일반화 좋음
- 클수록 → 안정적이지만 계산 부담 큼
✔ 실무 기준
- 보통 16 ~ 2048
- 대부분 2의 배수 사용
6. 유도 바이어스 (Inductive Bias)
✔ 정의
모델이 특정 패턴을 더 잘 학습하도록 사람이 힌트를 주는 것
✔ 왜 필요한가?
- 데이터 부족할 때 성능 향상
- 학습 속도 증가
✔ 장점
- 일반화 성능 ↑
- 학습 안정성 ↑
✔ 단점
- 잘못된 힌트 → 성능 악화
- 유연성 감소
7. 신경망별 유도 바이어스
✔ MLP
- 유도 바이어스 ❌
- 모든 입력을 독립적으로 처리
👉 특징:
- 구현 쉬움
- baseline 모델로 좋음
✔ CNN (이미지)
유도 바이어스
- 인접 픽셀은 관련 있음
- 위치가 바뀌어도 같은 객체
👉 핵심 개념:
- 위치 불변성
- 지역성(Locality)
✔ RNN (시계열)
유도 바이어스
- 시간 순서 중요
- 과거 데이터가 미래에 영향
👉 특징:
- 순차 데이터 처리
✔ Transformer
유도 바이어스
- 모든 단어 간 관계 고려
👉 핵심:
- Attention Mechanism
8. Feature Engineering도 유도 바이어스
✔ 예시
이메일 판별
- '@' 포함 여부
- '.com' 여부
고객 행동 데이터
- 최근 참여 여부
- 참여 횟수
교통량 예측
- 이전 시간대 데이터
- 주변 도로 정보
- 날씨, 공휴일
👉 핵심
데이터를 "잘 가공하는 것"도 강력한 모델링 방법
9. 핵심 정리 (시험용 ⭐)
✔ SGD
- 빠르지만 불안정
- 로컬 미니멈 탈출 가능
✔ Momentum
- 이전 방향 반영 → 안정화
✔ Optimizer
- AdamW 많이 사용
✔ Learning Rate
- 가장 중요한 하이퍼파라미터
✔ Batch Size
- 작으면 일반화 ↑ / 크면 안정성 ↑
✔ Inductive Bias
- 사람이 주는 힌트
- CNN, RNN, Transformer의 핵심 아이디어
🔥 한 줄 핵심 요약
딥러닝 성능 = Optimizer + Learning Rate + Batch Size + Inductive Bias
'인하대학교 공학대학원(인공지능융합전공) > 심층신경망' 카테고리의 다른 글
| 심층신경망_CNN부터 RNN까지: 시계열 데이터와 순환신경망 완전 정리 (1) | 2026.04.17 |
|---|---|
| 심층신경망 - CNN (0) | 2026.04.11 |
| 심층신경망-신경망의 기본구조와 학습방식 (0) | 2026.03.26 |
| 심층신경망-딥러닝의 종류 (0) | 2026.03.20 |
| 심층신경망-딥러닝의 기본개념과 발달과정 (0) | 2026.03.13 |