인하대학교 공학대학원(인공지능융합전공)/심층신경망

심층신경망-신경망의 학습방식

복리 엔지니어 2026. 4. 10. 19:14

📌 딥러닝 최적화 & 유도 바이어스 핵심 정리

1. Gradient Descent vs SGD

✔ Gradient Descent (GD)

  • 전체 데이터를 한 번에 사용하여 업데이트
  • 장점: 안정적이고 부드럽게 수렴
  • 단점: 계산량 큼, 속도 느림

✔ SGD (Stochastic Gradient Descent)

  • 일부 데이터(배치)만 사용해서 업데이트

🔑 핵심 개념

  • Iteration (Step): 배치 1번 학습
  • Epoch: 전체 데이터 1번 다 사용

✔ SGD 특징

장점

  • 계산 효율 ↑ (빠름)
  • 다양한 방향 탐색 가능 → 로컬 미니멈 탈출 가능성 ↑

단점

  • 변동성 큼 (불안정)
  • 방향이 들쭉날쭉

✔ GD vs SGD 차이 요약

구분 GD SGD
데이터 사용 전체 일부
속도 느림 빠름
안정성 높음 낮음
탐색 능력 낮음 높음

2. SGD + Momentum (모멘텀)

✔ 왜 필요한가?

SGD는 너무 자유분방하게 움직임 → 불안정

👉 해결: 이전 방향을 기억하자


✔ Momentum 개념

  • 과거 업데이트 방향을 평균내서 반영
  • 물리의 관성 개념

✔ 효과

장점

  • 진동 감소
  • 수렴 속도 증가
  • 더 안정적인 학습

✔ 핵심 파라미터

  • γ (감마): 과거를 얼마나 반영할지 결정
    • 0.9 → 최근 9 step 정도 반영
    • 0.99 → 더 긴 과거 반영

3. 대표 Optimizer

실무에서 거의 이렇게 사용됨 👇

  • Adam
  • AdamW ⭐ (요즘 가장 많이 사용)
  • RMSProp

👉 결론:

Optimizer 자체보다 Learning Rate 튜닝이 훨씬 중요


4. Learning Rate (학습률)

✔ 중요성

  • 너무 크면 → 발산
  • 너무 작으면 → 학습 느림

✔ 해결 방법: Scheduler

학습률을 점점 줄임

  • 초반: 크게 → 탐색
  • 후반: 작게 → 정밀 조정

5. Batch Size

✔ 특징

  • 작을수록 → 불안정하지만 일반화 좋음
  • 클수록 → 안정적이지만 계산 부담 큼

✔ 실무 기준

  • 보통 16 ~ 2048
  • 대부분 2의 배수 사용

6. 유도 바이어스 (Inductive Bias)

✔ 정의

모델이 특정 패턴을 더 잘 학습하도록 사람이 힌트를 주는 것


✔ 왜 필요한가?

  • 데이터 부족할 때 성능 향상
  • 학습 속도 증가

✔ 장점

  • 일반화 성능 ↑
  • 학습 안정성 ↑

✔ 단점

  • 잘못된 힌트 → 성능 악화
  • 유연성 감소

7. 신경망별 유도 바이어스

✔ MLP

  • 유도 바이어스 ❌
  • 모든 입력을 독립적으로 처리

👉 특징:

  • 구현 쉬움
  • baseline 모델로 좋음

✔ CNN (이미지)

유도 바이어스

  • 인접 픽셀은 관련 있음
  • 위치가 바뀌어도 같은 객체

👉 핵심 개념:

  • 위치 불변성
  • 지역성(Locality)

✔ RNN (시계열)

유도 바이어스

  • 시간 순서 중요
  • 과거 데이터가 미래에 영향

👉 특징:

  • 순차 데이터 처리

✔ Transformer

유도 바이어스

  • 모든 단어 간 관계 고려

👉 핵심:

  • Attention Mechanism

8. Feature Engineering도 유도 바이어스

✔ 예시

이메일 판별

  • '@' 포함 여부
  • '.com' 여부

고객 행동 데이터

  • 최근 참여 여부
  • 참여 횟수

교통량 예측

  • 이전 시간대 데이터
  • 주변 도로 정보
  • 날씨, 공휴일

👉 핵심

데이터를 "잘 가공하는 것"도 강력한 모델링 방법


9. 핵심 정리 (시험용 ⭐)

✔ SGD

  • 빠르지만 불안정
  • 로컬 미니멈 탈출 가능

✔ Momentum

  • 이전 방향 반영 → 안정화

✔ Optimizer

  • AdamW 많이 사용

✔ Learning Rate

  • 가장 중요한 하이퍼파라미터

✔ Batch Size

  • 작으면 일반화 ↑ / 크면 안정성 ↑

✔ Inductive Bias

  • 사람이 주는 힌트
  • CNN, RNN, Transformer의 핵심 아이디어

🔥 한 줄 핵심 요약

딥러닝 성능 = Optimizer + Learning Rate + Batch Size + Inductive Bias