인하대학교 공학대학원(인공지능융합전공)/심층신경망

심층신경망-신경망의 학습방식

복리 엔지니어 2026. 4. 10. 19:14

📌 딥러닝 최적화 & 유도 바이어스 핵심 정리

1. Gradient Descent vs SGD

✔ Gradient Descent (GD)

전체 데이터를 한 번에 사용하여 업데이트
장점: 안정적이고 부드럽게 수렴
단점: 계산량 큼, 속도 느림

✔ SGD (Stochastic Gradient Descent)

일부 데이터(배치)만 사용해서 업데이트

🔑 핵심 개념

Iteration (Step): 배치 1번 학습
Epoch: 전체 데이터 1번 다 사용

✔ SGD 특징

장점

계산 효율 ↑ (빠름)
다양한 방향 탐색 가능 → 로컬 미니멈 탈출 가능성 ↑

단점

변동성 큼 (불안정)
방향이 들쭉날쭉

✔ GD vs SGD 차이 요약

구분	GD	SGD
데이터 사용	전체	일부
속도	느림	빠름
안정성	높음	낮음
탐색 능력	낮음	높음

2. SGD + Momentum (모멘텀)

✔ 왜 필요한가?

SGD는 너무 자유분방하게 움직임 → 불안정

👉 해결: 이전 방향을 기억하자

✔ Momentum 개념

과거 업데이트 방향을 평균내서 반영
물리의 관성 개념

✔ 효과

장점

진동 감소
수렴 속도 증가
더 안정적인 학습

✔ 핵심 파라미터

γ (감마): 과거를 얼마나 반영할지 결정
- 0.9 → 최근 9 step 정도 반영
- 0.99 → 더 긴 과거 반영

3. 대표 Optimizer

실무에서 거의 이렇게 사용됨 👇

Adam
AdamW ⭐ (요즘 가장 많이 사용)
RMSProp

👉 결론:

Optimizer 자체보다 Learning Rate 튜닝이 훨씬 중요

4. Learning Rate (학습률)

✔ 중요성

너무 크면 → 발산
너무 작으면 → 학습 느림

✔ 해결 방법: Scheduler

학습률을 점점 줄임

초반: 크게 → 탐색
후반: 작게 → 정밀 조정

5. Batch Size

✔ 특징

작을수록 → 불안정하지만 일반화 좋음
클수록 → 안정적이지만 계산 부담 큼

✔ 실무 기준

보통 16 ~ 2048
대부분 2의 배수 사용

6. 유도 바이어스 (Inductive Bias)

✔ 정의

모델이 특정 패턴을 더 잘 학습하도록 사람이 힌트를 주는 것

✔ 왜 필요한가?

데이터 부족할 때 성능 향상
학습 속도 증가

✔ 장점

일반화 성능 ↑
학습 안정성 ↑

✔ 단점

잘못된 힌트 → 성능 악화
유연성 감소

7. 신경망별 유도 바이어스

✔ MLP

유도 바이어스 ❌
모든 입력을 독립적으로 처리

👉 특징:

구현 쉬움
baseline 모델로 좋음

✔ CNN (이미지)

유도 바이어스

인접 픽셀은 관련 있음
위치가 바뀌어도 같은 객체

👉 핵심 개념:

위치 불변성
지역성(Locality)

✔ RNN (시계열)

유도 바이어스

시간 순서 중요
과거 데이터가 미래에 영향

👉 특징:

순차 데이터 처리

✔ Transformer

유도 바이어스

모든 단어 간 관계 고려

👉 핵심:

Attention Mechanism

8. Feature Engineering도 유도 바이어스

✔ 예시

이메일 판별

'@' 포함 여부
'.com' 여부

고객 행동 데이터

최근 참여 여부
참여 횟수

교통량 예측

이전 시간대 데이터
주변 도로 정보
날씨, 공휴일

👉 핵심

데이터를 "잘 가공하는 것"도 강력한 모델링 방법

9. 핵심 정리 (시험용 ⭐)

✔ SGD

빠르지만 불안정
로컬 미니멈 탈출 가능

✔ Momentum

이전 방향 반영 → 안정화

✔ Optimizer

AdamW 많이 사용

✔ Learning Rate

가장 중요한 하이퍼파라미터

✔ Batch Size

작으면 일반화 ↑ / 크면 안정성 ↑

✔ Inductive Bias

사람이 주는 힌트
CNN, RNN, Transformer의 핵심 아이디어

🔥 한 줄 핵심 요약

딥러닝 성능 = Optimizer + Learning Rate + Batch Size + Inductive Bias

'인하대학교 공학대학원(인공지능융합전공) > 심층신경망' 카테고리의 다른 글

심층신경망_CNN부터 RNN까지: 시계열 데이터와 순환신경망 완전 정리 (1)	2026.04.17
심층신경망 - CNN (0)	2026.04.11
심층신경망-신경망의 기본구조와 학습방식 (0)	2026.03.26
심층신경망-딥러닝의 종류 (0)	2026.03.20
심층신경망-딥러닝의 기본개념과 발달과정 (0)	2026.03.13

현재글심층신경망-신경망의 학습방식

집중과 선택, 그리고 몰입

AI 엔지니어를 목표로 학습과 실험을 기록하는 공간입니다. 데이터 분석 및 배포, 모델 설계 전 과정을 깊게 탐구합니다.

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

심층신경망-신경망의 학습방식

📌 딥러닝 최적화 & 유도 바이어스 핵심 정리

1. Gradient Descent vs SGD

✔ Gradient Descent (GD)

✔ SGD (Stochastic Gradient Descent)

🔑 핵심 개념

✔ SGD 특징

장점

단점

✔ GD vs SGD 차이 요약

2. SGD + Momentum (모멘텀)

✔ 왜 필요한가?

✔ Momentum 개념

✔ 효과

장점

✔ 핵심 파라미터

3. 대표 Optimizer

4. Learning Rate (학습률)

✔ 중요성

✔ 해결 방법: Scheduler

5. Batch Size

✔ 특징

✔ 실무 기준

6. 유도 바이어스 (Inductive Bias)

✔ 정의

✔ 왜 필요한가?

✔ 장점

✔ 단점

7. 신경망별 유도 바이어스

✔ MLP

✔ CNN (이미지)

유도 바이어스

✔ RNN (시계열)

유도 바이어스

✔ Transformer

유도 바이어스

8. Feature Engineering도 유도 바이어스

✔ 예시

이메일 판별

고객 행동 데이터

교통량 예측

9. 핵심 정리 (시험용 ⭐)

✔ SGD

✔ Momentum

✔ Optimizer

✔ Learning Rate

✔ Batch Size

✔ Inductive Bias

🔥 한 줄 핵심 요약

'인하대학교 공학대학원(인공지능융합전공) > 심층신경망' 카테고리의 다른 글

'인하대학교 공학대학원(인공지능융합전공)/심층신경망'의 다른글

관련글

티스토리툴바