인하대학교 공학대학원(인공지능융합전공)/인공지능 세미나

실제 활용 가능한 모션 디블러링(by 김인수 AI 연구원)

복리 엔지니어 2026. 6. 2. 20:10
[논문 리뷰] Blind Motion Deblurring for Real World Applications — 실세계 적용을 위한 모션 디블러링 3가지 핵심 연구
#컴퓨터비전 #모션디블러링 #딥러닝 #이미지복원 #디퓨전모델 #실세계적용 #논문리뷰

🎯 Blind Motion Deblurring for Real World Applications

효율성 · 일반화 · 포토리얼리스틱 — 실세계 배포를 위한 3가지 핵심 연구

👤 발표자: 김인수 (네이버 클라우드 / 전 삼성종합기술원) 🎓 KAIST AI 신진호 교수 연구실 (박사 과정) ⏱ 읽는 시간 약 18분
📌 핵심 요약

딥러닝 기반 디블러링 모델을 모바일 등 실세계에 배포할 때 발생하는 ① 비효율성, ② 일반화 부족, ③ 결과물의 비사실성 문제를 각각 해결한 3편의 연구를 소개합니다. 삼성종합기술원 재직 시 실제 모바일 배포를 목표로 수행한 연구이며, 상용 앱(삼성 InstaX, Google Unblur) 대비 우수한 성능을 달성했습니다.


01 모션 블러란? — 문제 정의

모션 블러의 발생 원리

카메라 셔터가 열려 있는 동안 카메라 또는 피사체가 움직이면 모션 블러가 발생합니다. 특히 저조도 환경에서는 빛이 부족하기 때문에 충분한 노출을 위해 셔터를 길게 유지할 수밖에 없고, 이로 인해 모션 블러가 필연적으로 나타납니다.

🌙

저조도 환경의 딜레마

빛 부족 → 셔터 시간 증가 → 움직임에 의한 블러 발생. 셔터를 짧게 하면 블러는 없지만 이미지가 어두워짐.

📷

카메라 / 피사체 모션

손 떨림(카메라 모션)과 빠른 피사체의 이동(오브젝트 모션) 두 가지 케이스 모두 모션 블러를 유발.

📱

모바일에서 더 심각

고해상도 센서에서는 동일 모션이라도 더 많은 픽셀에 걸쳐 블러가 나타남 → 라지 모션 문제 심화.

수학적 포뮬레이션

가장 단순한 유니폼 블러(Uniform Blur) 기준 정의:

B = K * S + n
B: 블러 이미지 | K: 블러 커널(모션) | S: 클린 이미지 | n: 노이즈 | *: 컨볼루션

두 가지 학습 패러다임

🔧 커널 기반(Kernel-based)

  • 블러 커널 K를 먼저 추정, 이후 역컨볼루션
  • 물리 모델에 충실한 접근
  • 실제 성능이 낮아 현재는 잘 사용하지 않음

✅ 커널 프리(Kernel-free) — 현재 주류

  • 블러↔클린 페어 데이터로 이미지-투-이미지 학습
  • Residual Error를 예측하는 방식
  • 대형 네트워크가 필요 (회귀 문제의 난이도)
💡 핵심 개념: Residual Error

Residual Error = 클린 이미지 − 블러 이미지. 딥러닝 모델이 예측해야 할 실제 타깃. 블러 이미지에 이 Residual Error를 더하면 클린 이미지를 복원할 수 있습니다. 회귀 문제이기 때문에 구조적으로 어려운 태스크입니다.


02 실세계 배포 시 3가지 핵심 문제

벤치마크에서 좋은 성능을 보이는 모델도 실제 모바일에 배포하면 다음과 같은 문제에 직면합니다.

#문제원인영향
비효율성
(Not Efficient)
회귀 문제 해결에 대형 네트워크 필요. 모바일에서 큰 모션 발생 빈번. 모델 경량화 시 성능 급락, 특히 라지 모션에서 더욱 심각
일반화 부족
(Not Generalizable)
블러↔클린 페어 데이터 취득이 물리적으로 어려움 (듀얼 카메라 필요). 공개 데이터셋 절대적 부족. 적은 데이터로 학습 → 미보이지 않은 상황에서 성능 저하
비사실적 결과
(Not Realistic)
PSNR 최대화 방향의 학습 → Texture Detail 재현 부족. 수치 지표는 좋지만 사람 눈에는 부자연스러운 결과물
⚠️ 데이터 취득 문제

블러 이미지는 카메라를 흔들어야 하고, 클린 이미지는 카메라를 고정해야 합니다. 동일 장면을 동시에 촬영하려면 듀얼 카메라 시스템이 필요한데, 이는 무겁고 복잡하여 다양한 환경에서 대량 촬영이 어렵습니다. 현재 공개 데이터셋의 페어 수는 수천~수만 수준에 불과합니다.


03 연구 1 — 효율적(Efficient) 디블러링

어려운 회귀 문제를 쉬운 분류 문제로 변환하여 경량 모델로도 고성능을 달성

🎯 핵심 아이디어

💡 핵심 발상

"어려운 회귀(Regression) 문제를 쉬운 분류(Classification) 문제로 바꾸면,
작은 네트워크로도 충분히 풀 수 있다!"

회귀 문제는 구조적으로 어렵기 때문에 큰 네트워크가 필요합니다. 하지만 이 문제를 분류 문제로 재정의하면 문제 자체가 단순해지므로 작은 모델로도 충분한 성능을 낼 수 있습니다. 단, 분류 결과(이산적)를 Residual Error(연속적)로 변환하는 추가 모듈이 필요합니다.

두 가지 핵심 관찰 (Observations)

Residual Error의 크기를 결정짓는 두 가지 속성이 있습니다.

🏃

① 모션 유형 (Motion Type)

오브젝트 모션이 있는 영역은 없는 영역보다 Residual Error가 크게 나타남. 모션 타입이 에러 크기에 직접 영향.

🔲

② 주변 픽셀 패턴

유니폼 모션이 적용되어도 고주파 영역(엣지, 텍스처)은 저주파 영역보다 Residual Error가 크게 발생. 주변 픽셀 영향.

🔑 핵심 통찰: Deconvolution Operation

역컨볼루션(Deconvolution) 연산은 이 두 가지 속성을 자연스럽게 반영합니다.
① 커널을 적용 = 모션 타입 고려
② 패치를 추출 = 주변 픽셀 고려
따라서 Deconvolution 연산을 분류 프레임워크에 통합하면 두 조건을 동시에 만족할 수 있습니다.

전체 학습 파이프라인 (2단계)

Stage 1: 블러 픽셀 이산화(Blur Pixel Discretizer) 학습

블러 이미지 입력
N개의 기저 커널
(Basis Kernels) 예측
N개의 후보
디컨볼루션 이미지
블러 세그멘테이션 맵
(픽셀별 클래스 정보)
픽셀별 최적 후보
선택(샘플링)
최종 디컨볼루션
이미지 출력
클린 이미지와
Loss 최소화

* 블러 세그멘테이션 맵: 각 픽셀이 어느 클래스(어떤 모션 패턴)에 속하는지를 나타내는 지도

Stage 2: D2C 컨버터(Discrete-to-Continuous Converter) 학습

  1. Stage 1 모델 동결 (Freeze)

    블러 픽셀 이산화기는 고정. 블러 세그멘테이션 맵은 이산(Discrete) 값.

  2. D2C 컨버터 학습

    이산적인 세그멘테이션 맵을 연속적인 Residual Error로 변환하는 경량 컨버터를 별도 학습.

  3. 최종 클린 이미지 복원

    블러 이미지 + Residual Error → 클린 이미지 최종 출력.

📊 실험 결과

10×
일부 벤치마크에서
연산량 절감
일반 벤치마크에서
비용 절감 + 성능 유지
삼성 InstaX·Google Unblur
대비 우수한 성능
🔬 검증 결과
  • 공개 벤치마크 RS Blur Dataset에서 연산량이 유사한 기존 방법 대비 우수한 성능
  • 카메라 모션, 오브젝트 모션 케이스 모두에서 Blur Segmentation Map이 Residual Error와 시각적으로 잘 정렬됨
  • 발표자가 직접 촬영한 실제 블러 이미지에서도 기존 방법 대비 우수
  • 상용 앱 Samsung InstaX, Google Unblur 대비 더 좋은 결과

04 연구 2 — 일반화(Generalizable) 디블러링

3D 인식 모션 추정으로 현실적인 합성 블러 이미지를 생성, 데이터 증강으로 모델 일반화 향상

🎯 목표

클린 이미지
+
3D 인식 모션 추정
현실적 블러 이미지
합성
데이터 증강
(Data Augmentation)
모델 일반화
향상

왜 기존 방법이 잘 안 되나?

⚠️ 기존 2D 블러 필드 회귀 방법의 문제

픽셀마다 서로 다른 모션을 갖는 비균일(non-uniform) 블러 필드를 아무 의미론적 이해 없이 직접 회귀하면 예측이 매우 어렵습니다. 이렇게 만든 합성 데이터는 현실적이지 않아 모델 성능 향상에 도움이 안 됩니다.

핵심 통찰: 2D 복잡함 → 3D 단순함

💡 핵심 발상

2D에서 복잡해 보이는 블러 필드도,
3D 공간으로 올리면 단순한 회전축 파라미터의 궤적(Trajectory)으로 표현 가능!

카메라 모션은 강체 운동(Rigid Motion)이므로 회전(Rotation) + 이동(Translation) 파라미터만으로 완전하게 표현할 수 있습니다. 이렇게 파라미터화하면 물리적 근거가 있는 모션 모델링이 가능합니다.

방법론 (2개 모듈)

모듈 1: 모션 추정기 (Motion Estimator)

전체 벡터 필드 = 파라메트릭 컴포넌트 (R, T) + 비파라메트릭 컴포넌트 (딥러닝 직접 예측)
파라메트릭: 회전(Rotation)·이동(Translation) → 피지컬리 그라운디드 모션
비파라메트릭: Depth 관련 잔차 컴포넌트 → 딥러닝으로 직접 예측 (depth 정보 불필요)
컴포넌트역할추정 방법커버하는 케이스
파라메트릭
벡터 필드
카메라 모션의 핵심
(회전·이동)
R, T 파라미터를
파라메트릭하게 추정
카메라 모션 블러
비파라메트릭
벡터 필드
Depth 관련 잔차
+ 오브젝트 모션
딥러닝으로 직접 추정
(depth 없이도 가능)
카메라 + 오브젝트 모션
🔑 포인트: 유연한 프레임워크

입력이 카메라 모션 블러이든 오브젝트 모션 블러이든, 비파라메트릭 벡터 필드가 그 역할을 동적으로 조절하여 두 케이스 모두를 하나의 프레임워크로 처리합니다. 추가로, Photometric 얼라인먼트 드리프트를 보정하는 Refinement Network를 학습 단계에서만 사용하여 듀얼 카메라의 색상 편차 문제도 해결합니다.

모듈 2: 블러 이미지 합성 (Blur Synthesis)

  1. 벡터 필드 기반 이미지 워핑

    추정된 3D 인식 벡터 필드로 클린 이미지를 여러 방향으로 변환(Warp)하여 중간 프레임들을 생성.

  2. 중간 프레임 집계(Aggregation)

    여러 변환된 이미지를 평균·가중합으로 합쳐 최종 블러 이미지를 합성.

  3. 모션 크기·방향 제어

    벡터의 Magnitude → 모션 크기 조절 / 벡터의 Phase(방향) → 모션 방향 조절. 이론적으로 무한대에 가까운 다양한 블러 이미지 생성 가능.

📊 실험 결과

3,000개
실제 학습 데이터 수
(공개 데이터셋 기준)
300만 개
1 에폭 학습 시
생성 가능한 합성 데이터
1,000×
데이터 확장 배율
(이론적)
🔬 검증 결과
  • 다양한 벤치마크 + 다양한 디블러링 모델에 적용 시 일관된 성능 향상
  • Cross-Data Validation(교차 검증)에서 기존 증강 방법 대비 일반화 능력 우수
  • 오브젝트 모션의 Trajectory도 현실과 잘 매칭됨을 시각적으로 확인
  • 3D 인식 모션 추정 덕분에 Depth 정보 없이도 현실적인 3D 블러 합성 가능

05 연구 3 — 포토리얼리스틱(Photorealistic) 디블러링

생성 모델의 Perceptual Quality + 복원 모델의 Fidelity를 동시에 달성 (DeblurFlow)

문제 배경: Perception-Distortion Trade-off

🔵 복원(Restoration) 기반 방법

  • PSNR 등 수치 지표(Fidelity) 우수
  • Residual Loss로 학습
  • ❌ Texture Detail 재현 부족
  • ❌ 사람 눈에 부자연스러운 경우 있음

🟣 생성(Diffusion) 기반 방법

  • 텍스처·디테일 표현 우수 (Perceptual Quality)
  • 대규모 클린 이미지로 학습된 생성적 사전(Prior)
  • ❌ Fidelity(충실도) 저하
  • ❌ 원본과 다른 세부 정보 생성 가능
⚠️ 단순 하이브리드의 한계

복원 모델로 초기값을 만들고 ControlNet 등으로 생성 모델에 주입하는 단순한 방식으로는 Fidelity Drop(충실도 하락)이 발생합니다. 생성 모델이 여전히 생성 지향적 목적함수(Generation-Oriented Loss)로 학습되기 때문입니다.

핵심 아이디어: Task-Aligned Residual Loss

💡 핵심 발상

Flow Matching 모델의 학습 목표를 재정의하면,
자연스럽게 Residual Loss = Debluring 목표가 됩니다!

Flow Matching에서 DeblurFlow로의 전환

[기존 Flow Matching]
중간 샘플 Xt = t·노이즈 + (1-t)·클린
학습 목표 벡터 필드 = 노이즈 − 클린

[DeblurFlow — 단순 수정]
중간 샘플 Xt = t·블러 이미지 + (1-t)·클린
학습 목표 벡터 필드 = 블러 이미지 − 클린 = Residual Error !
🔑 핵심 포인트

노이즈를 블러 이미지로 바꾸는 단순한 수정만으로, Flow Matching Loss가 자연스럽게 Residual Loss(복원 손실)로 변환됩니다. 따라서 생성 모델임에도 Fidelity-Aware하게 학습이 가능해집니다.

전체 구조 (DeblurFlow)

블러 이미지
Fidelity Expert
(복원 모델)
High-Fidelity
초기 결과
High-Fidelity 결과
+
블러 이미지
DeblurFlow
(LoRA 적용 생성 모델)
Fidelity ↑
Perceptual Quality ↑

3가지 설계 요소

요소역할효과
LoRA 적용 사전학습된 생성 모델의 생성적 사전(Generative Prior) 최대한 보존 Perceptual Quality 유지하면서 파인튜닝 가능
Task-Aligned
Residual Loss
생성 모델을 복원 목적으로 학습 (Fidelity-Aware) Fidelity Drop 완화
R-Space
Encoder/Decoder
복원에 특화된 Latent Space 인코더·디코더 도입
(VAE 대신 사용, Skip Connection 포함)
Residual Error 재구성 용이 + 경량화 + Fidelity 향상
🔑 R-Space 인코더·디코더가 필요한 이유

기존 VAE는 클린 이미지 생성에 최적화된 Latent Space를 갖고 있어, Residual Error(블러-클린 차이)를 재구성하기 어렵습니다. R-Space는 복원 태스크에 맞게 별도 학습되며, Skip Connection으로 Fidelity 정보를 보존합니다. 이로 인해 모델이 더 가벼워지면서도 성능은 향상됩니다.

샘플링 전략: Fidelity + Perceptual 균형

📌 샘플링 전략

Fidelity Expert(복원 모델)가 고충실도 초기값을 생성 → DeblurFlow가 Fidelity를 최대한 보존하면서 생성적 사전(Generative Prior)으로 Perceptual Quality를 향상. Perception-Distortion Trade-off를 완전히 해결하기는 어렵지만, 균형 잡힌 결과를 안정적으로 달성할 수 있습니다.

📊 실험 결과

🔬 정량 평가 (3가지 지표 카테고리)
지표 카테고리측정 항목결과
Distortion Fidelity PSNR, SSIM 복원 기반 방법 대비 소폭 하락이나 수용 가능 수준 유지
Perceptual Fidelity LPIPS 등 기존 방법 대비 개선
Perceptual Realism FID, NIQE 등 SOTA(최신 기술 최고 성능) 달성
  • 정성적 비교에서도 기존 복원 방법, 기존 생성 기반 디블러링 방법 대비 시각적으로 우수한 결과
  • R-Space 인코더·디코더 도입으로 컴퓨터 효율성도 향상 → 모바일·엣지 디바이스 배포 가능성 높음
  • Residual Loss 도입만으로도 Fidelity Drop이 유의미하게 완화됨을 Ablation Study로 확인

06 전체 요약 및 결론

📌 세 가지 연구 종합 정리

관점핵심 문제해결 방법주요 성과
🚀 Efficient 모델 경량화 시 성능 급락(특히 라지 모션) 회귀 → 분류 재정의
Blur Segmentation Map + D2C Converter
최대 10배 연산 절감
상용 앱 대비 우수
🌍 Generalizable 학습 데이터 절대 부족
합성 데이터 비현실성
3D 인식 모션 추정
파라메트릭 + 비파라메트릭 벡터 필드 합성
3,000개 → 300만 개
일관된 일반화 성능 향상
🎨 Photorealistic PSNR 지향 학습의 디테일 손실
생성 모델의 Fidelity Drop
Flow Matching 재정의 → Residual Loss
R-Space Encoder/Decoder + LoRA
Perceptual Realism SOTA
Fidelity도 수용 가능 수준 유지

🔭 연구의 의의

  • 실용성 중심: 벤치마크 성능만이 아니라 실제 모바일 배포 가능성을 기준으로 설계된 연구
  • 단계적 문제 해결: 효율성 → 일반화 → 품질로 이어지는 체계적인 실세계 적용 로드맵 제시
  • 산업 검증: 삼성종합기술원 재직 중 실제 상용화 R&D 과정에서 도출된 문제의식과 해결책
  • 생성 모델과 복원 모델의 통합: 두 패러다임의 장점을 수식 수준에서 통합한 DeblurFlow의 접근은 타 복원 태스크(SR, Denoising 등)에도 적용 가능한 일반적 프레임워크
💬 발표자 코멘트

"결국 딥러닝 모델을 리얼 월드에 적용한다는 것은 벤치마크 숫자 개선뿐 아니라, 실제 배포 환경의 제약(연산 자원, 데이터 부족, 시각적 품질)을 함께 고려해야 한다는 것을 세 연구를 통해 보여주고 싶었습니다."


👤 발표자 소개

이름김인수
현 소속네이버 클라우드 (Video Generation 연구·개발)
학력인하대 학부 / KAIST 김혜림 교수 연구실(석사, 감정인식) / KAIST AI 신진호 교수 연구실(박사, 모션 디블러링)
경력만도(자율주행 레이더 신호처리) → 삼성종합기술원(컴퓨터 비전) → 네이버 클라우드

본 포스팅은 발표 녹취록을 바탕으로 강의 내용을 정리한 것입니다. 수식·결과 수치 등 정확한 내용은 해당 논문 원문을 참고하시기 바랍니다.