인하대학교 공학대학원(인공지능융합전공)/인공지능 세미나

정보은닉 기술을 통한 인공지능 보안 연구(by 허종욱 교수님)

복리 엔지니어 2026. 5. 12. 20:45
정보 은닉 기술을 통한 AI 보안 기술 정리
AI 보안 특강 정리

정보 은닉 기술을 통한 인공지능 보안 기술
— 워터마크, 적대적 공격, 그리고 딥페이크 방어까지

1. 딥러닝 혁명과 컴퓨터 비전

2016년 알파고(AlphaGo)와 이세돌 9단의 대국은 AI가 단순한 패턴 인식을 넘어 복잡한 전략 게임까지 정복할 수 있음을 세상에 알렸습니다. 그 파급력은 시각 지능(Visual Intelligence) 분야에도 곧 미쳤습니다.

이미지 분류가 왜 어려운가?

컴퓨터 입장에서 이미지는 단순한 숫자 배열(RGB 2차원 배열)입니다. 같은 고양이라도 조명, 각도, 가림(occlusion) 등에 따라 숫자 패턴이 크게 달라지기 때문에, 로켓을 우주로 쏘는 시대에도 '고양이를 고양이라고 인식하는 소프트웨어'를 만드는 것은 매우 어려운 과제였습니다.

💻
연산 능력(Computation)

GPU 클러스터 보급으로 대규모 병렬 연산이 가능해짐

🧩
알고리즘(Algorithm)

역전파(Backpropagation), 합성곱 신경망(CNN) 등 핵심 기법 발전

📦
빅데이터(Data)

ImageNet 등 대규모 레이블 데이터셋 구축·공개

이 세 가지 요소가 맞물리며 딥러닝 혁명이 일어났습니다. 학습 원리는 단순합니다. 신경망이 이미지를 보고 예측하면, 사람이 정답 피드백을 주어 오류를 교정하는 과정을 수백만 번 반복하는 것입니다.

2. 생성형 AI의 급격한 발전

딥러닝은 이미지를 '인식'하는 것에 머물지 않았습니다. 2014년 GAN(Generative Adversarial Network)이 등장하면서 이미지를 '생성'하는 AI가 본격적으로 연구되기 시작했습니다.

"2023년만 해도 '윌 스미스가 스파게티를 먹는 영상'은 누가 봐도 엉망진창이었는데, 1년 만에 진짜인지 가짜인지 구분 못 할 수준이 됐습니다."
연도 기술 마일스톤 의미
2014 GAN 첫 발표 생성형 AI의 시작
2019 고해상도 얼굴 생성 (StyleGAN) 가짜 인물 사진 상용 수준 도달
2022~23 Stable Diffusion, DALL-E 텍스트 → 이미지 생성 대중화
2024 OpenAI Sora 고품질 생성형 비디오 등장

소셜 미디어에서는 이미 "신기한 영상 = AI 의심"이라는 인식이 젊은 층 사이에 자리잡고 있습니다. 그러나 일상적으로 있을 법한 장면을 정교하게 조작한 이미지라면 여전히 속기 쉽습니다.

3. AI 생성물이 만들어낸 보안 이슈

📰
허위정보 유포

가짜 이미지·영상 유포로 증시 출렁임, 정치·사회적 혼란 야기

🎭
딥페이크 범죄

연예인 얼굴을 이용한 성착취물, 사생활 침해 문제 급증

📞
AI 보이스·얼굴 피싱

실제 사례: 일론 머스크 얼굴로 화상전화 → 피해자 송금

🎨
저작권 침해

아티스트 화풍을 AI가 학습·모방하여 창작물 권리 침해

🔒
개인정보 유출

딥러닝 모델이 학습 과정에서 개인정보를 기억·재현할 위험

📝
AI 생성 글 판별 난항

AI 판독기도 약 2~300단어 이상, 편집 없는 텍스트에서만 높은 정확도

주목할 점 AI가 더욱 정교해질수록, 사용자가 AI 생성 흔적을 지우려는 시도도 늘어납니다. 단순 탐지 방식만으로는 한계가 있으며, 출처를 적극적으로 증명할 수 있는 장치가 필요합니다.

4. 국제 규제 동향 — EUAI ACT · C2PA

EU AI Act

유럽연합은 AI 관련 법(EU AI Act)을 통해 세계에서 가장 강력한 AI 규제를 도입했습니다. 핵심 내용 중 하나는 AI 생성 콘텐츠에 워터마크 또는 출처 메타데이터를 의무적으로 부착하도록 하는 것입니다. 다만 일정 규모 이상의 대기업부터 우선 적용되며, AI 발전을 저해할 수 있다는 우려 속에 숙려 기간이 논의되고 있습니다.

C2PA (Coalition for Content Provenance and Authenticity)

Adobe, ARM, Intel, Microsoft, Amazon, OpenAI 등 주요 기업들이 공동으로 출범한 국제 표준 프로젝트입니다.

C2PA 핵심 기능 AI가 생성했는지 여부, 편집 이력, 카메라 촬영 메타데이터 등을 표준화된 형식으로 콘텐츠에 내장합니다. 카카오톡 → 페이스북으로 플랫폼이 바뀌어도 인증 정보가 깨지지 않도록 범용 표준을 지향합니다.
워터마킹 의무화 출처 인증서 메타데이터 표준화 한국·미국도 AI 법 준비 중

5. 워터마크 기술과 출처 식별

비가시적 워터마크 (Invisible Watermark)

이미지 위에 사람 눈에는 보이지 않는 노이즈 신호를 삽입합니다. 기계는 이 신호를 탐지해 "이 이미지는 AI가 생성했습니다"라고 높은 신뢰도로 판별할 수 있습니다.

LLM 텍스트 워터마크 — Red/Green List 기법

ChatGPT 같은 LLM이 텍스트를 생성할 때 어휘 사전(~10만 단어)을 Red/Green 두 그룹으로 나눠, AI는 Green 단어를 우선 선택하도록 설계합니다.

  1. 사람이 쓴 텍스트 → Red/Green 단어가 균등 혼합 (워터마크 없음)
  2. AI가 생성한 텍스트 → Green 단어 비율이 비정상적으로 높음
  3. 통계 검증 시 p-value가 극히 낮음 (예: 10⁻¹⁴) → "AI 생성" 고신뢰 판정
핵심 원리 사람은 Green/Red 구분을 알지 못해 자연스럽게 단어를 섞어 쓰지만, AI는 파티셔닝 정보를 이용해 Green만 편향 선택합니다. 독자 입장에선 자연스러운 문장이지만, 통계적으로 AI 생성 여부를 분명히 알 수 있습니다.

6. 적대적 공격(Adversarial Attack) 원리

사람의 뇌에도 '색채 항상성'이라는 오류가 있듯(파검/흰금 드레스), 인공 신경망에도 내재된 취약점이 존재합니다. 적대적 공격이란 이 취약점을 이용해 사람 눈에는 정상으로 보이는 이미지로 AI를 오인식시키는 기술입니다.

블랙박스 방식

신경망의 내부 구조를 모르는 상태에서, 이미지에 조금씩 노이즈를 더해가며 오인식 결과가 나올 때까지 반복합니다. 고양이 이미지에 '개' 방향의 노이즈를 누적하면 결국 AI가 개로 분류합니다.

화이트박스 방식

신경망의 파라미터를 알고 있을 때, 역전파(Backpropagation)를 이용해 의도적으로 잘못된 정답 신호를 주입하여 최적의 교란 노이즈를 계산·적용합니다. 훨씬 효율적으로 AI를 속일 수 있습니다.

🛑
자율주행 공격 사례

정지 표지판(STOP sign)에 특수 패치를 붙여 자율주행 AI가 표지판을 인식 못 하게 만듦

🧑
안면인식 우회 사례

얼굴에 특정 패턴의 패치를 붙여 보안 게이트의 안면인식 시스템을 무력화

최근에는 이 패치를 자연스러운 스타일(녹슨 얼룩 등)로 위장해 사람이 알아채기 어렵게 만드는 연구도 활발합니다.

7. 방어 기술 — 글레이즈, 나이트셰이드, 안티 딥페이크

데이터 포이즈닝(Data Poisoning)

학습 데이터에 '독(poison)'이 묻은 샘플을 일정 비율 섞어, 신경망이 잘못 학습되도록 유도합니다. 정확도 저하, 오분류, 혹은 의도된 백도어(backdoor) 트리거를 심을 수 있습니다.

글레이즈(Glaze) — 아티스트 화풍 보호

자신의 이미지에 미세한 노이즈를 덧씌워, AI 모델이 해당 화풍을 학습하거나 퓨샷 러닝으로 모방하려 할 때 제대로 복사하지 못하도록 막습니다.

나이트셰이드(Nightshade) — 컨셉 붕괴 공격

AI가 내 이미지 100여 장을 학습해도 해당 컨셉이 붕괴되도록 설계된 기술입니다. 예를 들어 '드래곤'이라는 개념을 학습시키려 해도 결과물이 전혀 다른 형태로 나옵니다.

한계 효과를 내려면 데이터셋의 10~20% 이상, 또는 최소 100~200장에 적용해야 합니다. 또한 Adversarial Purification 기술을 이용하면 이런 독 노이즈를 '정화'할 수 있어, 공격과 방어가 계속 맞서는 군비 경쟁 구도가 형성됩니다.

안티 딥페이크 — SNS 프로필 사진 보호

카카오톡이나 SNS에 올린 프로필 사진을 퍼가 딥페이크 영상을 만들거나 성착취물에 악용하는 것을 막기 위한 기술입니다. 이미지에 미리 교란 신호를 삽입해두면, 생성 AI(ChatGPT, 미드저니 등)가 이미지를 해석·변환할 때 결과물 품질이 크게 저하됩니다.

오픈소스 방어 (코드 포이즈닝)

오픈소스 코드에 AI가 학습하기 어렵도록 변수명 등을 조작하거나, 학습 시 정확도를 의도적으로 낮추는 포이즈닝을 적용하는 연구도 있습니다.

머신 언러닝(Machine Unlearning)

이미 학습된 모델이 특정 개인의 데이터를 '잊게' 만드는 기술입니다. 내 얼굴 데이터가 안면인식 모델 학습에 사용됐을 때, 그 영향을 제거하거나 최소화할 수 있는 방향으로 연구가 진행 중입니다.


기술 보호 대상 방어 방식 주요 한계
글레이즈 아티스트 화풍 노이즈 삽입 → 모방 방해 Purification 공격으로 무력화 가능
나이트셰이드 저작물 컨셉 학습 시 컨셉 붕괴 유도 대량의 포이즈닝 데이터 필요
안티 딥페이크 개인 얼굴 사진 생성 AI 출력 품질 저하 정화 기술과의 끝없는 경쟁
머신 언러닝 개인 데이터 학습 영향 제거 완전 삭제 어려움, 연구 초기 단계

✦ 핵심 정리

  • 생성형 AI의 급격한 발전으로 딥페이크·허위정보·저작권 침해 등 새로운 보안 이슈가 대두됨
  • AI가 생성했다는 사실을 탐지 방식만으로 판별하기는 점점 더 어려워짐
  • 워터마크(비가시적·가시적)와 C2PA 표준으로 AI 콘텐츠의 출처를 능동적으로 증명하는 방향이 주류
  • 적대적 공격은 공격 도구이자 동시에 딥페이크·저작권 침해를 막는 방어 도구로도 활용
  • 방어 기술(글레이즈·나이트셰이드)과 정화 기술(Purification)은 끝없는 군비 경쟁 구도를 형성
  • NeurIPS 등 주요 AI 학회에서 AI 보안 관련 논문이 매년 50~100편 이상 발표될 만큼 핫한 연구 분야
📌 본 포스트는 한림대학교 허종욱 교수님의 특강 내용을 정리한 글입니다.
#AI보안 #딥페이크 #워터마크 #적대적공격 #나이트셰이드 #C2PA #생성형AI #정보은닉