인하대학교 공학대학원(인공지능융합전공)/인공지능 세미나

Trustworthy AI Beyond the Model모델을 넘어, 신뢰로 완성되는 인공지능

복리 엔지니어 2026. 5. 19. 22:40
Trustworthy AI Beyond the Model — 강의 정리
AI 세미나 강의 정리

Trustworthy AI Beyond the Model
모델을 넘어, 신뢰로 완성되는 인공지능

이 글은 Trustworthy AI (신뢰 가능한 인공지능) 분야의 주요 개념을 다룬 강의를 정리한 내용입니다. AI 시스템이 사회 안으로 깊숙이 들어오면서, 단순한 성능을 넘어 공정성(Fairness)안정성(Safety)이 왜 중요한지, 그리고 이를 어떻게 기술적으로 해결하는지 살펴봅니다.

Trustworthy AI란 무엇인가 — 실제 사례에서 출발

AI의 성능은 눈부시게 향상되고 있습니다. 이미지 인식, 언어 이해, 음성 인식 등 여러 영역에서 AI는 이미 인간 수준의 성능을 넘어섰습니다. 하지만 이러한 성능 향상이 곧 신뢰를 의미하지는 않습니다.

📌 실제 사례 1 — iTutor Group 채용 AI 소송

글로벌 교육 플랫폼 아이튜터 그룹(iTutor Group)은 AI 기반 채용 시스템을 운영했습니다. 이 시스템은 비용 효율적으로 다수의 지원자를 평가했으나, 나이가 많은 지원자를 능력과 무관하게 높은 비율로 탈락시키는 현상이 발견됐습니다. 결국 미국 평등고용위원회(EEOC)로부터 소송을 당했고, 상당한 벌금과 함께 채용 절차 개선 명령을 받았습니다.

📌 실제 사례 2 — COMPAS 재범 예측 시스템

미국 법원에서 실제로 활용된 COMPAS 시스템은 재소자의 재범 가능성을 예측했습니다. 그러나 인종 정보가 판단 요소에 포함되어, 강도 범죄를 저지르고 이후 추가 범행을 한 백인 재소자는 낮은 위험 점수를, 경범죄에 불과하고 추가 범행이 없었던 흑인 재소자는 높은 위험 점수를 받는 사례가 다수 발생했습니다. 이 문제가 공론화되면서 미 법무부는 해당 프로그램을 폐기하게 됩니다.

핵심 메시지: AI의 신뢰성 문제는 단순한 윤리적 이슈에 그치지 않습니다. 실제 법적 책임과 경제적 손실로 이어지는 중대한 실무 리스크입니다.

또한 최근 생성형 AI가 확산되면서 유명인과 유사한 이미지 생성에 따른 초상권·저작권 침해, 혐오 발언·폭력적 콘텐츠 자동 생성 등 새로운 유형의 신뢰성 문제도 급증하고 있습니다.

신뢰 가능한 AI의 6가지 요소

Trustworthy AI는 단일 개념이 아니라, 여러 조건이 충족되어야 하는 복합적 속성입니다. 크게 사회적 신뢰기술적 신뢰의 두 축으로 분류됩니다.

⚖️

공정성 (Fairness)

개인 또는 특정 그룹이 AI로부터 평등하게 취급받아야 함

📋

책임성 (Accountability)

문제 발생 시 책임 소재를 정의하고 원인 추적·수정 가능해야 함

💡

설명 가능성 (Explainability)

AI의 결정이 사용자에게 이해 가능한 방식으로 제공되어야 함

🛡️

신뢰성 (Reliability)

다양한 상황에서 유해하거나 의도치 않은 결과를 만들지 않아야 함

🔒

보안 (Security)

외부 공격 및 무단 접근으로부터 AI 시스템과 데이터를 보호

🔐

프라이버시 (Privacy)

개인정보 보호 및 데이터 통제권을 소유자에게 부여

분류 구성 요소 설명
사회적 신뢰
사회 기준 수용성
공정성 그룹 간 차별 없는 동등한 처우
책임성 오류 및 피해 발생 시 추적 및 책임 귀속
설명 가능성 결정 과정의 투명한 해석 제공
기술적 신뢰
시스템 안정적 운영
신뢰성 다양한 환경에서 안정적이고 일관된 동작
보안 외부 공격 방어 및 데이터 무결성 보호
프라이버시 개인 식별 정보 보호 및 통제권 보장
이번 강의에서는 이 중 공정성(Fairness)안정성(Safety)에 집중하여 심층적으로 살펴봅니다.

공정성(Fairness) — 개념과 정의

민감 속성 (Sensitive / Protected Attribute)

AI에서 공정성을 논하기 위해서는 먼저 민감 속성(Sensitive Attribute)을 정의해야 합니다. 이는 사회적으로 합의된 개념으로, "AI로부터 차별받지 않아야 하는 속성"을 의미합니다.

인종 (Race) 성별 (Gender) 나이 (Age) 종교 (Religion) 지역 (Region)
중요: 민감 속성은 사회적 합의 및 사용 도메인(채용, 의료, 금융 등)에 따라 달라질 수 있으며, 시간이 지남에 따라 지속적으로 변화하는 개념입니다.

공정성의 두 가지 정의 방식

공정성은 단일한 수식으로 정의되지 않으며, 크게 두 가지 철학적 방향이 존재합니다.

방식 01

Equality — 기회의 평등

각 그룹에게 동등한 기회를 부여. 결과는 실제 능력에 따라 달라질 수 있음.


대표 지표: Equal Opportunity

True Positive Rate를 그룹 간 동일하게 맞추는 방식. 실제 대출 상환 가능성이 있는 사람에게 동등한 확률로 대출을 승인.

방식 02

Equity — 결과의 평등

실제 능력과 무관하게 결과를 그룹 간 균등하게 분배. 비효율적 의사결정을 초래할 수 있음.


대표 지표: Demographic Parity

그룹별 실제 상환 가능성과 무관하게 각 그룹에서 동일한 비율로 대출을 승인.

공정성 정의 절차:
사회적 정의 — 법·윤리·사회 규범 내에서 "무엇이 공정한가" 합의
기술적 정의 — 이를 AI 모델이 활용 가능한 수식·통계 지표로 변환
도메인별 적용 — 채용/의료/금융 등 맥락에 따라 적절한 지표 선택

불공정성의 원인

불공정성이 단순히 "데이터의 불균형 때문"이라고 생각하기 쉽지만, 실제로는 더 다양한 원인이 존재합니다.

01

편향된 데이터셋 (Biased Dataset)

데이터 수가 적은 마이너리티(minority) 그룹은 학습 데이터 자체가 부족하여, 해당 그룹에 대한 예측 성능이 다수(majority) 그룹보다 낮게 나타납니다. 가장 직관적으로 이해되는 원인입니다.

02

모델 증폭 현상 (Model Amplification)

데이터셋에 존재하는 편향이 모델 학습 과정에서 더욱 심화되는 현상입니다. 데이터를 균형 있게 만들더라도 모델 자체의 학습 메커니즘으로 인해 편향이 증폭될 수 있습니다. 다양한 실험을 통해 실제로 발생함이 증명된 현상입니다.

03

프록시(Proxy) 변수를 통한 잠재적 편향

데이터셋이 그룹 간 완벽히 균형 잡혀 있어도, 이미지 내부의 다른 오브젝트(포크, 헤어드라이어, 오븐 등)가 특정 그룹과 함께 등장하는 패턴이 존재하면, 이러한 프록시 변수를 통해 간접적인 편향이 발생할 수 있습니다.

공정성 향상 방법론

데이터 측면: 편향 완화 기법

① 리샘플링 (Resampling)

가장 기본적인 방법으로, 데이터의 수적 불균형을 직접 조정합니다.

방식내용장단점
Under-sampling 데이터가 많은 그룹을 적은 그룹 수준으로 줄임 그룹 간 손실 격차 줄어드나, 전체 샘플 수 감소로 성능 하락
Over-sampling 데이터가 적은 그룹의 샘플을 반복 추출하여 수량 맞춤 데이터 중복으로 여전히 평균 손실 차이 발생 가능
그룹 내부 균형 샘플링 그룹 내 True/False 비율까지 고려한 정교한 샘플링 그룹 간·내부 편향을 동시에 완화하는 발전된 방식

② 리웨이팅 (Reweighting)

샘플 수를 변경하지 않고, 각 그룹·샘플에 가중치(weight)를 부여하여 그룹 간 평균 손실을 균형 있게 맞춥니다.

발전된 리웨이팅: 그룹별 총 가중치를 동일하게 유지하면서, 각 그룹 내에서 decision boundary에 가까운 "어려운 샘플(hard sample)"에 추가로 더 큰 가중치를 부여하여, 마이너리티 그룹의 오류 발생 지점을 더 강하게 학습시킵니다.

③ 데이터 생성 (Counterfactual Data Augmentation)

목표 속성은 유지하면서 민감 속성만 변경한 반사실적 예제(Counterfactual Example)를 생성하여 부족한 그룹의 데이터를 보완합니다.

예: 흑인인데 안경을 쓴 데이터가 부족할 경우 → 흑인 속성은 유지하면서 안경만 추가한 새 이미지 생성

Mixup 기반 공정성 증강: 여성 이미지와 남성 이미지를 보간(interpolation)하여 중간 속성의 데이터를 다수 생성합니다. 모델이 성별이라는 민감 속성을 명확히 학습하지 못하게 함으로써 공정성을 향상시킵니다.

모델 측면: 표현 학습에서의 공정성

① 적대적 학습 (Adversarial Training)

학습 과정에서 목표 정보(Target Attribute)는 잘 학습하도록 하되, 민감 속성(Sensitive Attribute) 정보는 적대적 학습을 통해 제거합니다.

구체적으로, Feature Extractor의 출력을 두 개의 Classifier에 전달합니다. 첫 번째는 타겟 클래스를 예측하고, 두 번째는 민감 속성을 예측하도록 학습합니다. 두 번째 classifier에서 gradient를 반전시켜, Feature Extractor가 민감 속성을 잘 맞추지 못하도록 학습시킵니다.

② 분리 학습 (Disentanglement Learning)

특징 공간을 서로 직교하는 두 개의 서브 스페이스로 분리합니다. 위쪽 서브 스페이스는 Target Attribute 정보를, 아래 서브 스페이스는 Sensitive Attribute 정보를 담도록 학습합니다. 추론(Inference) 시 민감 속성 서브 스페이스만 제외하면 공정한 예측이 가능합니다.

공정성 분야의 미해결 과제

01

공정성-성능 트레이드오프 (Fairness-Performance Trade-off)

민감 속성이 때로는 예측에 유용한 정보를 포함하기도 합니다 (타겟 레이블 Y와 민감 속성 A 모두와 관련된 특징 X₂의 존재). 이 정보를 제거하면 공정성은 높아지지만 성능이 하락하는 문제가 발생합니다. 두 목표 사이의 최적점을 찾는 연구가 활발히 진행 중입니다.

02

민감 속성 레이블 수집의 프라이버시 문제

인종·성별·나이 등 민감 속성 정보는 대부분 개인정보에 해당합니다. 레이블 수집 및 활용 자체가 프라이버시 이슈를 야기할 수 있습니다. 최근에는 민감 속성 레이블 없이 수도 레이블(Pseudo Label)을 자동 생성하는 비교사 방법들이 많이 연구되고 있습니다.

예: 학습 초기 그룹 간 손실 차이를 proxy로 활용하거나, 동일 클래스 내 클러스터링 결과를 활용한 수도 레이블 생성.

03

다양한 태스크로의 확장 미흡

현재 공정성 연구의 대부분이 일반적인 분류(Classification) 태스크에 집중되어 있습니다. 실제 Real-World에서 활용되는 다양한 태스크(검색, 생성, 추천 등)에 공정성을 적용하는 연구는 아직 많이 남아있는 과제입니다.

안정성(Safety) — 생성형 AI 시대의 새로운 위협

AI 안정성(Safety)이란 AI 시스템이 유해하거나 의도되지 않은 결과를 초래하는 것을 방지하는 기술과 개념을 통칭합니다.

전통적 AI Safety vs 생성형 AI Safety

전통적 AI Safety

오류 탐지 중심

잘못된 예측, 신뢰할 수 없는 결정, 안전하지 못한 행동 방지에 초점.


예: 자율주행 사고 방지, COVID 진단 AI의 Shortcut Learning(마커·가장자리에 의존) 문제

생성형 AI Safety

직접적 유해 콘텐츠 생성

모델이 유해한 콘텐츠를 직접 생성하며, 그 결과가 사용자에게 즉각적으로 영향을 미침.


예: MS Tay의 인종차별 발언, 불법행위 안내, 혐오 발언, 악성코드 생성

핵심 차이: 기존 AI는 모델 내부의 오류가 문제였다면, 생성형 AI는 모델의 출력 자체가 유해 콘텐츠가 될 수 있다는 점에서 질적으로 다른 Safety 문제를 제기합니다.

Safety 향상 방법론

① 안전 생성 유도 (Safe Generation)

Diffusion 모델의 Denoising 경로 자체를 안전한 방향으로 유도하는 방법입니다.

작동 원리:
1. 사용자의 유해한 prompt 방향 벡터(파란색)를 계산
2. 완전히 안전하지 못한 방향 벡터(빨간색)를 정의
3. 두 벡터의 차이를 이용해 안전한 생성 방향(초록색)을 계산
4. 이 방향으로 Denoising 경로를 이동시켜 안전한 이미지 생성

② 개념 지우기 (Concept Erasing)

생성 모델의 내부에서 유해한 개념 자체를 제거하거나 약화시키는 모델 에디팅 방법입니다.

학습 절차:
1. 고정된 Stable Diffusion 모델로 두 가지 noise 예측 수행
   • 유해 개념을 prompt에 포함한 조건부 예측
   • 아무 조건 없는 비조건부(Unconditional) 예측
2. 두 예측의 차이를 반대 방향으로 이동 → 유해 개념이 제거된 수도 레이블 생성
3. 이 수도 레이블로 새 Diffusion 모델 학습

적용 사례: Nudity 제거, 저작권 침해 콘텐츠 제거, 특정 객체 제거 등

③ Safety Alignment

모델의 응답을 인간의 안전 기준에 맞게 조정하는 방법으로, 유해 콘텐츠와 Hallucination 모두를 줄이는 것을 목표로 합니다. 인간 피드백(Human Feedback)을 핵심 재료로 사용합니다.

RLHF 기반 Preference Learning 절차:
1. 생성형 모델이 잘못된 정보 또는 환각 현상이 포함된 응답 생성
2. 인간 평가자가 오류를 수정한 올바른 응답 작성
3. 올바른 응답의 확률↑, 기존 오류 응답의 확률↓ 방식으로 선호 학습(Preference Learning) 수행
4. 모델이 안전하고 정확한 방향으로 응답을 생성하도록 조정

Safety 분야의 미해결 과제

01

안정성-유용성 트레이드오프 (Safety-Utility Trade-off)

안정성 향상을 위해 개념을 제거하거나 생성 경로를 변경하면, 이미지 품질(Utility), Prompt-이미지 일치도(Alignment), 다른 개념의 보존(Preservation) 등이 저하될 수 있습니다. 현재 연구마다 평가 지표와 프로토콜이 상이하며, 표준화된 평가 체계가 없다는 것이 큰 과제입니다.

02

멀티모달 입력에 대한 Robustness 취약성

텍스트 단독 입력에서는 유해한 의도를 파악하고 거절하는 메커니즘이 작동하더라도, 이미지와 텍스트가 함께 입력되거나 유해 텍스트를 이미지로 변환하여 입력하면 Safety 메커니즘이 제대로 작동하지 않는 현상이 발견됩니다. 멀티모달 환경에서의 Safety 강화가 미해결 과제로 남아 있습니다.

핵심 요약

⚖️ 공정성 (Fairness)

  • 민감 속성 기반 차별 방지
  • Equality vs Equity 두 방향
  • 데이터 편향 + 모델 증폭 두 원인
  • 리샘플링·리웨이팅·데이터 생성
  • 적대적 학습·분리 학습
  • 성능-공정성 트레이드오프 미해결

🛡️ 안정성 (Safety)

  • 생성형 AI의 직접적 유해 콘텐츠 문제
  • Safe Generation (경로 유도)
  • Concept Erasing (개념 제거)
  • Safety Alignment (RLHF)
  • 표준화된 평가 지표 부재
  • 멀티모달 Robustness 취약
결론: Trustworthy AI는 단순히 성능을 높이는 것을 넘어, AI가 사회 안에서 신뢰받는 존재로 기능하도록 만드는 다차원적 과제입니다. 공정성과 안정성은 그 핵심이며, 기술적 해결책과 사회적 합의가 함께 필요한 분야입니다.