본문 바로가기
카테고리 없음

의료 AI 개발에 필요한 데이터는 누가 책임지고 구축할까?

by woanss 2025. 4. 3.
반응형

1. 서론

의료 인공지능(AI)은 진단, 예후 예측, 치료 가이드라인 설계 등 의료 현장의 다양한 영역에서 점차 활발히 활용되고 있다. 특히 영상진단, 병리, 생체신호 분석 등에서 높은 정확도를 기록하며 '제2의 의사'로 불리기도 한다. 그러나 이러한 의료 AI가 제 기능을 하려면 반드시 대량의 고품질 의료 데이터가 뒷받침되어야 한다. 질병별 수천, 수만 건의 환자 데이터가 있어야 학습이 가능하며, 그 품질에 따라 AI의 성능도 좌우된다.

하지만 이처럼 방대한 의료 데이터는 누가 어떻게 책임지고 구축할 것인가에 대한 문제는 아직 불명확하다. 데이터의 수집과 관리, 품질 보증, 법적 책임 소재, 환자의 동의 및 프라이버시 보장 등 다양한 이슈가 얽혀 있기 때문이다. 본 글에서는 의료 AI 개발에 필요한 데이터의 구축 주체와 그에 따른 책임 문제를 중심으로 논의하고자 한다.

 

 

2. 의료 AI 개발에서 데이터의 중요성과 현실적 한계

의료 AI는 통계 기반 또는 딥러닝 기반 알고리즘을 통해 임상 데이터를 학습한다. 예컨대 CT 영상 수천 장을 기반으로 폐 결절을 감지하거나, 심전도 데이터를 분석해 심장질환 가능성을 예측할 수 있다. 그러나 이와 같은 성능은 다양하고 균형 잡힌, 고품질의 라벨링된 데이터 없이는 불가능하다.

문제는 국내 병원 간 의료 정보가 단절되어 있으며, 대부분 병원 내부에 데이터가 비표준화된 상태로 파편화되어 존재한다는 점이다. 즉, '데이터가 많다'고 해서 AI 개발이 곧바로 가능해지는 것이 아니다. 데이터의 정합성, 표준화, 질병 코드의 일관성, 라벨의 정확도 등 모든 요소가 중요하며, 이 모든 요소를 충족하는 의료 데이터는 아직 공공 또는 민간 어느 한 쪽에서 완벽히 관리되지 않고 있다.

 

 

3. 데이터 구축의 책임 주체 – 병원인가, 정부인가, 기업인가?

3.1 병원의 역할: 1차 데이터 생산 주체이자 관리 책임

의료 데이터의 생성 주체는 병원이다. 진료, 수술, 검사 과정에서 자연스럽게 환자 데이터가 생성되며, 이는 의료기관의 전자의무기록(EMR)에 저장된다. 하지만 이 데이터는 원칙적으로 병원 내부의 목적(진료, 보험청구, 연구 등)에만 쓰이도록 제한되어 있다. 또한 병원마다 데이터 형식과 시스템이 달라 표준화 작업과 전처리 과정에 막대한 비용과 시간이 소요된다.

그럼에도 불구하고 병원은 데이터의 품질과 진위 여부를 가장 잘 확인할 수 있는 기관이며, AI 개발의 기반을 제공할 수 있는 핵심 주체이다. 그러나 병원이 단독으로 AI 개발까지 책임지기에는 재정적·기술적 한계가 분명히 존재한다.

 

3.2 정부의 역할: 데이터 거버넌스와 인프라 제공자

정부는 의료 AI의 공공적 활용 가능성을 고려해 데이터 중심 병원 지정 사업, 공공보건의료 데이터 구축 사업 등을 추진해왔다. 이 사업을 통해 일정 수준의 표준화된 임상 데이터가 수집되고 있지만, 여전히 참여 병원 수는 제한적이고, 데이터 접근도 엄격히 통제되고 있다.

정부의 역할은 단순히 데이터를 수집하는 것이 아니라, 윤리적 기준에 부합하며 연구와 산업 모두에서 활용 가능한 공공 데이터 인프라를 구축하는 것이다. 특히 개인정보 보호와 활용 사이의 균형을 설계하는 '데이터 거버넌스' 정립이 가장 중요하다.

 

3.3 민간 기업의 역할: 기술 상용화와 라벨링 주도

AI 기업은 실제 모델을 개발하고 상용화하는 주체로, 병원 및 정부가 보유한 데이터를 활용해 알고리즘을 학습시킨다. 그러나 민간 기업은 의료적 전문성 부족데이터 접근권한의 제한윤리성 논란 등에 항상 직면한다. 특히 라벨링 작업을 의료인이 아닌 일반 작업자에게 맡길 경우, 데이터의 신뢰도가 크게 저하될 수 있다.

따라서 민간 기업은 임상 파트너와 협업을 통해 의료적 정합성을 높이고, 기술적으로는 자동화 라벨링이나 데이터 증강 등 다양한 방식으로 학습 효율을 높이려 노력하고 있다.

 

 

4. 데이터 품질과 책임 문제

I가 잘못된 진단을 내렸을 때, 그 책임은 누구에게 있을까?
이 질문은 단순히 알고리즘의 오류 여부를 묻는 것이 아니라, 그 알고리즘이 무엇을 기반으로 학습했는가, 즉 학습 데이터의 품질 문제로 귀결된다.

예를 들어, 폐렴 환자와 정상 환자의 흉부 엑스레이 데이터를 수집할 때,
라벨링 과정에서 진단명이 잘못 붙은 채로 AI에 학습되었다면 어떻게 될까?
이 잘못된 데이터로 학습한 AI는 실제 임상 현장에서 정상 환자를 폐렴으로 진단하거나,
반대로 중증 환자를 정상으로 오판할 가능성이 높다.

이 경우 책임의 소재는 병원, 민간 AI 개발사, 외주 라벨러, 알고리즘 설계자 중 누구에게 돌아가야 할까?

현행 의료법과 인공지능 관련 법령에서는 이에 대한 명확한 기준이 부재하다.
대부분의 국가에서 의료 AI는 여전히 ‘보조 진단 도구’로 간주되기 때문에,
최종 판단 책임은 의료진에게 귀속되는 것이 일반적이다.
하지만 이는 AI가 의료인의 결정을 "참고"하는 수준에서 활용될 때 가능한 구조이며,
AI의 개입 범위가 넓어지고 자동 진단의 신뢰도가 높아질수록,
의료진이 모든 책임을 부담하는 구조는 점차 지속 가능성을 잃게 된다.

이러한 상황에서는 다음과 같은 쟁점이 발생한다.

  • 데이터를 수집한 병원이 오진 가능성이 높은 정보를 필터링하지 않았다면 과실이 되는가?
  • AI 기업이 라벨링 검증 절차를 생략하고 모델을 상용화했다면 책임이 있는가?
  • 데이터 라벨러가 의료 전문가가 아닌 일반 작업자였다면, 그 라벨은 법적 효력이 있는가?
  • 개발자가 알고리즘 성능을 과장해 마케팅했다면, 소비자 기만 행위가 되는가?

이러한 문제를 해결하기 위해선, 단순히 책임 소재를 규명하는 데서 나아가
사전적 품질 검증 시스템의 도입이 필수적이다.

  • 데이터 품질관리 체계(QA) 표준화
  • 라벨링 프로세스의 인증제 도입
  • 신뢰도 지표(Confidence Score)와 오류 범위 공개
  • 모델의 의사결정 근거(Explainable AI) 제공
  • 학습 이력과 데이터 출처의 투명한 공개(Log History)

📌 이러한 투명성과 품질 기준이 마련되지 않으면,
향후 AI 오진으로 인한 의료사고 발생 시 사회적 신뢰는 심각한 타격을 입을 수 있다.

결국, AI의 학습 정확도만큼이나 중요한 것은 그 데이터가 어디서 왔고, 누가 어떤 방식으로 라벨링했는지, 그리고 그것이 어느 정도까지 검증되었는지에 대한 정보 제공이다.
이는 환자의 안전을 위해서뿐 아니라, 의료진과 개발자 모두를 보호하는 최소한의 제도적 장치가 될 수 있다.

 

5. 결론 – 데이터 구축은 공동 책임, 거버넌스 체계가 필요하다

의료 인공지능의 미래는 고품질 의료 데이터를 얼마나 잘 확보하고 관리할 수 있느냐에 달려 있다. 병원, 정부, 기업이 각자의 역할을 수행하되, 데이터 구축과 품질 관리에 대한 책임을 분담할 수 있는 체계가 마련되어야 한다.

특히 한국은 세계 최고 수준의 병원 시스템과 ICT 인프라를 갖추고 있음에도,
의료 데이터 통합과 품질 관리에 있어선 아직 갈 길이 멀다.
정부 주도의 공공 플랫폼 구축과 민간의 기술적 기여, 병원의 임상적 책임이 조화를 이룰 수 있는 데이터 생태계가 필요하다.

의료 AI의 성능은 곧 데이터의 품질에서 시작된다는 점에서, 누가 어떻게 데이터를 구축하고 책임질 것인가는 단순한 기술 문제가 아닌
'의료 신뢰'와 '환자 안전'을 지키기 위한 사회적 질문이기도 하다.