사회

AI 성능 평가 체계 붕괴...실무 환경 맞춘 새 기준 필요

인공지능 성능을 평가하는 현재의 벤치마크 체계가 실제 사용 환경과 맞지 않아 신뢰성 문제를 야기하고 있다. 의료, 교육, 비영리 기관 등 다양한 분야에서 높은 점수를 받은 AI도 실제 조직 환경에서는 기대 이하의 성과를 보이는 것으로 나타났으며, 인간-AI 문맥 특화 평가 방식으로의 전환이 필요하다는 주장이 제기되고 있다.

2026년 4월 1일

AI 성능 평가 체계 붕괴...실무 환경 맞춘 새 기준 필요 — AI를 활용해 생성된 이미지입니다

인공지능(AI)의 성능을 평가하는 현재의 벤치마크 체계가 근본적으로 결함을 안고 있다는 지적이 제기되고 있다. 수십 년 동안 AI는 체스, 수학 문제 풀이, 코딩, 에세이 작성 등 인간과의 일대일 비교를 통해 평가되어 왔다. 명확한 정답이 있는 고립된 문제에서 기계가 인간을 능가하는지 여부를 측정하는 방식은 표준화하기 쉽고, 비교 가능하며, 최적화할 수 있다는 점에서 매력적이다. 이러한 접근법은 순위표를 만들고 헤드라인을 생성하는 데 효과적이었다. 그러나 이 방식은 근본적인 문제를 안고 있다. 실제로 AI가 사용되는 방식과 벤치마크 테스트 방식이 전혀 다르기 때문이다.

AI 연구자들과 산업계는 정적 테스트에서 벗어나 더욱 동적인 평가 방법으로 나아가면서 벤치마킹을 개선하려는 노력을 시작했다. 하지만 이러한 혁신들도 근본적인 문제를 해결하지 못한다. 왜냐하면 여전히 인간 팀과 조직 워크플로우라는 실제 환경 밖에서 AI의 성능을 평가하고 있기 때문이다. 현재의 벤치마크는 고립된 작업 수준에서 AI를 평가하지만, 실제로 AI는 여러 사람과 상호작용하고 복잡한 조직 환경에서 장시간에 걸쳐 사용된다. AI의 실제 성능이나 부족함은 오직 연장된 사용 기간을 통해서만 나타난다. 이러한 불일치는 AI의 역량을 잘못 이해하고, 체계적 위험을 간과하며, 경제적·사회적 결과를 잘못 판단하게 만든다.

2022년부터 실시된 실제 AI 배포 사례 연구에 따르면, 영국, 미국, 아시아의 소규모 기업과 의료, 인도주의, 비영리, 고등교육 기관에서 AI를 도입할 때 벤치마크 점수와 실제 성능 사이의 간극이 명확하게 드러난다. 예를 들어 FDA 승인을 받은 수많은 의료 AI 모델들은 방사선과 전문의보다 의료 영상을 빠르고 정확하게 읽을 수 있다고 평가된다. 캘리포니아 중심부에서 런던 외곽까지 병원의 방사선과에서 높은 순위의 방사선 AI 애플리케이션을 사용하는 의료진들을 관찰한 결과, 그들은 AI의 결과물을 병원 특정 보고 기준 및 국가별 규제 요구사항과 함께 해석하는 데 추가 시간이 필요했다. 진공 상태에서 테스트했을 때는 생산성을 높이는 도구로 보였던 AI가 실제 운영 환경에서는 지연을 초래했다.

의료 AI 모델들이 높은 점수를 받을 수 있었던 이유는 의료 의사결정이 실제로 어떻게 이루어지는지를 벤치마크 테스트가 포착하지 못하기 때문이다. 병원은 방사선과 의사, 종양학자, 물리학자, 간호사로 구성된 다학제 팀에 의존하며, 이들은 환자를 함께 검토한다. 치료 계획은 단순한 정적 의사결정에 기초하지 않으며, 며칠 또는 수주에 걸쳐 새로운 정보가 나타나면서 진화한다. 의사결정은 전문 기준, 환자 선호도, 장기적 환자 복지라는 공동 목표 사이의 건설적인 논의와 절충을 통해 이루어진다. 따라서 높은 점수를 받은 AI 모델도 실제 임상 진료의 복잡하고 협력적인 프로세스에 직면하면 약속된 성능을 발휘하지 못하는 것은 당연하다.

이러한 패턴은 다양한 분야의 연구에서 반복적으로 나타난다. 표준화된 테스트에서 훌륭하게 수행하는 AI 모델도 실제 업무 환경에 통합되면 약속된 대로 성능을 발휘하지 못한다. 이를 해결하기 위해서는 벤치마킹 방식의 근본적인 변화가 필요하다. 좁은 범위의 방법론에서 벗어나 인간 팀, 워크플로우, 조직 내에서 AI 시스템이 더 긴 시간 지평에서 어떻게 수행되는지를 평가하는 벤치마크로 전환해야 한다. 이를 '인간-AI 문맥 특화 평가(HAIC 벤치마크)'라고 부를 수 있다. 이러한 새로운 평가 체계는 AI가 실제로 배포되는 복잡한 환경에서 어떻게 작동하는지를 보다 정확하게 반영할 것이다.

현재의 벤치마크 체계가 AI 기술의 실제 가치와 한계를 제대로 반영하지 못한다는 것이 명확해지면서, 정부와 기업들은 AI 도입 결정을 재검토해야 한다는 주장이 강해지고 있다. 벤치마크 점수만을 기준으로 대규모 재정과 기술 자원을 투입했다가 실무에서 기대 이하의 성과를 얻는 상황을 피하려면, AI 평가 방식이 조직의 실제 운영 환경을 반영하도록 개선되어야 한다. 이는 AI 기술의 신뢰성을 높이고, 조직의 효율성을 진정으로 향상시키는 데 필수적인 변화가 될 것이다.

관련 키워드