인공지능(AI) 환경이 빠르게 변화하는 가운데, 보안 취약점은 예상치 못한 곳에 도사리고 있는 경우가 많습니다. 최근 AI 보안 기업 마인드가드(Mindgard)는 오픈아이얼(OpenAI)의 소라 2(Sora 2) 모델에서 민감한 시스템 프롬프트가 음성 녹취록을 통해 유출되는 충격적인 결함을 발견했습니다. 이 발견은 AI 안전성에 대한 의문을 제기할 뿐만 아니라 AI 개발 과정에서 더욱 엄격한 보안 조치가 필요하다는 점을 강조합니다.
## 숨겨진 프롬프트 발견
마인드가드는 2025년 11월 3일 연구를 시작하여 며칠 후 발표했는데, 이 연구는 소라 2의 내부 가이드라인을 추출하는 독특한 방법을 밝혀냈습니다. 시스템 프롬프트라고도 불리는 이 가이드라인은 AI의 작동 및 응답 범위를 규정합니다. 아론 포트노이(Aaron Portnoy)가 이끄는 마인드가드 연구팀은 이러한 숨겨진 규칙을 드러내기 위해 다양한 방법을 모색했습니다.
연구팀은 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터를 활용하여 소라 2의 출력에서 인사이트를 추출하려 했지만, 결과는 만족스럽지 못했습니다. 소라 2의 영상에 표시되는 텍스트는 영상이 진행될수록 빠르게 흐려져 읽을 수 없게 되었습니다. “의미 변화(semantic drift)”라고 불리는 이 현상은 시각 매체를 통해 정보를 추출할 때 직면하는 어려움을 보여줍니다.
## 오디오: 비밀을 밝히는 열쇠
마인드가드 연구진은 실험 과정에서 오디오 생성이 복구에 가장 확실한 방법임을 발견했습니다. 소라 2에게 내부 명령의 일부를 음성으로 출력하도록 유도함으로써, 연구진은 소라 2의 작동 체계에 대한 중요한 세부 정보를 드러내는 녹취록을 만들 수 있었습니다. 이 접근 방식은 매우 효과적이었으며, 거의 완전한 기본 명령 세트를 재구성할 수 있게 해주었습니다.
연구진은 소라 2가 생성하는 10~15초 분량의 짧은 클립에 더 많은 정보를 담기 위해 오디오 속도를 교묘하게 조절했습니다. 이 방법을 통해 시스템 프롬프트, 특히 “성적으로 자극적인 이미지나 콘텐츠”를 생성하지 않도록 AI에 지시하는 지침을 높은 정확도로 복구할 수 있었습니다. 이 과정을 통해 그들은 AI 작동 방식을 이해하는 데 필수적인 모델의 핵심 구성 코드에 대한 상세한 정보에 접근할 수 있었습니다.
## AI 보안에 대한 시사점
마인드가드의 연구 결과는 매우 중요한 시사점을 갖습니다. 소라 2는 강력한 안전 학습 시스템을 갖추고 있음에도 불구하고, 혁신적인 프롬프트를 통해 핵심 설정을 추출할 수 있다는 사실은 정보 유출 가능성에 대한 경각심을 불러일으킵니다. 소라 2와 같은 멀티모달 모델의 이러한 취약점은 민감한 정보가 유출될 수 있는 새로운 경로를 만들어낼 수 있습니다.
마인드가드는 이러한 연구 결과를 바탕으로 AI 개발자를 위한 중요한 권고사항을 제시했습니다. 시스템 프롬프트를 기밀 설정으로 취급하고, 오디오 및 비디오 출력에 대한 정보 유출 가능성을 철저히 검사하며, AI 응답 시간을 제한할 것을 권고했습니다. 또한, AI 기술 사용자는 운영 규칙의 개인정보 보호에 대해 공급업체에 문의하고 모든 출력이 적절하게 보호되는지 확인하는 등 적극적인 자세를 취해야 합니다.
인공지능에 대한 의존도가 점점 높아지는 세상에서 보안을 유지하면서 혁신을 촉진하는 것은 매우 섬세한 균형을 요구합니다. 마인드가드의 연구는 AI 보안 관행에 대한 지속적인 경계의 필요성을 강조합니다. 디지털 시대가 더욱 깊어짐에 따라, 고도화된 AI 시스템에 수반되는 취약점을 이해하는 것은 기술과 사용자 모두를 보호하는 데 매우 중요합니다.




