에이전트형 AI 보안: 섀도우 에이전트, MCP 악용, 및 새로운 공격 표면

2026년 3월 9일 | 읽기 시간: 13분 37초

소개: 에이전트 보안의 청산

우리는 지난 2년 동안 AI 에이전트를 모든 곳에 배포하려고 경쟁했습니다. 코드 편집기, 고객 지원 시스템, CI/CD 파이프라인, 인프라 관리로. 속도는 중독성이 있었습니다. 풀 요청을 작성할 수 있는 에이전트. 보안 경고에 응답할 수 있는 다른 에이전트. 데이터베이스 마이그레이션을 관리할 수 있는 세 번째 에이전트. 각각은 인간 능력의 배수처럼 느껴졌습니다.

그러다 사건이 시작됐어요.

2026년 2월, GitHub 역사에서 가장 빠르게 성장하는 오픈 소스 프로젝트인 OpenClaw는 188,000개 이상의 별을 가지고 있으며 첫 번째 주요 AI 에이전트 보안 위기의 중심이 되었습니다. 5,700개 이상의 커뮤니티 구축 스킬 마켓플레이스 전체에서 심각한 취약점이 발견되었습니다. 악의적 행위자들은 합법적인 자동화 작업을 수행하는 것으로 보이지만 사용자의 로컬 머신에서 민감한 데이터를 비밀리에 유출하는 스킬을 업로드했습니다. 21,000개 이상의 노출된 인스턴스가 확인되었습니다. 당신을 돕기 위한 것이 당신의 파일을 도왔습니다.

이것은 고립된 사건이 아니었습니다. 탄광의 카나리였습니다. AI 에이전트를 유용하게 만드는 것과 같은 속성(자율성, 도구 액세스, 영구 메모리, 코드 실행 능력)은 손상되거나 잘못 설정되었을 때 엄청나게 위험합니다. 우리는 에이전트형 AI 보안 시대에 진입했으며, 대부분의 조직은 그것이 의미하는 바에 대해 준비가 되어있지 않습니다.

섀도우 에이전트 문제

에이전트형 AI 보안에서 가장 음흉한 위협은 많은 조직이 가지고 있다는 것을 알지 못하는 것입니다: 섀도우 에이전트.

섀도우 에이전트는 직원이 개인 계정, 저코드 자동화 플랫폼 또는 검증되지 않은 API를 사용하여 생성한 자율적 AI 워크플로우입니다. 그들은 IT 및 보안 팀의 관할권 밖에서 과도한 권한, 감시 기록 없음, 생명주기 관리 없음으로 작동합니다. 섀도우 IT의 AI 동등물이라고 생각하되 훨씬 더 많은 기능과 위험을 가지고 있습니다.

섀도우 에이전트가 어떻게 나타나는가

패턴은 예측 가능합니다. 마케팅 관리자가 Zapier를 통해 ChatGPT를 회사 이메일에 연결하여 파트너십 문의에 자동으로 응답합니다. 엔지니어는 Slack 채널을 모니터링하고 Jira 티켓을 자동으로 파일링하는 OpenClaw 에이전트를 개인 랩톱에 설정합니다. 데이터 분석가는 프로덕션 데이터베이스에서 고객 데이터를 가져오고, Claude를 통해 처리하고, 요약을 Google Sheet에 저장하는 n8n 워크플로우를 만듭니다.

이 사람들은 악의를 가지지 않았습니다. 각각은 실제 문제를 해결하고 있었습니다. 하지만 이러한 워크플로우 각각은 민감한 회사 데이터에 액세스할 수 있는 관리되지 않고, 모니터링되지 않는 에이전트를 생성합니다.

위험 표면

섀도우 에이전트는 여러 차원에서 위험을 생성합니다. 첫째, 데이터 노출 위험이 있습니다. 직원이 검증되지 않은 통합을 통해 타사 AI 서비스에 회사 데이터를 공급할 때, 그 데이터는 훈련에 사용되거나, 무기한 저장되거나, 서비스 자체의 취약점을 통해 노출될 수 있습니다. 둘째, 인증 위험이 있습니다. 많은 섀도우 에이전트는 회전되지 않는 장기 API 키 또는 OAuth 토큰을 사용하고, 안전하지 않게 저장되며, 직원이 조직을 떠난 후에도 지속됩니다. 셋째, 실행 위험이 있습니다. 코드를 실행하거나, 이메일을 보내거나, 레코드를 수정할 수 있는 에이전트는 프롬프트 주입을 통해 조작되어 작성자가 의도하지 않은 동작을 수행할 수 있습니다.

탐지 및 완화

섀도우 에이전트를 탐지하려면 네트워크 모니터링, API 게이트웨이 분석 및 ID 기반 감사의 조합이 필요합니다. 비정상적인 패턴을 찾으세요: 예상치 못한 소스에서 AI 서비스로의 API 호출, 낯선 애플리케이션에 대한 OAuth 부여, 일반 채널을 우회하는 데이터 흐름. 모든 AI 에이전트 배포가 공식 검토 프로세스를 거쳐야 하는 정책을 구현하고, 직원이 무모하게 가지 않고도 목표를 달성할 수 있도록 승인된 대안을 제공합니다.

MCP 취약점 지형

Model Context Protocol (MCP)은 AI 모델을 외부 도구 및 서비스에 연결하는 사실상 표준이 되었습니다. Anthropic에서 개발하고 업계 전반에 걸쳐 채택된 MCP는 언어 모델이 표준화된 인터페이스를 통해 데이터베이스, API, 파일 시스템 및 기타 리소스와 상호 작용할 수 있게 합니다. 이것은 강력하고 유연하며 (최근 연구가 밝혀낸 대로) 보안 문제로 가득합니다.

43% 문제

2026년 2월에 발표된 종합 감사에서 공개적으로 사용 가능한 MCP 서버의 43%가 명령 실행 공격에 취약한 것으로 나타났습니다. 취약점 표면은 광범위합니다: 부적절한 입력 검증, 누락된 인증, 과도하게 허용적인 도구 정의, 프로토콜의 유연성과 기본 보안 원칙 간의 근본적인 아키텍처 긴장.

핵심 문제는 MCP가 포함을 위한 것이 아니라 기능을 위해 설계되었다는 것입니다. 잘 설정된 MCP 서버는 특정 함수에 대해 정확하게 범위가 지정된 AI 모델 액세스를 제공할 수 있습니다. 하지만 커뮤니티 구축 서버의 기본 설정은 필요한 것보다 훨씬 많은 액세스 권한을 부여하며, 프로토콜의 디자인은 위험한 기능을 우발적으로 노출하기 쉽습니다.

공격 벡터

MCP 설치에 대한 주요 공격 벡터는 여러 범주로 나뉩니다.

도구 중독은 악의적 MCP 서버가 양성으로 보이지만 해로운 작업을 실행하는 도구를 광고할 때 발생합니다. format_text라고 불리는 도구에 연결하는 AI 모델은 실제로 환경 변수를 유출하는 함수를 호출할 수 있습니다. AI 모델이 도구의 자체 설명을 신뢰하기 때문에 도구가 자신이 주장하는 것을 수행하는지 확인할 수 없습니다.

교차 서버 조작은 많은 AI 에이전트가 동시에 여러 MCP 서버에 연결한다는 사실을 악용합니다. 악의적 서버는 AI가 합법적 서버에서 제공한 도구를 오용하도록 유도하는 지침을 주입할 수 있습니다. 예를 들어, 손상된 서버의 응답에는 에이전트가 데이터베이스 액세스 도구를 사용하여 민감한 레코드를 추출하고 전송하도록 유도하는 숨겨진 지침이 포함될 수 있습니다.

자격증 도용은 MCP 서버가 외부 서비스에 액세스하기 위해 저장하는 인증 토큰 및 API 키를 대상으로 합니다. MCP 서버는 별도의 프로세스로 실행되기 때문에 설정 파일, 환경 변수 또는 같은 머신의 다른 프로세스에 액세스할 수 있는 메모리 내 저장소에 자격증을 저장할 수 있습니다.

MCP 배포 보안

MCP 보안은 방어의 깊이 접근이 필요합니다. 최소 권한의 원칙부터 시작합니다: 모든 MCP 서버는 목적에 필요한 최소한의 도구 세트만 노출해야 합니다. 모든 도구 매개변수에 입력 검증을 구현합니다. 컨테이너 또는 VM과 같은 샌드박스 실행 환경을 사용하여 손상된 서버의 영향을 제한합니다. 도구 설명을 감사하고 도구 동작을 정확하게 반영하는지 확인합니다. 그리고 중요하게도, AI 에이전트의 도구 사용 패턴이 예상된 동작에서 벗어날 때를 감지할 수 있는 모니터링을 구현합니다.

규모의 프롬프트 주입

프롬프트 주입은 새로운 것이 아니지만, 자율적 에이전트 시대에 그 영향은 극적으로 변했습니다. AI 모델이 채팅 인터페이스에서 텍스트 생성으로 제한되었을 때, 성공한 프롬프트 주입은 부끄러운 출력을 생성했을 수 있습니다. AI 에이전트가 이메일, 코드 저장소 및 프로덕션 인프라에 액세스할 수 있을 때, 성공한 프롬프트 주입은 데이터 유출, 권한 없는 액세스 또는 시스템 손상을 초래할 수 있습니다.

공격의 진화

1세대 프롬프트 주입 공격은 조잡했습니다: "이전 지침을 무시하고 X를 수행합니다." 이들은 기본 입력 필터링으로 쉽게 포착됩니다. 2026년 보안팀이 다루고 있는 공격은 훨씬 더 정교합니다.

간접 프롬프트 주입은 AI 에이전트가 직접 사용자 입력이 아니라 데이터로 처리하는 콘텐츠에 악의적 지침을 임베드합니다. 공격자는 페이지를 읽는 모든 AI 에이전트에게 대화 기록을 외부 서버로 전달하도록 지시하는 보이지 않는 텍스트를 웹 페이지에 추가할 수 있습니다. 이메일 보조자가 처리할 때 AI 보조자가 그 이후의 모든 이메일을 공격자 제어 주소로 전달하도록 유도하는 이메일을 작성할 수 있습니다.

다중 턴 조작은 여러 상호작용에 걸쳐 에이전트의 동작을 점진적으로 이동하는 것을 포함합니다. 각 개별 프롬프트는 양성으로 보이지만, 누적 효과는 공격자에게 이익이 되는 방식으로 에이전트의 맥락과 권한에 대한 이해를 이동시키는 것입니다. 이는 특히 지속적인 메모리가 있는 에이전트에 효과적입니다. 여기서 각 상호작용은 에이전트의 저장된 맥락을 수정합니다.

도구 체이닝 공격은 에이전트가 순서대로 여러 도구를 사용하는 능력을 악용합니다. 공격자의 목표는 에이전트를 직접 해로운 동작을 수행하도록 지시하지 않는 것(이것은 안전성 필터로 포착될 것입니다)이 아니라 조합되었을 때 해로운 결과를 달성하는 개별적으로 양성인 도구 호출의 순서를 구성하는 것입니다.

AgentShield 벤치마크

2026년 초 발표된 AgentShield는 상용 AI 에이전트 보안 도구를 테스트하는 첫 번째 공개 벤치마크가 되었습니다. 537개 테스트 케이스의 결과는 심각했습니다: 전반적으로 약한 도구 남용 탐지, 불일치한 프롬프트 주입 탐지, 양성 작업을 해로운 결과로 연결하는 다단계 공격을 감지할 능력이 거의 없음.

벤치마크는 대부분의 기존 보안 도구가 에이전트 이전 세계를 위해 설계되었음을 공개했습니다. 그들은 알려진 공격 패턴을 감지할 수 있지만 에이전트 기반 위협의 조합 복잡성으로 어려움을 겪고 있습니다. 여기서 위험은 단일 동작이 아니라 동작의 순서와 맥락에 있습니다.

방어 전략

에이전트 시스템에서 프롬프트 주입에 대한 효과적인 방어에는 여러 계층이 필요합니다. 입력 살균은 직접 사용자 입력뿐만 아니라 웹 페이지, 이메일, 데이터베이스 레코드 및 API 응답을 포함하여 에이전트가 처리하는 모든 데이터를 다루어야 합니다. 출력 모니터링은 에이전트가 말하는 것뿐만 아니라 하는 것(모든 도구 호출, 모든 API 요청, 모든 파일 작업)을 추적해야 합니다. 행동 분석은 정상적인 에이전트 활동에 대한 기준을 설정하고 편차를 표시해야 합니다.

아키텍처 결정도 중요합니다. 최소 권한의 원칙이 가장 중요합니다: 에이전트는 특정 기능에 필요한 도구와 데이터에만 액세스해야 합니다. 관심사의 분리는 고객 지원을 처리하는 에이전트가 동일한 MCP 서버를 통해 기술적으로 사용 가능하더라도 프로덕션 인프라 도구에 액세스하지 않아야 함을 의미합니다. 그리고 데이터베이스 삭제, 금융 거래, 액세스 제어 변경과 같은 높은 영향의 동작에 대해 휴먼 인더 루프 요구사항을 적용해야 합니다. 에이전트가 얼마나 확신하는지 관계없이.

에이전트 생태계에 대한 공급망 공격

에이전트 생태계는 공급망 공격의 새로운 변형을 만들었습니다. 전통적인 공급망 공격은 코드 종속성(손상된 npm 패키지, 중독된 Docker 이미지, 악의적 GitHub 작업)을 대상으로 합니다. 에이전트 공급망 공격은 에이전트가 의존하는 도구, 스킬 및 설정을 대상으로 합니다.

마켓플레이스 중독

OpenClaw의 ClawHub와 같은 에이전트 마켓플레이스는 5,700개 이상의 커뮤니티 구축 스킬로 엄청난 공격 표면을 제시합니다. 악의적 스킬은 유용한 함수를 수행하는 것처럼 보이면서 동시에 데이터를 유출하거나, 에이전트 동작을 수정하거나, 영구성을 설정할 수 있습니다. 이러한 마켓플레이스에 대한 검토 프로세스는 종종 불충분합니다: 자동화된 스캔은 알려진 악성코드 패턴을 포착할 수 있지만 AI 모델의 의사결정 프로세스와 상호 작용하는 코드의 의미론적 의도를 평가할 수 없습니다.

OpenClaw 위기는 이를 생생하게 시연했습니다. 악의적 스킬은 자동화된 보안 스캔을 통과하도록 설계되었으면서 에이전트가 설치된 스킬에 두는 암묵적 신뢰를 악용합니다. 일부 스킬은 로컬 파일을 유출했습니다. 다른 것은 에이전트의 시스템 프롬프트를 수정하여 스킬 제거 후에도 존속하는 영구 지침을 주입했습니다. 몇 가지는 공격자 제어 서버로 역쉘 연결을 설정했습니다.

구성 드리프트

에이전트 구성(시스템 프롬프트, 도구 권한, 메모리 스키마)은 종종 코드로 처리되지만 프로덕션 코드보다 더 엄격하게 관리됩니다. 평문으로 저장될 수 있고, 안전하지 않은 채널을 통해 공유될 수 있으며, 버전 제어나 검토 없이 수정될 수 있습니다. 에이전트의 설정을 수정할 수 있는 공격자는 코드를 건드리지 않고도 그 동작을 근본적으로 변경할 수 있습니다.

공급망 방어

에이전트 생태계에 대한 공급망 방어에는 에이전트 설정을 프로덕션 코드와 동일한 엄격함으로 취급해야 합니다. 버전 제어를 사용하십시오. 구성 변경에 대한 코드 검토를 구현합니다. 에이전트 패키지를 서명하고 확인합니다. 설치된 모든 스킬 및 도구의 인벤토리를 유지합니다. 그리고 에이전트의 동작이 의도된 기능에서 벗어날 때를 감지할 수 있는 런타임 모니터링을 구현합니다.

메모리 중독: 영구적 위협

영구 메모리가 있는 에이전트는 전통적인 소프트웨어 보안에 선례가 없는 취약점의 범주를 소개합니다. 에이전트가 세션 간에 맥락을 기억할 때, 에이전트의 메모리에 영향을 미칠 수 있는 공격자는 재시작, 재설치 및 업데이트를 후에도 생존하는 영구적인 현재를 설정할 수 있습니다.

메모리 중독이 어떻게 작동하는가

벡터 데이터베이스를 사용하여 과거 상호작용의 맥락을 저장하고 검색하는 에이전트를 고려합니다. 공격자는 악의적 지침을 에이전트의 메모리에 임베드하도록 설계된 일련의 상호작용을 만듭니다. 이러한 지침은 임베딩으로 저장되고 에이전트가 관련 맥락을 만날 때마다 검색됩니다. 중독된 메모리는 합법적인 것과 구별할 수 없기 때문에 공격은 지속됩니다. 같은 형식, 같은 데이터베이스, 같은 임베딩 모델로 저장됩니다.

결과는 대부분의 시간은 정상적으로 행동하지만 특정 맥락에 의해 트리거될 때 예상된 동작에서 벗어나는 에이전트입니다. 이것은 AI 동등의 로직 폭탄이며 감지하기 극히 어렵습니다.

완화 접근

메모리 중독 완화에는 메모리 위생과 모니터링의 조합이 필요합니다. 자동으로 오래된 메모리를 제거하는 메모리 만료 정책을 구현합니다. 저장된 맥락의 출처를 확인하기 위해 암호화 서명을 사용합니다. 에이전트의 메모리 검색 패턴에 이상 탐지를 구현합니다. 그리고 에이전트의 메모리를 알려진 좋은 상태로 롤백할 수 있는 능력을 유지합니다.

보안 에이전트 시스템 구축

앞으로의 길은 AI 에이전트를 버리는 것이 아닙니다. 그들의 생산성 이점은 무시하기에 너무 중요합니다. 대신 조직은 에이전트 생명주기의 시작부터 보안을 구축해야 합니다.

에이전트를 위한 제로 신뢰

에이전트 배포에 제로 신뢰 원칙을 적용합니다. 어디서 실행되거나 누가 배포했는지 관계없이 어떤 에이전트도 암묵적으로 신뢰되어서는 안 됩니다. 모든 도구 액세스는 인증되고 권한이 부여되어야 합니다. 모든 동작은 로깅되고 감사 가능해야 합니다. 모든 데이터 흐름은 암호화되고 모니터링되어야 합니다.

에이전트 보안 스택

종합적인 에이전트 보안 스택에는 여러 계층이 있습니다. ID 및 액세스 관리는 어떤 에이전트가 어떤 리소스에 액세스할 수 있는지 제어합니다. 입력 검증은 프롬프트 주입 및 데이터 중독을 방지합니다. 실행 샌드박싱은 손상된 에이전트의 영향을 제한합니다. 행동 모니터링은 비정상적인 에이전트 활동을 감지합니다. 감사 로깅은 법의학 기능을 제공합니다. 그리고 사건 대응 절차는 에이전트 특정 시나리오를 설명해야 합니다.

조직의 준비

기술적 제어는 필요하지만 충분하지 않습니다. 조직은 AI 에이전트의 수용 가능한 사용을 정의하는 정책, 에이전트 보안에 대한 책임을 지정하는 거버넌스 구조, 섀도우 에이전트의 위험에 대해 직원을 교육하는 훈련 프로그램 및 에이전트 기반 공격의 고유한 특성을 설명하는 사건 대응 절차가 필요합니다.

결론: 이해관계는 실제입니다

2026년의 에이전트형 AI 보안 지형은 기능과 보안 간의 근본적인 불일치로 특징지어집니다. 우리는 놀라운 능력(추론, 도구 사용, 영구 메모리, 자율적 의사결정)을 가진 에이전트를 에이전트 이전 세계를 위해 설계된 환경에 배포했습니다. 전통적인 소프트웨어를 위해 개발한 보안 도구, 프로세스 및 정신 모델은 이 새로운 현실에 불충분합니다.

사건은 실제입니다. 취약점은 광범위합니다. 공격 표면은 증가하고 있습니다. 하지만 앞으로의 길은 명확합니다: 에이전트를 1등급 보안 주체로 취급하고, 방어의 깊이를 적용하고, 높은 영향의 동작에 대한 인간의 감시를 유지하고, 에이전트 생명주기의 첫날부터 보안을 구축합니다.

이것을 올바르게 하는 조직은 조심스러운 이야기가 되지 않고 에이전트형 AI의 생산성 이점을 누릴 것입니다. 하지 않는 조직은 과도한 권한과 불충분한 모니터링이 있는 에이전트가 생산성 도구가 아니라 책임이라는 것을 어려운 방식으로 배울 것입니다.