Zum Inhalt springen

Agentic AI Security: Shadow Agents, MCP-Exploits und die neue Angriffsfläche

· 13 min read · automation
artificial-intelligencecybersecurityai-agentsmcpprompt-injectionsupply-chain-security

9. März 2026 | Lesezeit: 13 Minuten 37 Sekunden

Einleitung: Die Agent-Sicherheits-Abrechnung

Wir haben die letzten zwei Jahre damit verbracht, überall KI-Agenten einzuführen. In unsere Code-Editoren, unsere Kundensupport-Systeme, unsere CI/CD-Pipelines, unsere Infrastrukturverwaltung. Das Tempo war berauschend. Ein Agent, der Pull-Requests entwerfen konnte. Ein anderer, der auf Sicherheitswarnungen reagieren konnte. Ein dritter, der Datenbankmigrationen verwalten konnte. Jeder fühlte sich wie ein Multiplikator auf menschliche Fähigkeit an.

Dann begannen die Vorfälle.

Im Februar 2026 wurde OpenClaw – das am schnellsten wachsende Open-Source-Projekt in der GitHub-Geschichte mit über 188.000 Sternen – zum Mittelpunkt der ersten großen KI-Agent-Sicherheitskrise. Kritische Anfälligkeiten wurden in seinem Marketplace mit 5.700+ Community-gebauten Skills entdeckt. Böswillige Akteure hatten Skills hochgeladen, die legitime Automatisierungsaufgaben zu erfüllen schienen, aber heimlich sensible Daten aus den lokalen Maschinen der Benutzer exfiltrierten. Über 21.000 offengelegte Instanzen wurden identifiziert. Der Agent, der dir helfen sollte, half sich selbst bei deinen Dateien.

Dies war kein isoliertes Ereignis. Es war die Kanarie im Kohlebergwerk für ein unternehmensweites Problem. Die gleichen Eigenschaften, die KI-Agenten nützlich machen – Autonomie, Tool-Zugriff, persistentes Gedächtnis und die Fähigkeit, Code auszuführen – machen sie außerordentlich gefährlich, wenn sie kompromittiert oder falsch konfiguriert sind. Wir haben die Ära der Agentic AI Security betreten, und die meisten Organisationen sind darauf nicht vorbereitet.

Das Shadow-Agent-Problem

Die heimtückischste Bedrohung in der Agentic AI Security ist eine, die viele Organisationen nicht einmal wissen, dass sie haben: Shadow Agents.

Shadow Agents sind autonome KI-Workflows, die von Mitarbeitern mit persönlichen Konten, Low-Code-Automatisierungsplattformen oder nicht überprüften APIs erstellt werden. Sie operieren außerhalb der Kenntnis von IT- und Sicherheitsteams, mit übermäßigen Berechtigungen, ohne Audit-Trail und ohne Lebenszyklusverwaltung. Stellen Sie sich sie als das KI-Äquivalent von Shadow IT vor, aber mit deutlich mehr Capability und Risiko.

Wie Shadow Agents entstehen

Das Muster ist vorhersehbar. Ein Marketing-Manager verbindet ChatGPT über Zapier mit der Unternehmens-E-Mail, um Antworten auf Partnerschaftanfragen automatisch zu entwerfen. Ein Ingenieur richtet einen OpenClaw-Agent auf seinem persönlichen Laptop ein, der Slack-Kanäle überwacht und automatisch Jira-Tickets einreicht. Ein Datenanalyst erstellt einen n8n-Workflow, der Kundendaten aus der Produktionsdatenbank zieht, sie durch Claude verarbeitet und Zusammenfassungen in einem Google Sheet hinterlässt.

Keiner dieser Menschen hatte böse Absichten. Jeder löste ein echtes Problem. Aber jeder dieser Workflows erstellt einen verwalteten, nicht überwachten Agenten mit Zugriff auf sensible Unternehmensdaten, der mit den vollständigen Berechtigungen des Benutzers arbeitet – und oft mehr, da viele dieser Plattformen breite OAuth-Bereiche anfordern.

Die Risiko-Oberfläche

Shadow Agents erzeugen Risiken über mehrere Dimensionen. Zunächst gibt es das Datenexpositionsrisiko. Wenn ein Mitarbeiter Unternehmensdaten über eine nicht überprüfte Integration in einen Drittanbieter-KI-Dienst eingibt, können diese Daten zum Training verwendet, auf unbestimmte Zeit gespeichert oder durch die Anfälligkeiten des Services offengelegt werden. Zweitens gibt es das Authentifizierungsrisiko. Viele Shadow Agents verwenden langlebige API-Schlüssel oder OAuth-Tokens, die nie rotiert, unsicher gespeichert und sogar nach dem Ausscheiden des Mitarbeiters bestehen bleiben. Drittens gibt es das Ausführungsrisiko. Ein Agent, der Code ausführen, E-Mails versenden oder Datensätze ändern kann, kann durch Prompt Injection manipuliert werden, um Aktionen auszuführen, die der erstellende Benutzer nie beabsichtigte.

Erkennung und Mitigation

Die Erkennung von Shadow Agents erfordert eine Kombination aus Netzwerküberwachung, API-Gateway-Analyse und identitätsbasiertem Auditing. Suchen Sie nach ungewöhnlichen Mustern: API-Aufrufe an KI-Services aus unerwarteten Quellen, OAuth-Berechtigungen für unbekannte Anwendungen und Datenflüsse, die normale Kanäle umgehen. Implementieren Sie Richtlinien, die verlangen, dass alle KI-Agent-Einsätze durch einen formalen Überprüfungsprozess gehen, und stellen Sie sanktionierte Alternativen bereit, damit Mitarbeiter ihre Ziele erreichen können, ohne rauher zu werden.

Die MCP-Anfälligkeitslandschaft

Das Model Context Protocol (MCP) ist zum De-facto-Standard für die Verbindung von KI-Modellen mit externen Tools und Services geworden. Von Anthropic entwickelt und branchenweit übernommen, ermöglicht MCP Sprachmodellen, mit Datenbanken, APIs, Dateisystemen und anderen Ressourcen über eine standardisierte Schnittstelle zu interagieren. Es ist mächtig, flexibel und – wie kürzlich veröffentlichte Forschung gezeigt hat – voller Sicherheitsbedenken.

Das 43%-Problem

Ein umfassendes Audit, das im Februar 2026 veröffentlicht wurde, ergab, dass 43% der öffentlich verfügbaren MCP-Server für Command-Execution-Angriffe anfällig sind. Die Anfälligkeitsoberfläche ist breit: unzureichende Input-Validierung, fehlende Authentifizierung, übermäßig permissive Tool-Definitionen und eine grundlegende architektonische Spannung zwischen der Flexibilität des Protokolls und grundlegenden Sicherheitsprinzipien.

Das Kernproblem besteht darin, dass MCP für Capability, nicht für Eindämmung, entwickelt wurde. Ein gut konfigurierter MCP-Server kann einem KI-Modell präzise definierten Zugriff auf spezifische Funktionen geben. Aber die Standard-Konfiguration vieler Community-gebauter Server gewährt weit mehr Zugriff als nötig, und das Design des Protokolls macht es leicht, versehentlich gefährliche Funktionalität zu offenbaren.

Angriffsvektoren

Die primären Angriffsvektoren gegen MCP-Installationen fallen in mehrere Kategorien.

Tool Poisoning tritt auf, wenn ein böswilliger MCP-Server Tools bewirbt, die harmlos erscheinen, aber schädliche Operationen ausführen. Ein KI-Modell, das sich mit einem Tool namens format_text verbindet, könnte tatsächlich eine Funktion aufrufen, die Umgebungsvariablen exfiltriert. Da das KI-Modell den Selbstbeschreibung des Tools vertraut, hat es keine Möglichkeit zu überprüfen, dass das Tool das tut, was es behauptet.

Cross-Server Manipulation nutzt die Tatsache, dass viele KI-Agenten gleichzeitig mit mehreren MCP-Servern verbunden sind. Ein böswilliger Server kann Anweisungen injizieren, die den KI-Agent dazu veranlassen, Tools, die von einem legitimen Server bereitgestellt werden, misszu nutzen. Zum Beispiel könnte die Antwort eines kompromittierten Servers versteckte Anweisungen enthalten, die den Agenten dazu veranlassen, sein Datenbankzugriffs-Tool zu verwenden, um sensible Datensätze zu extrahieren und zu übertragen.

Credential Theft zielt auf die Authentifizierungs-Tokens und API-Schlüssel ab, die MCP-Server häufig speichern, um auf externe Services zuzugreifen. Da MCP-Server als separate Prozesse laufen, können sie Anmeldedaten in Konfigurationsdateien, Umgebungsvariablen oder In-Memory-Stores speichern, die für andere Prozesse auf derselben Maschine zugänglich sind.

Sichere MCP-Einsätze

Die Sicherung von MCP erfordert einen Defense-in-Depth-Ansatz. Beginnen Sie mit dem Prinzip der geringsten Berechtigung: Jeder MCP-Server sollte nur die minimale Menge von Tools verfügbar machen, die für seinen Zweck erforderlich sind. Implementieren Sie Input-Validierung auf jedem Tool-Parameter. Verwenden Sie Sandbox-Ausführungsumgebungen – Container oder VMs – um den Blast-Radius eines kompromittierten Servers zu begrenzen. Audits Tool-Beschreibungen und überprüfen Sie, dass sie das Tool-Verhalten genau widerspiegeln. Und kritisch, implementieren Sie Überwachung, die erkennen kann, wenn die Tool-Nutzungsmuster eines KI-Agenten von erwarteter Verhalten abweichen.

Prompt Injection im großen Maßstab

Prompt Injection ist nicht neu, aber seine Auswirkungen haben sich im Zeitalter autonomer Agenten dramatisch verändert. Wenn ein KI-Modell auf die Erzeugung von Text in einer Chat-Schnittstelle beschränkt war, könnte ein erfolgreicher Prompt Injection peinliche Ausgabe erzeugen. Wenn ein KI-Agent Zugriff auf E-Mail, Code-Repositories und Produktionsinfrastruktur hat, kann ein erfolgreicher Prompt Injection zu Datenexfiltration, unbefugtem Zugriff oder Systemkompromittierung führen.

Die Entwicklung der Angriffe

Prompt Injection-Angriffe der ersten Generation waren primitiv: „Ignorieren Sie Ihre bisherigen Anweisungen und tun Sie X." Diese werden leicht durch grundlegende Input-Filterung erkannt. Die Angriffe, mit denen Sicherheitsteams 2026 umgehen, sind weit raffinierter.

Indirect Prompt Injection bettet böswillige Anweisungen in Inhalte ein, die der KI-Agent als Daten statt als direkte Benutzereingabe verarbeitet. Ein Angreifer könnte unsichtbaren Text zu einer Webseite hinzufügen, der jeden KI-Agenten, der die Seite liest, anweist, sein Gesprächsverlauf an einen externen Server weiterzuleiten. Sie könnten eine E-Mail verfassen, die, wenn sie von einem KI-E-Mail-Assistent verarbeitet wird, den Assistenten dazu veranlasst, alle nachfolgenden E-Mails an eine Angreifer-kontrollierte Adresse weiterzuleiten.

Multi-turn Manipulation beinhaltet die schrittweise Verschiebung des Agent-Verhaltens über mehrere Interaktionen hinweg. Jeder einzelne Prompt erscheint harmlos, aber der kumulative Effekt ist, das Verständnis des Agenten über seinen Kontext und seine Berechtigungen in eine Richtung zu verschieben, die dem Angreifer nutzt. Dies ist besonders effektiv gegen Agenten mit persistentem Gedächtnis, wo jede Interaktion den gespeicherten Kontext des Agenten ändert.

Tool-Chaining Attacks nutzen die Fähigkeit des Agenten, mehrere Tools in Folge zu verwenden. Das Ziel des Angreifers ist nicht, den Agenten direkt anzuweisen, eine schädliche Aktion auszuführen – was durch Sicherheitsfilter erkannt würde – sondern eine Reihe von individuell harmlosen Tool-Aufrufen zu konstruieren, die bei Kombination ein schädliches Ergebnis erreichen.

Das AgentShield-Benchmark

AgentShield, das Anfang 2026 veröffentlicht wurde, wurde zum ersten Open Benchmark, das kommerzielle KI-Agent-Sicherheitstools testet. Die Ergebnisse aus 537 Testfällen waren ernüchternd: schwache Tool-Abuse-Erkennung überall, inkonsistente Prompt Injection-Erkennung und fast keine Fähigkeit, Multi-Step-Angriffe zu erkennen, die harmlose Operationen in schädliche Ergebnisse verketten.

Das Benchmark enthüllte, dass die meisten bestehenden Sicherheitstools für eine Pre-Agent-Welt entwickelt wurden. Sie können bekannte Angriffsmuster erkennen, aber ringen mit der kombinatorischen Komplexität von Agent-basierten Bedrohungen, wo die Gefahr nicht in einer einzelnen Aktion liegt, sondern in der Abfolge und dem Kontext der Aktionen.

Defensive Strategien

Eine effektive Verteidigung gegen Prompt Injection in Agenten-Systemen erfordert mehrere Schichten. Input-Sanitization muss nicht nur direkte Benutzereingabe abdecken, sondern alle Daten, die der Agent verarbeitet, einschließlich Webseiten, E-Mails, Datensätze und API-Antworten. Output-Überwachung muss nicht nur verfolgen, was der Agent sagt, sondern was er tut – jeden Tool-Aufruf, jede API-Anfrage, jede Dateieoperation. Verhaltensanalyse muss Baselines für normale Agent-Aktivität etablieren und Abweichungen kennzeichnen.

Architekturentscheidungen sind auch wichtig. Das Prinzip der geringsten Berechtigung ist von größter Wichtigkeit: Agenten sollten nur Zugriff auf die Tools und Daten haben, die sie für ihre spezifische Funktion benötigen. Separation of Concerns bedeutet, dass ein Agent, der Kundensupport handhabt, keinen Zugriff auf Produktionsinfrastruktur-Tools haben sollte, auch wenn sie technisch über denselben MCP-Server verfügbar sind. Und Human-in-the-Loop-Anforderungen sollten für hochauswirkungsaktionen durchgesetzt werden – Datenbanklöschungen, Finanztransaktionen, Zugriffskontroll-Änderungen – unabhängig davon, wie zuversichtlich der Agent ist.

Supply-Chain-Angriffe auf Agent-Ökosysteme

Das Agent-Ökosystem hat eine neue Variante des Supply-Chain-Angriffs geschaffen. Traditionelle Supply-Chain-Angriffe zielen auf Code-Abhängigkeiten – kompromittierte npm-Pakete, vergiftete Docker-Images, böswillige GitHub-Aktionen. Agent Supply-Chain-Angriffe zielen auf die Tools, Skills und Konfigurationen, von denen Agenten abhängen.

Marketplace-Vergiftung

Agent-Marktplätze wie OpenClaw's ClawHub mit über 5.700 Community-gebauten Skills stellen eine enorme Angriffsfläche dar. Ein böswilliger Skill kann eine nützliche Funktion auszuführen scheinen, während gleichzeitig Daten exfiltriert, Agent-Verhalten ändert oder Persistenz etabliert. Die Überprüfungsprozesse für diese Marktplätze sind oft unzureichend: automatisierte Scans können bekannte Malware-Muster erkennen, können aber die semantische Absicht des Codes, der mit einem KI-Modells-Entscheidungsprozess interagiert, nicht bewerten.

Die OpenClaw-Krise demonstrierte dies lebhaft. Böswillige Skills wurden entwickelt, um automatisierte Sicherheits-Scans zu bestehen, während sie das implizite Vertrauen ausnutzten, das der Agent in seine installierten Skills setzte. Einige Skills exfiltrierten lokale Dateien. Andere modifizierten den System-Prompt des Agenten, um persistente Anweisungen zu injizieren, die Skill-Deinstallation überlebten. Ein paar etablierten Reverse-Shell-Verbindungen zu Angreifer-kontrollierten Servern.

Konfigurations-Drift

Agent-Konfigurationen – System Prompts, Tool-Berechtigungen, Speicher-Schemas – werden oft als Code behandelt, aber mit weniger Strenge verwaltet als Produktionscode. Sie können in Plaintext gespeichert, über unsichere Kanäle geteilt und ohne Versionskontrolle oder Überprüfung geändert werden. Ein Angreifer, der eine Agent-Konfiguration ändern kann, kann sein Verhalten grundlegend verändern, ohne eine Zeile Code zu berühren.

Verteidigung der Supply Chain

Supply-Chain-Verteidigung für Agent-Ökosysteme erfordert die Behandlung von Agent-Konfigurationen mit der gleichen Strenge wie Produktionscode. Nutzen Sie Versionskontrolle. Implementieren Sie Code-Überprüfung für Konfigurationsänderungen. Signieren und überprüfen Sie Agent-Pakete. Führen Sie ein Verzeichnis aller installierten Skills und Tools. Und implementieren Sie Laufzeit-Überwachung, die erkennen kann, wenn ein Agent-Verhalten von seiner beabsichtigten Funktion abweicht.

Memory Poisoning: Die persistente Bedrohung

Agenten mit persistentem Gedächtnis führen eine Kategorie von Anfälligkeiten ein, die in der traditionellen Softwaresicherheit kein Präzedenzfall hat. Wenn sich ein Agent über Sessions hinweg Kontext merkt, kann ein Angreifer, der das Agent-Gedächtnis beeinflussen kann, eine persistente Präsenz etablieren, die Neustarts, Neuinstallationen und sogar Updates überlebt.

Wie Memory Poisoning funktioniert

Betrachten Sie einen Agenten, der eine Vektor-Datenbank nutzt, um Kontext aus früheren Interaktionen zu speichern und abzurufen. Ein Angreifer craftet eine Reihe von Interaktionen, die böswillige Anweisungen in das Agent-Gedächtnis einbetten. Diese Anweisungen werden als Embeddings gespeichert und abgerufen, wann immer der Agent auf einen verwandten Kontext trifft. Der Angriff persisiert, weil die vergifteten Erinnerungen von legitimen nicht zu unterscheiden sind – sie werden im gleichen Format, in der gleichen Datenbank, mit dem gleichen Embedding-Modell gespeichert.

Das Ergebnis ist ein Agent, der sich die meiste Zeit normal verhält, aber von erwarteter Verhalten abweicht, wenn durch spezifische Kontexte ausgelöst. Es ist das KI-Äquivalent einer Logic Bomb, und es ist äußerst schwer zu erkennen.

Mitigation Approaches

Die Mitigation von Memory Poisoning erfordert eine Kombination aus Memory-Hygiene und Überwachung. Implementieren Sie Memory-Expiration-Richtlinien, die alte Erinnerungen automatisch löschen. Nutzen Sie kryptographisches Signieren, um die Herkunft gespeicherter Kontexte zu überprüfen. Implementieren Sie Anomalieerkennung auf den Memory-Abruf-Mustern des Agenten. Und halten Sie die Fähigkeit, das Agent-Gedächtnis auf einen bekannt-guten Zustand zurückzurollen.

Sichere Agent-Systeme aufbauen

Der Weg nach vorne ist nicht, KI-Agenten zu verlassen – ihre Produktivitätsgewinne sind zu signifikant, um ignoriert zu werden. Stattdessen müssen Organisationen Sicherheit von Anfang an in den Agent-Lebenszyklus integrieren.

Zero Trust für Agenten

Wenden Sie Zero-Trust-Prinzipien auf Agent-Einsätze an. Kein Agent sollte implizit vertraut werden, unabhängig davon, wo er läuft oder wer ihn bereitgestellt hat. Jeder Tool-Zugriff sollte authentifiziert und autorisiert werden. Jede Aktion sollte protokolliert und auditierbar sein. Jeder Datenfluss sollte verschlüsselt und überwacht sein.

Der Agent-Sicherheits-Stack

Ein umfassender Agent-Sicherheits-Stack umfasst mehrere Schichten. Identity and Access Management kontrolliert, welche Agenten auf welche Ressourcen zugreifen können. Input-Validierung verhindert Prompt Injection und Datenvergiftung. Execution Sandboxing begrenzt den Blast-Radius eines kompromittierten Agenten. Behavioral Monitoring erkennt anomale Agent-Aktivität. Audit-Logging bietet forensische Fähigkeit. Und Incident-Response-Verfahren müssen Agent-spezifische Szenarien berücksichtigen.

Organisatorische Bereitschaft

Technische Kontrollen sind notwendig, aber nicht ausreichend. Organisationen benötigen Richtlinien, die die akzeptable Nutzung von KI-Agenten definieren, Governance-Strukturen, die die Verantwortung für Agent-Sicherheit zuweisen, Schulungsprogramme, die Mitarbeiter über die Risiken von Shadow Agents aufklären, und Incident-Response-Verfahren, die die einzigartigen Merkmale von Agent-basierten Angriffen berücksichtigen.

Fazit: Die Einsätze sind real

Die Agentic AI Security-Landschaft 2026 ist durch ein grundlegendes Missverhältnis zwischen Capability und Sicherheit gekennzeichnet. Wir haben Agenten mit bemerkenswerten Fähigkeiten – Argumentation, Tool-Verwendung, persistentes Gedächtnis, autonome Entscheidungsfindung – in Umgebungen bereitgestellt, die für eine Pre-Agent-Welt konzipiert sind. Die Sicherheitstools, Prozesse und mentalen Modelle, die wir für traditionelle Software entwickelt haben, sind für diese neue Realität unzureichend.

Die Vorfälle sind real. Die Anfälligkeiten sind weit verbreitet. Die Angriffsfläche wächst. Aber der Weg nach vorne ist klar: Agenten als erstklassige Sicherheitsprinzipal behandeln, Defense in Depth anwenden, Human Oversight für hochauswirkungsaktionen erhalten und Sicherheit von Tag eins in den Agent-Lebenszyklus einbauen.

Die Organisationen, die dies richtig machen, werden die Produktivitätsgewinne von Agentic AI genießen, ohne zur nächsten Anleitung zu werden. Die, die es nicht tun, werden es auf die schwere Weise erfahren, dass ein Agent mit übermäßigen Berechtigungen und unzureichender Überwachung nicht ein Produktivitäts-Tool ist – es ist eine Verbindlichkeit.