Zuverlässige KI-Agenten entwickeln: Fehlerbehandlung und Fallback-Mechanismen

Der Aufbau zuverlässiger KI-Agenten erfordert robuste Fehlerbehandlung und Fallback-Mechanismen. Dieser Leitfaden behandelt Muster für produktionsreife autonome Systeme.

Fehlertypen und Behandlung

Vorübergehende Fehler

API-Ratenlimits (429)
Netzwerk-Timeouts
Temporäre Nichtverfügbarkeit des Dienstes (503)
Lösung: Mit exponentiellem Backoff wiederholen
Erfolgsrate der Wiederholungen überwachen

Permanente Fehler

Ungültige API-Schlüssel (401)
Fehlerhafte Anfragen (400)
Ressource nicht gefunden (404)
Lösung: Protokollieren, alarmieren und schnell fehlschlagen
Permanente Fehler nicht wiederholen

LLM-spezifische Fehler

Kontextlänge überschritten
Verstöße gegen Inhaltsrichtlinien
Halluzinationen oder falsche Ausgaben
Formatvalidierungsfehler
Lösung: Eingabevalidierung, Ausgabeüberprüfung, Fallbacks

Wiederholungsstrategien

Exponentielles Backoff

Start: 1 Sekunde Verzögerung
Verdopplung bei jeder Wiederholung: 1s, 2s, 4s, 8s
Jitter hinzufügen: ±25% randomisieren, um Thundering Herd zu vermeiden
Maximale Wiederholungen: 3-5 Versuche
Maximale Verzögerung: Bei 30-60 Sekunden begrenzen

Circuit-Breaker-Muster

Fehlerraten verfolgen
Schaltkreis nach Schwellenwert öffnen (z.B. 50% Fehler in 1 Minute)
Anfragen sofort ablehnen, wenn offen
Halb-offener Zustand: Gelegentliche Anfragen testen
Schaltkreis schließen, wenn Erfolgsrate sich erholt

Fallback-Mechanismen

Modell-Fallbacks

Primär: GPT-5 oder Claude Sonnet 4.5
Fallback: Alternatives Modell (Gemini, Llama 4)
Fallback: Einfacheres Modell für eingeschränkten Service
Fallback: Zwischengespeicherte Antwort, falls verfügbar
Letzter Ausweg: Standard-/Fehlermeldung

Funktionale Fallbacks

Vereinfachter Funktionsumfang während Ausfällen
Anfragen für spätere Verarbeitung in Warteschlange stellen
Eskalation an Menschen für kritische Aufgaben
Nur-Lese-Modus, wenn Schreibvorgänge fehlschlagen
Graceful Degradation vs. vollständiger Ausfall

Eingabevalidierung

Vorverarbeitung

Eingabeformat und -typ validieren
Längenbeschränkungen prüfen
Potenziell schädliche Inhalte bereinigen
Eingaben normalisieren (Leerzeichen entfernen, Kleinbuchstaben, etc.)
Ungültige Eingaben frühzeitig ablehnen

Kontextverwaltung

Token-Zählungen verfolgen
Kontext kürzen, wenn Limits erreicht werden
Aktuellen/relevanten Kontext priorisieren
Alten Kontext bei Bedarf zusammenfassen
Klare Strategie für Kontextfensterverwaltung

Ausgabevalidierung

Formatvalidierung

JSON/strukturierte Ausgaben parsen
Erforderliche Felder validieren
Datentypen prüfen
Mit präzisiertem Prompt wiederholen, falls ungültig
Maximale Wiederholungsversuche bei Formatproblemen

Inhaltsvalidierung

Auf Halluzinationsindikatoren prüfen
Faktische Behauptungen gegen Wissensbasis verifizieren
Inhaltsmoderation für Sicherheit
Prompt-Injection-Versuche erkennen
Semantische Validierung der Ausgaben

Zustandsverwaltung

Konversationszustand

Konversationshistorie persistieren
Checkpointing für lange Aufgaben implementieren
Session-Timeouts handhaben
Von Unterbrechungen wiederherstellen
Klare Abbruchbedingungen

Transaktionssicherheit

Idempotenz für wiederholte Operationen
Rollback-Mechanismen für fehlgeschlagene mehrstufige Prozesse
ACID-Eigenschaften wo anwendbar
Verteilte Transaktionsbehandlung
Saga-Muster für lang laufende Prozesse

Überwachung und Alarmierung

Schlüsselmetriken

Erfolgsrate nach Agent/Aufgabentyp
Fehlerrate nach Fehlertyp
Wiederholungshäufigkeit und Erfolg
Fallback-Aktivierungsrate
Agenten-Ausführungszeit
Kosten pro erfolgreiche Aufgabe

Alarmierungsschwellen

Fehlerrate >5% über 5 Minuten
Fallback-Rate >20%
Circuit Breaker geöffnet
Kostenspitze >50% über Baseline
Latenz p95 >2x Baseline

Timeout-Verwaltung

Timeout-Konfiguration

Verbindungs-Timeout: 5-10 Sekunden
Anfrage-Timeout: 30-120 Sekunden je nach Aufgabe
Gesamt-Aufgaben-Timeout: 5-30 Minuten für komplexe Aufgaben
Graceful Timeout-Behandlung implementieren
Teilweise Ergebnisse zurückgeben, wenn möglich

Lang laufende Aufgaben

In kleinere Teilaufgaben aufteilen
Fortschritt regelmäßig sichern
Fortsetzung vom Checkpoint ermöglichen
Periodische Statusaktualisierungen
Benutzerbenachrichtigung bei längeren Aufgaben

Mensch in der Schleife

Eskalations-Auslöser

Niedrige Konfidenzwerte
Wiederholte Fehler
Mehrdeutige Eingaben
Entscheidungen mit hohem Risiko
Richtlinienverstöße

Eskalationsprozess

Für menschliche Überprüfung in Warteschlange stellen
Kontext und Agenten-Argumentation bereitstellen
Überprüfungszeit und Entscheidungen verfolgen
Aus menschlichen Korrekturen lernen
Konfidenzschwellen basierend auf Genauigkeit anpassen

Zuverlässigkeit testen

Chaos-Testing

API-Ausfälle simulieren
Netzwerklatenzen einschleusen
Ratenlimit-Behandlung testen
Timeout-Szenarien erzwingen
Mit fehlerhaften Eingaben testen

Lasttests

Anhaltend hohe Last
Verkehrsspitzen
Gleichzeitige Agentenausführung
Ressourcenerschöpfungsszenarien
Bedingungen mit eingeschränkter Leistung

Best-Practices-Zusammenfassung

Exponentielles Backoff mit Jitter implementieren
Circuit Breaker für fehlschlagende Dienste verwenden
Eingaben und Ausgaben streng validieren
Fallback-Mechanismen auf mehreren Ebenen bereitstellen
Fehlerraten und Muster überwachen
Angemessene Timeouts festlegen
Operationen idempotent machen
Eskalationspfade für Menschen implementieren
Fehlerszenarien regelmäßig testen
Umfassend protokollieren für Debugging

Zuverlässige KI-Agenten erfordern defensive Programmierung, umfassende Fehlerbehandlung und Graceful-Degradation-Strategien. Produktionssysteme müssen Fehler elegant behandeln und dabei akzeptable Servicelevel aufrechterhalten.