Der Aufbau zuverlässiger KI-Agenten erfordert robuste Fehlerbehandlung und Fallback-Mechanismen. Dieser Leitfaden behandelt Muster für produktionsreife autonome Systeme.
Fehlertypen und Behandlung
Vorübergehende Fehler
- API-Ratenlimits (429)
- Netzwerk-Timeouts
- Temporäre Nichtverfügbarkeit des Dienstes (503)
- Lösung: Mit exponentiellem Backoff wiederholen
- Erfolgsrate der Wiederholungen überwachen
Permanente Fehler
- Ungültige API-Schlüssel (401)
- Fehlerhafte Anfragen (400)
- Ressource nicht gefunden (404)
- Lösung: Protokollieren, alarmieren und schnell fehlschlagen
- Permanente Fehler nicht wiederholen
LLM-spezifische Fehler
- Kontextlänge überschritten
- Verstöße gegen Inhaltsrichtlinien
- Halluzinationen oder falsche Ausgaben
- Formatvalidierungsfehler
- Lösung: Eingabevalidierung, Ausgabeüberprüfung, Fallbacks
Wiederholungsstrategien
Exponentielles Backoff
- Start: 1 Sekunde Verzögerung
- Verdopplung bei jeder Wiederholung: 1s, 2s, 4s, 8s
- Jitter hinzufügen: ±25% randomisieren, um Thundering Herd zu vermeiden
- Maximale Wiederholungen: 3-5 Versuche
- Maximale Verzögerung: Bei 30-60 Sekunden begrenzen
Circuit-Breaker-Muster
- Fehlerraten verfolgen
- Schaltkreis nach Schwellenwert öffnen (z.B. 50% Fehler in 1 Minute)
- Anfragen sofort ablehnen, wenn offen
- Halb-offener Zustand: Gelegentliche Anfragen testen
- Schaltkreis schließen, wenn Erfolgsrate sich erholt
Fallback-Mechanismen
Modell-Fallbacks
- Primär: GPT-5 oder Claude Sonnet 4.5
- Fallback: Alternatives Modell (Gemini, Llama 4)
- Fallback: Einfacheres Modell für eingeschränkten Service
- Fallback: Zwischengespeicherte Antwort, falls verfügbar
- Letzter Ausweg: Standard-/Fehlermeldung
Funktionale Fallbacks
- Vereinfachter Funktionsumfang während Ausfällen
- Anfragen für spätere Verarbeitung in Warteschlange stellen
- Eskalation an Menschen für kritische Aufgaben
- Nur-Lese-Modus, wenn Schreibvorgänge fehlschlagen
- Graceful Degradation vs. vollständiger Ausfall
Eingabevalidierung
Vorverarbeitung
- Eingabeformat und -typ validieren
- Längenbeschränkungen prüfen
- Potenziell schädliche Inhalte bereinigen
- Eingaben normalisieren (Leerzeichen entfernen, Kleinbuchstaben, etc.)
- Ungültige Eingaben frühzeitig ablehnen
Kontextverwaltung
- Token-Zählungen verfolgen
- Kontext kürzen, wenn Limits erreicht werden
- Aktuellen/relevanten Kontext priorisieren
- Alten Kontext bei Bedarf zusammenfassen
- Klare Strategie für Kontextfensterverwaltung
Ausgabevalidierung
Formatvalidierung
- JSON/strukturierte Ausgaben parsen
- Erforderliche Felder validieren
- Datentypen prüfen
- Mit präzisiertem Prompt wiederholen, falls ungültig
- Maximale Wiederholungsversuche bei Formatproblemen
Inhaltsvalidierung
- Auf Halluzinationsindikatoren prüfen
- Faktische Behauptungen gegen Wissensbasis verifizieren
- Inhaltsmoderation für Sicherheit
- Prompt-Injection-Versuche erkennen
- Semantische Validierung der Ausgaben
Zustandsverwaltung
Konversationszustand
- Konversationshistorie persistieren
- Checkpointing für lange Aufgaben implementieren
- Session-Timeouts handhaben
- Von Unterbrechungen wiederherstellen
- Klare Abbruchbedingungen
Transaktionssicherheit
- Idempotenz für wiederholte Operationen
- Rollback-Mechanismen für fehlgeschlagene mehrstufige Prozesse
- ACID-Eigenschaften wo anwendbar
- Verteilte Transaktionsbehandlung
- Saga-Muster für lang laufende Prozesse
Überwachung und Alarmierung
Schlüsselmetriken
- Erfolgsrate nach Agent/Aufgabentyp
- Fehlerrate nach Fehlertyp
- Wiederholungshäufigkeit und Erfolg
- Fallback-Aktivierungsrate
- Agenten-Ausführungszeit
- Kosten pro erfolgreiche Aufgabe
Alarmierungsschwellen
- Fehlerrate >5% über 5 Minuten
- Fallback-Rate >20%
- Circuit Breaker geöffnet
- Kostenspitze >50% über Baseline
- Latenz p95 >2x Baseline
Timeout-Verwaltung
Timeout-Konfiguration
- Verbindungs-Timeout: 5-10 Sekunden
- Anfrage-Timeout: 30-120 Sekunden je nach Aufgabe
- Gesamt-Aufgaben-Timeout: 5-30 Minuten für komplexe Aufgaben
- Graceful Timeout-Behandlung implementieren
- Teilweise Ergebnisse zurückgeben, wenn möglich
Lang laufende Aufgaben
- In kleinere Teilaufgaben aufteilen
- Fortschritt regelmäßig sichern
- Fortsetzung vom Checkpoint ermöglichen
- Periodische Statusaktualisierungen
- Benutzerbenachrichtigung bei längeren Aufgaben
Mensch in der Schleife
Eskalations-Auslöser
- Niedrige Konfidenzwerte
- Wiederholte Fehler
- Mehrdeutige Eingaben
- Entscheidungen mit hohem Risiko
- Richtlinienverstöße
Eskalationsprozess
- Für menschliche Überprüfung in Warteschlange stellen
- Kontext und Agenten-Argumentation bereitstellen
- Überprüfungszeit und Entscheidungen verfolgen
- Aus menschlichen Korrekturen lernen
- Konfidenzschwellen basierend auf Genauigkeit anpassen
Zuverlässigkeit testen
Chaos-Testing
- API-Ausfälle simulieren
- Netzwerklatenzen einschleusen
- Ratenlimit-Behandlung testen
- Timeout-Szenarien erzwingen
- Mit fehlerhaften Eingaben testen
Lasttests
- Anhaltend hohe Last
- Verkehrsspitzen
- Gleichzeitige Agentenausführung
- Ressourcenerschöpfungsszenarien
- Bedingungen mit eingeschränkter Leistung
Best-Practices-Zusammenfassung
- Exponentielles Backoff mit Jitter implementieren
- Circuit Breaker für fehlschlagende Dienste verwenden
- Eingaben und Ausgaben streng validieren
- Fallback-Mechanismen auf mehreren Ebenen bereitstellen
- Fehlerraten und Muster überwachen
- Angemessene Timeouts festlegen
- Operationen idempotent machen
- Eskalationspfade für Menschen implementieren
- Fehlerszenarien regelmäßig testen
- Umfassend protokollieren für Debugging
Zuverlässige KI-Agenten erfordern defensive Programmierung, umfassende Fehlerbehandlung und Graceful-Degradation-Strategien. Produktionssysteme müssen Fehler elegant behandeln und dabei akzeptable Servicelevel aufrechterhalten.