Blog

Confidence Gate: Wann dein Agent autonom handelt

8. April 2026 · 5 min Lesezeit

Die grösste Angst beim Einsatz von AI Agents: Was, wenn der Agent etwas Falsches macht? Eine falsche E-Mail verschickt. Eine falsche Rechnung erstellt. Eine falsche Entscheidung trifft. Diese Angst ist berechtigt. Und genau dafür haben wir das Confidence Gate gebaut.

Das Grundprinzip

Jeder Agent in KaderOS hat ein Confidence Gate. Es ist ein einstellbarer Schwellenwert, der bestimmt, wie autonom der Agent handeln darf. Das System funktioniert in drei Stufen:

Über 90% Confidence: Auto-Execute. Der Agent ist sich sicher. Er handelt sofort. Du wirst informiert, aber nicht gefragt. Beispiel: Ein Standard-Reply auf eine FAQ-Anfrage.

70–89% Confidence: Inform. Der Agent ist ziemlich sicher, aber nicht ganz. Er führt die Aktion aus und informiert dich sofort. Du kannst rückgängig machen. Beispiel: Ein Blogpost-Draft, der von der üblichen Tonalität abweicht.

Unter 70% Confidence: Eskalieren. Der Agent ist unsicher. Er stoppt und fragt dich um Erlaubnis. Keine Aktion ohne dein OK. Beispiel: Eine ungewöhnliche Kundenanfrage, die er noch nie gesehen hat.

Warum feste Regeln nicht funktionieren

Viele Automatisierungs-Tools arbeiten mit If-Then-Regeln. "Wenn Betreff enthält 'Rechnung', dann weiterleiten an Buchhaltung." Das funktioniert für einfache Fälle. Aber die Realität ist komplex.

Was, wenn die E-Mail "Rechnung" im Betreff hat, aber eigentlich eine Beschwerde ist? Was, wenn der Kunde Deutsch und Französisch mischt? Was, wenn der Kontext zweideutig ist? Feste Regeln scheitern an Nuancen. Confidence Gates nicht.

Wie Confidence berechnet wird

Der Confidence-Score basiert auf mehreren Faktoren:

Ähnlichkeit zu bisherigen Tasks: Hat der Agent diese Art von Aufgabe schon mal gelöst? Je mehr Erfahrung, desto höher die Confidence.

Eindeutigkeit des Inputs: Ist die Anfrage klar formuliert? Oder gibt es mehrere mögliche Interpretationen?

Risiko der Aktion: E-Mail beantworten hat ein niedrigeres Risiko als eine Rechnung verschicken. Der Agent gewichtet das automatisch.

Dein Feedback: Jedes Mal, wenn du eine Aktion bestätigst oder korrigierst, lernt der Agent. Seine Confidence-Berechnung wird mit der Zeit präziser.

Confidence Gates konfigurieren

Jeder Agent hat individuelle Schwellenwerte. Du kannst sie pro Agent und pro Aktionstyp einstellen:

Konservativ (Anfang): Auto-Execute ab 95%. Inform ab 80%. Eskalieren unter 80%. Ideal für die ersten Wochen, wenn du dem System noch nicht vertraust.

Balanced (Standard): Auto-Execute ab 90%. Inform ab 70%. Eskalieren unter 70%. Der Sweet Spot für die meisten Use Cases.

Autonom (Erfahren): Auto-Execute ab 80%. Inform ab 60%. Eskalieren unter 60%. Für Agents, die sich bewährt haben und dein Vertrauen verdient haben.

Praxis-Beispiel: Support Agent

Dein Support-Agent bekommt eine Kundenanfrage: "Wo ist meine Bestellung?" Er prüft das CRM, findet die Tracking-Nummer und formuliert eine Antwort. Confidence: 94%. Auto-Execute. Die Antwort geht raus. Du siehst es im Log.

Nächste Anfrage: "Ich möchte mein Abo kündigen und meine Daten löschen lassen." Das ist komplex — Kündigung plus DSGVO/nDSG-Anfrage. Confidence: 62%. Eskalieren. Der Agent formuliert einen Antwort-Entwurf und wartet auf dein OK.

So behältst du die Kontrolle, ohne jeden einzelnen Fall selbst bearbeiten zu müssen.

Fazit

Confidence Gates sind der Unterschied zwischen einem nützlichen AI-Agent und einem gefährlichen. Sie geben dir die Kontrolle zurück, ohne die Geschwindigkeit zu opfern. Je länger dein Agent arbeitet, desto besser wird seine Einschätzung. Und desto mehr kannst du ihm vertrauen.

Vertrauen kommt nicht auf Knopfdruck. Es wird verdient. Schritt für Schritt. Task für Task. Genau wie bei menschlichen Mitarbeitern.

Kontrolle ohne Micromanagement

Confidence Gates in KaderOS: Deine Agents handeln autonom — aber nur so weit, wie du es erlaubst.

Auf die Waitlist