Die Antwortraten-Falle: warum wir keine A/B-Gewinner nach Antwortrate küren

Was „Gewinnen” tatsächlich belohnt hat

Die Vorversion von Overwise hatte einen WinnerPickerService: ein geplanter Job, der die Antwortrate jeder Template-Variante eines Schritts las, die höchste auswählte und sie als kanonische Variante für neue Sendungen hochstufte. Die Rechnung war die Rechnung, die jedes Tool der Kategorie fährt — Antworten geteilt durch Sendungen, ein bisschen Smoothing für Stichprobengröße, Sieger erklärt.

Das Problem zeigte sich beim ersten Lesen des Posteingangs. Variante B „gewann” auf einer Kampagne für Coworking-Space-Betreiber. Die Antworten, mit denen sie gewann: „bitte entfernen”, „kein Interesse”, „wie kommst du an meine E-Mail”, zwei begeisterte „ja, lass uns reden” und ein „das ist die dritte E-Mail von euch in diesem Monat, nehmt mich raus”.

Variante A hatte eine niedrigere Antwortrate. Zwei Drittel ihrer Antworten waren Fragen oder „erzählt mir mehr”. Variante A war klar die bessere E-Mail. Der Picker stufte Variante B hoch. Der Picker tat genau das, wofür wir ihn gebaut hatten.

Warum die Kategorie ihn trotzdem baut

Fairerweise: Antwortrate ist die am einfachsten zu berechnende Metrik. Eine Antwort ist eine Antwort. Du brauchst kein LLM, du brauchst keinen Klassifikator, du brauchst nur ein Webhook vom Postfach und einen Zähler. Jeder Wettbewerber in der Kategorie — Lemlist, Instantly, Apollo Sequences, Smartlead — liefert eine Variante davon aus. Es macht sich gut im Dashboard. Es lässt sich gut A/B-testen. Es sieht nach der Art Optimierung aus, die ein seriöser Vertriebsbetrieb fahren würde.

Es ist strukturell auch dieselbe Metrik, die ein Cold-Outreach-Betrieb mit hohem Volumen optimiert — und das ist der Käufer, für den diese Tools gebaut wurden: jemand, der zehntausende E-Mails im Monat verschickt, wo Antwortrate tatsächlich der Proxy für Umsatz ist, weil die nachgelagerte Pipeline groß und verrauscht ist.

Der B2B-SaaS-Gründer, der sein eigenes Outbound macht, ist nicht dieser Käufer. Er verschickt Hunderte E-Mails im Monat, nicht zehntausende. Seine Domain ist dieselbe Domain, die Kunden zum Zurücksetzen ihrer Passwörter nutzen. Ein Vier-Wochen-Lauf, der die „Sieger-Variante” nach Abmelde-Dichte auswählt, ist keine Optimierung. Es ist ein langsames Leck.

Erste Korrektur: jede Antwort klassifizieren

Die kleinste Version der Korrektur ist, Antwortrate nicht mehr als eine Zahl zu verwenden. Jede eingehende Antwort läuft durch einen Klassifikator (Sonnet, strukturierte Ausgabe, keine Kreativität nötig), der sie als eine der folgenden labelt: POSITIVE (interessiert, Rückfragen, Termin), NEUTRAL (später ansprechen, Infos schicken, höfliche Vertagung), NEGATIVE (kein Interesse, falsche Person, nicht relevant) oder UNSUBSCRIBE (austragen, Opt-out, juristisch gefärbtes „nicht kontaktieren”). Auto-Replies und Out-of-Office-Notizen werden vor der Klassifikation gefiltert.

Mit diesem Label auf jeder Antwort wird „Antwortrate” zu vier Zahlen. Was du tatsächlich optimieren willst, ist positive Antwortrate netto Abmelderate — und was du wissen willst, bevor du eine Kampagne skalierst, ist, ob der negative Stapel schneller wächst als der positive.

Sobald die Metrik aufgeteilt ist, ist das schlechte Ergebnis nicht mehr zu verstecken. Variante B auf der Coworking-Space-Kampagne verlor klar auf dem richtigen Scoreboard: mehr Abmeldungen pro Sendung, mehr Negative pro Sendung, weniger Positive pro Sendung. Der Picker hätte es bemerkt. Der Picker, den wir gebaut hatten, schaute nicht hin.

Zweite Korrektur: negative Antworten sind ein Signal, kein Versagen

Die tiefere Erkenntnis war, dass negative Antworten nicht der Feind sind. Sie sind das sauberste Feedback-Signal, das das System bekommt. „Das ist nicht relevant für mich” von einem echten Menschen, auf einer echten E-Mail, sagt dir etwas Konkretes: der ICP-Filter hat jemanden durchgelassen, den er nicht hätte durchlassen sollen, oder der Pitch ist falsch für dieses Segment, oder der Angle ist für diese Persona schlecht gelandet.

Was du mit diesem Signal tun willst, ist nicht es zu minimieren (Lead unterdrücken, Filter verschärfen, weiter). Du willst es clustern. Wenn fünf verschiedene Leads aus derselben Discovery-Probe zurückschreiben „wir haben schon ein Booking-Widget, nur nicht das, nach dem ihr gescraped habt”, dann sind das nicht fünf negative Antworten — das ist ein strukturelles Problem im Discovery-Layer.

Also haben wir einen Clustering-Pass gebaut: Negative-Reply-Themen werden extrahiert, eingebettet und pro Kampagne gruppiert. Wenn ein Cluster einen Schwellenwert überschreitet, bekommt der Nutzer eine AI-Inbox-Aufgabe, die das Thema in Klartext benennt und entweder eine ICP-Verfeinerung oder eine Kampagnenpause anbietet. Fünf „haben wir schon”-Antworten treiben nicht am Dashboard vorbei — sie lösen ein Gespräch darüber aus, ob die Absence-Probe tatsächlich Absence erkennt.

Dritte Korrektur: Pro-Entscheidung-Drafting tötet „Templates”

Selbst mit klassifikator-bewussten Metriken und Negative-Themen-Clustering beantwortete der Winner-Picker die falsche Frage. „Welches Template sollen wir als nächstes senden?” setzt voraus, dass es ein Template zum Auswählen gibt. Die agentische Schleife, die wir im April ausgeliefert haben, hat keine Templates — der Executor erstellt jede Ausgangsnachricht jedes Mal neu, aus den Signalen des Leads, dem Ziel der Kampagne und der Markenstimme des Nutzers.

„Gewinner” hört auf, eine Frage auf Kampagnen-Ebene zu sein, und wird zu einer pro Lead. Ist der Draft, den wir an diesen spezifischen Lead geschickt haben, gelandet? Der Agent liest die Antwort, der Klassifikator labelt sie, das Decision-Log zeichnet das Ergebnis neben der Begründung auf, die den Draft erzeugt hat. Muster zeigen sich im Log, nicht in einer Varianten-Rollup-Tabelle.

Die richtige Einheit eines A/B-Tests ist nicht mehr das Template. Es ist die Kampagne selbst: probiere ICP A mit Angle 1, ICP B mit Angle 2, und vergleiche die vier Klassifikator-Buckets über die beiden Kampagnen hinweg. Clone-the-Winner ist weiterhin ein Workflow; er arbeitet nur auf der Ebene „welches ICP × Angle konvertiert”, nicht „welche Betreffzeile hatte marginal mehr Opens”.

Was wir statt eines „Gewinners” berichten

In der Kampagnen-Detailansicht bekommst du die Vier-Bucket-Antwortverteilung, die Positive-Rate-netto-Abmelderate-Zahl, die Negative-Themen-Cluster wenn sie existieren, und das Pro-Lead-Decision-Log. Es gibt keinen „Gewinner”-Badge irgendwo auf einem Template, weil es keine Templates gibt. Es gibt kein Leaderboard von Betreffzeilen, weil Betreffzeilen pro Lead aus Signal erstellt werden.

Was es im Insights-Tab gibt: welche Discovery-Slice positive Antworten produziert, welche negative, um welche Themen sich die Negativen clustern, und die Kosten pro positive Antwort für jede. Das reicht, um die Entscheidung zu treffen, die der Winner-Picker vorgab zu treffen — ohne den Failure-Mode, das falsche Ergebnis zu belohnen.

Was wir behalten haben

Zwei Dinge aus der Winner-Picker-Ära haben das Rewrite überlebt. Erstens die Vergleichs-Form — kleine Kampagnen parallel, Ergebnisse vergleichen, Gewinner klonen. Das ist weiterhin der Workflow. Er operiert nur auf ICPs und Angles, nicht auf Template-Varianten. Zweitens die Disziplin, vor dem Versand aufzuschreiben, was du zu sehen erwartest. Jede Kampagne bekommt ein erklärtes Ziel — einen Termin buchen, eine Antwort bekommen, eine Anmeldung treiben — und die Kampagne pausiert automatisch, wenn die Metriken weit genug von diesem Ziel abdriften. Der Winner-Picker versuchte das ohne erklärtes Ziel. Es ging nicht.

Falls du das schon kennst

Du bist ein B2B-SaaS-Gründer, der seine erste Cold-E-Mail letztes Quartal geschrieben hat, sie zweimal funktionieren und dreimal peinlich werden sah, und nach einem Tool zu suchen begann. Du hast einen Lemlist-Post über A/B-Winner-Picker gelesen. Du hast ihn halb verstanden und das Gefühl bekommen, du müsstest sie eigentlich fahren. Du hast das Gefühl gehabt, du wärst ein schlechterer Operator, wenn du sie nicht fährst.

Du brauchst keinen Winner-Picker. Du brauchst eine Metrik, die dich nicht belügt, ein Clustering negativer Antworten, damit du das vorgelagerte Problem lösen kannst statt das nachgelagerte Symptom zu wischen, und eine Draft-pro-Lead-Schleife, die „Template-Gewinner” zur falschen Analyseeinheit macht. Nichts davon ist ein Feature, das du in einem Demo herzeigen kannst. Alles davon ist der Unterschied zwischen einer Kampagne, die deine Domain leise verbrennt, und einer, die das nicht tut.

Wenn du die Vier-Bucket-Antwortverteilung und das Negative-Themen-Clustering an einer laufenden Kampagne sehen willst, startet die 14-Tage-Testphase dort, wo du startest. Kein Demo-Gate, Karte hinterlegt, jederzeit kündbar. Die Testphase steht standardmäßig auf „Jede Sendung prüfen”, damit die ersten 50 E-Mails aus deinem Postfach nur mit deinem Ein-Klick-OK rausgehen.

— Tobias Duelli, Gründer · tobias@overwise.ai