Backtests richtig interpretieren: CAGR, Drawdown und Sharpe

Executive Summary

Backtests sind ein unverzichtbares Werkzeug im quantitativen Research. Sie zeigen, wie sich eine systematische Idee unter historischen Bedingungen verhalten hätte. Genau darin liegt aber auch ihre Grenze: Ein Backtest ist keine Beobachtung der Zukunft, sondern eine Simulation auf Basis vergangener Daten, Annahmen und Modellentscheidungen.

Kennzahlen wie CAGR, Max Drawdown, Sharpe, Sortino oder Calmar können helfen, ein Research-Modell einzuordnen. Sie beantworten jedoch nicht allein die entscheidende Frage, ob eine Strategie robust, handelbar und psychologisch tragfähig ist. Ein hoher historischer Return kann durch Konzentration, versteckte Leverage, zu optimistische Ausführung, bestimmte Marktphasen oder schlicht Überanpassung entstanden sein.

Für Logimetriq ist ein Backtest deshalb kein Verkaufsargument für sich allein. Er ist der Anfang einer Prüfung. Entscheidend ist, wie stabil die Ergebnisse über Zeit, Marktregime, Kostenannahmen und Stresspfade bleiben.

Warum CAGR allein nicht reicht

CAGR beschreibt die durchschnittliche jährliche Wachstumsrate eines Kapitals über einen Zeitraum. Die Kennzahl ist intuitiv, vergleichbar und in der Kommunikation beliebt. Sie verdichtet eine komplexe Equity Curve auf eine einzige Zahl.

Genau das ist ihr Problem.

Zwei Strategien können dieselbe CAGR haben und trotzdem völlig unterschiedliche Risikoprofile besitzen. Die eine kann stetig wachsen, moderate Rückgänge aufweisen und gut diversifiziert sein. Die andere kann über Jahre stagnieren, dann in wenigen extremen Phasen stark steigen und dazwischen schwer auszuhalten sein.

CAGR sagt nichts darüber aus:

wie tief und wie lange Drawdowns waren,
ob die Rendite aus wenigen Ausnahmetrades stammt,
wie stark das Modell von einer bestimmten Marktphase abhängig ist,
ob Kosten und Slippage realistisch berücksichtigt wurden,
ob die Strategie auch nach dem Backtest noch plausibel ist.

Eine hohe CAGR ist also kein Beweis für Robustheit. Sie ist ein Signal, genauer hinzuschauen.

Drawdown als psychologische und praktische Risikogröße

Drawdown misst den Rückgang vom bisherigen Höchststand einer Equity Curve. In der Praxis ist das oft relevanter als Volatilität. Anleger und Research-Teams erleben Verluste nicht als Standardabweichung, sondern als Kapitalrückgang, Unsicherheit und Entscheidungsdruck.

Ein Max Drawdown von beispielsweise -12 Prozent bedeutet nicht, dass der künftige Drawdown auf -12 Prozent begrenzt ist. Er bedeutet nur, dass die historische Simulation im betrachteten Zeitraum keinen tieferen Rückgang gezeigt hat. In anderen Marktpfaden, anderen Ausführungsbedingungen oder anderen Regimen kann der Drawdown deutlich größer ausfallen.

Drawdowns haben mehrere Dimensionen:

Tiefe: Wie stark fällt das Portfolio?
Dauer: Wie lange dauert die Erholung?
Häufigkeit: Wie oft treten Rückgänge auf?
Kontext: In welchem Marktregime entstehen sie?
Ursache: Kommt der Drawdown aus einer Strategie, mehreren Bausteinen oder einer gemeinsamen Risikokonzentration?

Gerade bei Multi-Strategy-Portfolios ist die Analyse der Drawdown-Ursachen wichtig. Ein Portfolio kann auf dem Papier diversifiziert wirken, aber in Stressphasen können mehrere Bausteine gleichzeitig verlieren, wenn sie indirekt dieselbe Risikoprämie tragen.

Sharpe, Sortino und Calmar richtig einordnen

Die Sharpe Ratio setzt Rendite ins Verhältnis zur Volatilität. Eine höhere Sharpe Ratio deutet auf ein günstigeres Verhältnis von Ertrag zu Schwankung hin. Für quantitative Modelle ist sie nützlich, aber nicht vollständig.

Die Sharpe Ratio behandelt positive und negative Schwankungen symmetrisch. Eine Strategie mit gelegentlichen starken Verlusten, aber sonst ruhigem Verlauf kann optisch besser wirken, als sie sich in Stressphasen tatsächlich verhält.

Die Sortino Ratio versucht dieses Problem zu reduzieren, indem sie stärker auf negative Abweichungen fokussiert. Das ist für asymmetrische Strategien oft aussagekräftiger. Die Calmar Ratio wiederum setzt CAGR ins Verhältnis zum Max Drawdown und ist besonders nützlich, wenn die Frage lautet: Wie viel Wachstum wurde pro Einheit historischem Drawdown erzielt?

Keine dieser Kennzahlen ist allein ausreichend. Sie sind Perspektiven auf dieselbe Simulation:

Sharpe: Rendite im Verhältnis zur Schwankung.
Sortino: Rendite im Verhältnis zu negativer Schwankung.
Calmar: Rendite im Verhältnis zum maximalen historischen Kapitalrückgang.

Professionelles Research betrachtet diese Kennzahlen gemeinsam und fragt zusätzlich, ob sie über verschiedene Zeitfenster, Märkte und Regime stabil bleiben.

Warum Monte Carlo und Block-Bootstrap wichtig sind

Ein historischer Backtest zeigt genau einen Pfad: die tatsächlich beobachtete Reihenfolge historischer Renditen. Dieser Pfad kann günstiger oder ungünstiger gewesen sein als viele alternative Verläufe, die aus denselben Renditebausteinen hätten entstehen können.

Monte-Carlo-Verfahren helfen, dieses Pfadrisiko sichtbar zu machen. Dabei werden Renditen neu kombiniert, um alternative Ergebnisverläufe zu simulieren. Das Ziel ist nicht, die Zukunft vorherzusagen, sondern die Bandbreite möglicher Ergebnisse besser zu verstehen.

Ein einfacher Daily Bootstrap mischt einzelne Tagesrenditen neu. Das zeigt, wie empfindlich Ergebnisse gegenüber der Reihenfolge einzelner Tage sein können. Ein Block-Bootstrap geht einen Schritt weiter und erhält zusammenhängende Marktphasen teilweise. Das ist wichtig, weil Märkte nicht aus unabhängigen Einzeltagen bestehen. Trends, Stressphasen und Volatilitätscluster treten oft gebündelt auf.

Für Logimetriq sind solche Verfahren vor allem Erwartungsmanagement. Sie zeigen, dass ein historisch moderater Drawdown nicht automatisch eine robuste Untergrenze ist. Alternative Pfade können tiefere Rückgänge, längere Durststrecken oder geringere Endwerte erzeugen.

Grenzen historischer Backtests

Backtests können täuschen, wenn sie nicht kritisch gebaut und interpretiert werden. Typische Risiken sind:

Lookahead Bias: Das Modell nutzt Informationen, die damals noch nicht verfügbar waren.
Survivorship Bias: Nur später erfolgreiche Instrumente bleiben im Universum.
Overfitting: Parameter werden so lange angepasst, bis die Vergangenheit gut aussieht.
Kostenunterschätzung: Transaktionskosten und Slippage werden zu optimistisch modelliert.
Liquiditätsrisiko: Signale sind theoretisch handelbar, aber praktisch schwer umsetzbar.
Regime-Abhängigkeit: Das Modell funktioniert nur in bestimmten Marktphasen.

Besonders gefährlich ist eine Kombination aus hoher historischer Performance und niedriger methodischer Skepsis. Je besser ein Backtest aussieht, desto wichtiger wird die Frage, ob die Ergebnisse aus einer plausiblen Struktur oder aus Anpassung an historische Zufälle entstanden sind.

Was Logimetriq daraus ableitet

Logimetriq betrachtet Backtests als Research-Werkzeug, nicht als Renditeversprechen. Eine Strategie oder ein Portfolio-Baustein wird nicht nur anhand einer einzelnen Performance-Zahl bewertet, sondern im Kontext von Risiko, Robustheit und Portfolio-Rolle.

Wichtige Fragen sind:

Ist die ökonomische oder marktstrukturelle Hypothese plausibel?
Bleiben Ergebnisse nach Kosten und Slippage tragfähig?
Wie verhält sich das Modell in Stressphasen?
Welche Rolle spielt der Baustein im Gesamtportfolio?
Ist der historische Drawdown realistisch genug, oder zeigen Simulationen tiefere Risiken?
Wie kann ein Modell nach dem Backtest live beobachtet und validiert werden?

Der zentrale Punkt: Gute Backtests sind keine Abkürzung. Sie sind eine Einladung zur tieferen Prüfung.

Disclaimer

Dieser Beitrag dient ausschließlich Informations- und Bildungszwecken. Er stellt keine Anlageberatung und keine Aufforderung zum Kauf oder Verkauf von Finanzinstrumenten dar. Backtests und historische Analysen sind hypothetisch und keine Garantie für zukünftige Ergebnisse.

Backtest Backtesting & Methodik Drawdown Monte Carlo Robustheit Sharpe

Research- und Risikohinweis: Inhalte dienen ausschließlich Informations- und Bildungszwecken. Keine Anlageberatung. Keine Aufforderung zum Kauf oder Verkauf von Finanzinstrumenten. Backtests und Simulationen sind hypothetisch; vergangene Wertentwicklungen sind keine Garantie für zukünftige Ergebnisse.

Research-Bibliothek ansehen