Buffett kontra AI-Investing: Wer macht das Rennen

Im zweiten Teil unserer Serie zu AI-Investing stellen wir Entscheidungsbäume und Penalised Regressionen vor. Auch geht es wieder um die Optimierung einer von Warren Buffett inspirierten Anlagestrategie, die auf Bewertung und Qualität basiert. Das Potenzial und die Risiken im Überblick. 

In unserer großen Serie zu AI-Investing haben wir im ersten Teil die Grundlagen zum AI-Einsatz als Tool für die Aktienanalyse erläutert und eine von Warren Buffett inspirierte Strategie vorgestellt, die wir in Fallstudien mittels AI-Tools optimiert haben. Im zweiten Teil geht es um die Komplexe: Regressionsbäume, Random Forest und Penalised Regression.

Entscheidungsbäume und Forest-Algorithmen

Klassifizierungs- und Regressionsbäume (CART) sind eine Reihe von Techniken des maschinellen Lernens. Sie sagen auf der Grundlage von Entscheidungsregeln, die aus den Datenmerkmalen abgeleitet werden, ein Ergebnis vorher. Diese Bäume werden durch einen Prozess der Aufteilung von Daten in Teilmengen auf der Grundlage von Merkmalswertbedingungen konstruiert. Ziel dieser Methode ist es, die Homogenität der Teilmengen zu maximieren. Die Hierarchie der Variablen in diesen Bäumen ist von entscheidender Bedeutung, da sie die Struktur des Baums und den Entscheidungsprozess bestimmt.

Die Hierarchie wird durch die Auswahl der prädiktivsten Variablen an jedem Knoten, beginnend mit der Wurzel, erstellt. Diese Auswahl basiert in der Regel auf Kriterien wie Gini-Verunreinigung, Informationsgewinn oder Varianzreduzierung, die die Wirksamkeit einer Variable bei der Aufteilung der Daten in homogene Gruppen messen. Die Variable, die die Daten gemäß dem gewählten Kriterium am besten trennt, wird an die Spitze der Hierarchie gesetzt und bildet den Wurzelknoten des Baums.


Baumstruktur 1990-2008

Der obige Baum zeigt, dass ‚Value‘ die wichtigste Variable bei der Auswahl von Aktien in Europa war und Qualität (Rentabilität) erst an zweiter Stelle kam. Wir wollen in Aktien investieren, die entweder ein gutes (3) oder sehr gutes (4) Rating aufweisen. Dies sind, dem oberen Pfad folgend entweder die 25% billigsten Aktien oder, aus den restlichen 75% der teuren Aktien, diejenigen, die die beste Qualität (top 50%) besitzen. Value Investing war in den 90er Jahren und nach dem Platzen der TMT-Blase bis 2008 ein dominierendes Anlagethema. Doch die Zeiten ändern sich, wie wir weiter unten sehen werden.


Baumstruktur nach 2008

Nach der großen Finanzkrise 2008/09 geriet Value in Europa jedoch in Ungnade, da viele Value-Aktien durch einen hohen Verschuldungsgrad und ein niedriges Kreditrating gekennzeichnet waren. Seitdem hat sich der Value-Faktor nicht vollständig erholt, wohingegen das Investieren in Qualitätsaktien an Bedeutung gewonnen hat. Das hat zu einer veränderten Hierarchie beim AI-Investing in unserem Baum geführt. Qualität schlägt seit 2008 Value. Die Auswahlregel nach 2008 lautet: Wir selektieren zuerst die 75% der Aktien mit der höchsten Qualität und ermitteln dann die Top 25% der billigsten Aktien.

Es ist notwendig, einen Entscheidungsbaum zu verkleinern (Pruning), um eine Überanpassung zu vermeiden und die Vorhersagen außerhalb der Stichprobe zu verbessern. Ein vollständig entwickelter Baum (alle Instanzen haben getrennte Blätter oder können aufgrund der Merkmale nicht weiter unterteilt werden) passt sich in der Regel zu stark an die Trainingsdaten an. Pruning-Techniken helfen, die Verallgemeinerbarkeit eines Modells zu erhalten. Bei einfachen Bäumen wird dem Risiko der Überanpassung entgegengewirkt, indem die Größe des Baums durch die Wahl der Hyperparameter verringert wird.

CART: Ein Deep Dive in Welt der Regressionsbäume

Der Schwerpunktwechsel von Value (vor 2008) zu Quality (ab 2009) zeigt, dass die „optimalen“ Hyperparameter für den Klassifizierungs- und Regressionsbaum (CART), die die höchste Genauigkeit zwischen dem vorhergesagten und dem tatsächlichen Ertrag erzielen, von Periode zu Periode unterschiedlich sein können. Zu berücksichtigende Parameter sind die Kriteriumsfunktionen, die maximale Tiefe des Baums, die Mindestanzahl der Stichproben, die vor einer weiteren Aufteilung erforderlich sind, und die Mindestanzahl der Stichproben pro Blatt, die nach einer Aufteilung erforderlich sind.

Die beiden gebräuchlichsten Kriteriumsfunktionen sind die Gini-Verunreinigung und der Informationsgewinn (Entropie). Erstere zielt darauf ab, die Unreinheit (d. h. den Unterschied) in den untergeordneten Knoten zu verringern, während letztere darauf abzielt, den Informationsgewinn (das heißt die Gewissheit) nach der Aufteilung zu maximieren. Es gibt keine eindeutigen Anzeichen dafür, dass das eine dem anderen überlegen ist. Sowohl Entropie als auch Gini werden in fast gleichem Maße bei unserem Datenset als optimal gewählt.

Außerdem verringern höhere Werte für die Mindeststichproben pro Blatt vor oder nach einer Aufteilung die Überanpassung der Trainingsdaten. Im Jahr 5 beginnt das Modell mit etwa 37.000 Stichproben (5 Jahre mal 12 Monate mal etwa 620 Aktien) und steigt im 31. Jahr auf etwa 220.000 Stichproben an. Der Algorithmus erachtet 3.000 Mindeststichproben pro Blatt und 4.000 Mindeststichproben vor der Aufteilung als optimal.

Im Zusammenhang mit Börsenprognosen ist es nicht empfehlenswert, die maximale Tiefe des Baums auf mehr als sechs festzulegen, da tiefere Bäume zu einer Überanpassung führen können, insbesondere in einem Bereich wie dem Aktienmarkt, der von Natur ‚noisy‘ und unvorhersehbar ist. Die in dieser Studie am häufigsten verwendete „optimale“ Tiefe lag zwischen 3 und 5 Stufen.

AI-Investing: Die Tiefen des Random Forest-Modells

Für das Random-Forest-Modell sind die Anzahl der Bäume, die maximale Tiefe der Bäume, die vor dem Splitting erforderlichen Mindeststichproben und das Kriterium die einflussreichsten Parameter. Mit Ausnahme der Anzahl der Bäume habe ich diese Hyperparameter im Abschnitt über CART erläutert.

Die Anzahl der Bäume gibt an, wie viele Bäume der Wald enthalten soll. Die Ergebnisse waren ähnlich wie bei CART. Die „optimale“ Anzahl von Bäumen im Wald für diesen Datensatz war ~100.

Boosted trees (XGBoost)

Bei gradient-boosted Modellen sind in der Regel die Anzahl der Schätzer, die Lernrate und die maximale Tiefe des Baums die einflussreichsten Parameter. Die Anzahl der Schätzer bezieht sich auf die Boosting-Runden oder -Bäume, die Lernrate ist eine Zahl zwischen 0 und 1, die die Schrittgröße bei jeder Iteration steuert, während sie sich auf ein Minimum der Verlustfunktion zubewegt, und die maximale Tiefe ist die Anzahl der Schichten innerhalb der Bäume.

Die Anzahl der Schätzer in der Stichprobe liegt zwischen 15 und 100. Die Lernrate, die bestimmt, wie schnell das Modell lernt, liegt für die Stichprobe zwischen 0,001 und 0,5. Kleinere Lernraten führen in der Regel zu robusteren Modellen, da sie besser verallgemeinern können, aber es müssen mehr Bäume erstellt werden, um die beste Leistung zu erreichen. Die Tiefe des Baums war überwiegend 3 oder 4. Die Größe der Teilstichprobe beträgt meist 0,7 oder 1.

Classification Trees and Random Forests

Kommen wir nun zur Auswertung der Ergebnisse nach den verschiedenen Modellen: Das CART-Modell übertrifft unseren beiden Benchmarks, während Random Forest und XGBoost besser abschneiden als der gleichgewichtete Markt, aber nicht über unseren von Warren Buffett inspirierten Benchmark hinausgehen.

Dies kommt wider Erwarten, da Random Forest and XGBoost entwickelt wurden, um CART zu verbessern. Sowohl Random Forest als auch XGBoost eignen sich hervorragend für die Modellierung komplexer Datenmuster, doch ihre hohe Komplexität kann zu einer Überanpassung führen. Diese Überanpassung bedeutet, dass sie während des Trainings zufällige ‚Noise‘ als Muster erkennen können, was bei der Anwendung auf neue Daten zu suboptimalen Backtesting-Ergebnissen führt – Komplexität ist nicht immer ein Vorteil. Manchmal erweisen sich weniger komplexe Modelle aufgrund ihrer Einfachheit und der geringeren Anzahl von Parametern als effektiver, insbesondere bei Datensätzen mit einer begrenzten Anzahl von Variablen. Dieses Szenario zeigt erneut, dass die Anwendung von Data-Science-Algorithmen auf Finanzdaten Ineffizienzen mit sich bringen kann, die sich negativ auf die Leistung des Modells auswirken.

AI-Investing: Penalised regression

Die Penalised Regression ist eine Methode, die in der statistischen Analyse eingesetzt wird, um eine Überanpassung zu verhindern, die Vorhersagegenauigkeit zu verbessern und hochdimensionale Daten zu verarbeiten, wie z. B. verschiedene Wirtschaftsindikatoren, Fundamentaldaten von Unternehmen, frühere Kurse, Volumina usw. Das Konzept ist relativ einfach: Es fügt dem üblichen Regressionsmodell einen Strafterm hinzu, um die Koeffizientenschätzungen gegen null einzuschränken oder zu verkleinern.

Einfach gesagt, versucht man, eine Linie (oder ein komplexeres Modell) an seine Datenpunkte anzupassen. Die normale Regression versucht, die Linie zu finden, die am besten zu den Daten passt, aber manchmal passt sie zu gut zu den Daten und erfasst das Rauschen zusammen mit dem zugrundeliegenden Muster, besonders wenn sie viele Variablen haben. Dies ist eine Überanpassung und bedeutet, dass das Modell bei neuen, unbekannten Daten möglicherweise nicht gut abschneidet, weil es zu sehr auf die spezifische Stichprobe zugeschnitten ist, die sie haben.

Die penalisierte Regression vermeidet dies, indem sie eine Strafe für zu große Koeffizienten oder zu viele Nicht-Null-Koeffizienten einführt. Das ist so, als würde man dem Modell sagen: „Du kannst versuchen, die Daten genau anzupassen, aber jede zusätzliche Komplexität, die du hinzufügst, hat ihren Preis.“ Es geht darum, ein Gleichgewicht zu finden zwischen einer guten Anpassung an die Daten und einem Modell, das einfach genug ist, um robust zu sein und auch auf neuen Daten funktioniert, nicht nur auf den Daten, auf denen es trainiert wurde.

Es gibt verschiedene Arten von Penalised Regressionen, wobei LASSO und Ridge zwei der bekanntesten sind:

  • Ridge-Regression (L2-Regularisierung): Sie fügt eine Strafe hinzu, die dem Quadrat der Größe der Koeffizienten entspricht. Dies verhindert große Koeffizienten, setzt sie aber nicht auf null, was zu Modellen führt, bei denen die meisten Koeffizienten klein, aber nicht Null sind.
  • LASSO-Regression (L1-Regularisierung): Sie fügt eine Strafe hinzu, die dem absoluten Wert der Größe der Koeffizienten entspricht. Dadurch können in der Tat einige Koeffizienten auf null gesetzt werden, wodurch ein einfacheres Modell gewählt wird, das einige Merkmale vollständig ausschließt.
  • Elastic Net: Elastic Net kombiniert die Eigenschaften von LASSO und Ridge-Regression. Durch diese Kombination kann Elastic Net die Stärken beider Methoden übernehmen: Es kann mit Situationen umgehen, in denen es Korrelationen zwischen den Merkmalen gibt (wo LASSO Schwierigkeiten haben könnte) und wenn es mehr Prädiktoren als Beobachtungen gibt (wo Ridge überanpassen könnte). Elastic Net ist besonders nützlich, wenn es um stark korrelierte Daten geht, da es ein Gleichgewicht zwischen der Eliminierung von Merkmalen und der Regularisierung bietet und oft zu einem Modell führt, das robust und interpretierbar ist und auch bei ungesehenen Daten gut funktioniert.


Im Wesentlichen hilft die Penalised Regression bei der Erstellung zuverlässigerer Modelle, die sich besser auf ungesehene Daten verallgemeinern lassen, insbesondere bei der Bearbeitung komplexer Datensätze mit vielen Variablen.

Wir wählen fünfzehn verschiedenen Einzelvariablen in Bezug auf Bewertung (einschließlich Preis zu Cashflow, Preis zu Umsatz, Preis zu Forward Earnings, Preis zu Buchwert, die Dividendenrendite und Preis zu Gewinn) und Qualität (wie Eigenkapitalrendite, Cash-Eigenkapitalrendite, Kapitalrendite, operative Marge, Gewinnmarge, Wachstum der operativen Marge, Wachstum der Eigenkapitalrendite, Gewinnwachstum und Unternehmenswert/Schulden) als Inputs für die penalisierte Regression verwendet.

Penalised Regressions

Die Ergebnisse der Penalised Regression sind in obiger Tabelle dargestellt. Hier zeigt Elastic Net eine überlegene Performance im Vergleich zu Lasso- und Ridge-Regressionen. Während alle Modelle die gleichgewichtete Marktbenchmark übertreffen, schafft es keines, über die von Warren Buffett inspirierte Benchmark hinauszugehen.

AI-Investing: Ensemble

Bei Börsenprognosen, wo das Umfeld von Natur aus ‚noisy‘ und unvorhersehbar ist, können Ensemble-Modelle eine zuverlässigere und stabilere Vorhersage liefern, indem sie die Prognosen von Modellen kombinieren, die auf verschiedenen Aspekten der Daten trainiert wurden, verschiedene algorithmische Strategien verwenden oder sich auf verschiedene historische Zeiträume konzentrieren. Dieser Ansatz ist besonders wertvoll angesichts der komplexen, nicht-linearen und dynamischen Natur der Finanzmärkte, wo mehrere Faktoren die Aktienkurse beeinflussen und die Vorhersagekraft einzelner Modelle im Laufe der Zeit erheblich schwanken kann.

Unser Ensemble-Modellierungsansatz basiert auf den genauigkeitsgewichteten Vorhersagen der einzelnen Modelle, wobei diejenigen Modelle stärker gewichtet werden, die entsprechend ihrem Anteil an korrekten Vorhersagen am besten abschneiden. Nach der Zusammenführung der Vorhersageergebnisse der oben genannten Modelle wurde davon ausgegangen, dass eine Aktie gekauft wurde, wenn der gewichtete Durchschnitt der Vorhersagen 4 betrug, was bedeutet, dass die Aktie dem höchsten Quartil der Renditeklassifizierung zugeordnet wurde.

Ensemble Strategy

Die Tabelle oben fasst die Ergebnisse für alle von uns analysierten AI-Investing Modellen zusammen. Ensemble-Modelle vereinen die Stärken verschiedener Prognosemodelle und verringern so potenziell das Risiko, ein einzelnes Modell zu wählen, das möglicherweise schlecht abschneidet oder die Daten übererfüllt. Durch die Aggregation der Vorhersagen mehrerer Modelle kann das Ensemble oft eine bessere Leistung erzielen als jedes einzelne Modell für sich. In unserem Datensatz übertrifft die Ensemble-Methode alle Einzelmodelle sowohl bei den absoluten als auch bei den risikobereinigten Renditen. Das neuronale Netzwerk und das CART-Modell zeichnen sich ebenfalls durch ihre starke Leistung aus. Auch wenn die übrigen Modelle einzeln nicht überragend waren, haben sie doch einen positiven Beitrag zum Ensemble-Modell geleistet und dessen Gesamtwert erhöht.

Beim Digital Leader Fund setzen wir Data-Science-Tools ein, um die umfangreiche Auswahl potenzieller Aktien für unsere Watchlist zu reduzieren, für die wir detaillierte individuelle Fundamentalanalysen und den digitalen Footprint analysieren. Unsere Erfahrung hat gezeigt, welches Potenzial AI-Investing-Modelle für den Anlageprozess haben können. Allerdings weisen wir auch auf das erhebliche Risiko einer Überanpassung hin, das mit den Eigenheiten von Finanzdaten verbunden ist und in der Praxis zu einer weniger guten Performance führen kann.

Disclaimer

Dieser Beitrag stellt eine Meinungsäußerung und keine Anlageberatung dar. Dieser Beitrag erschien zuerst auf: https://thedlf.de/buffett-kontra-ai-investing-wer-macht-das-rennen/