Alle Welt redet über ChatGPT, aber künstliche Intelligenz und natürliche Sprachverarbeitung haben längst Einzug gehalten in die Welt des Finanzmarkt-Researchs. Wir zeigen, welches Potenzial in solchen Tools steckt – und wo die Grenzen sind. Ein Deep Dive in die Welt der KI und NLP.
Helfen KI und NLP bei der Analyse von Wirtschaftsprognosen?
Zu Beginn des neuen Jahres orientieren sich Anleger auf der ganzen Welt an Konjunkturprognosen, um ihre Strategien für die Vermögensallokation und die Aktien- und Anleihenmärkte festzulegen. Diese Prognosen bieten wertvolle Einblicke in den Zustand der Weltwirtschaft und beinhalten Vorhersagen für die Richtung der Wirtschaft. Sie sind ein wichtiges Instrument für Anleger, die Entscheidungen darüber treffen wollen, wie sie ihr Vermögen anlegen. Allein: Die Masse der Analysen, die in einem kurzen Zeitraum über die Anleger niedergehen, ist überwältigend. Auch unterscheiden sie sich stark vom Umfang und den Formaten, in denen sie publiziert werden.
Deshalb wollen wir heute die Leistungsfähigkeit und das Potenzial der Techniken der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) und der künstlichen Intelligenz (KI) bei der Analyse von Wirtschaftsprognosen veranschaulichen. Durch den Einsatz von NLP extrahieren wir wertvolle Erkenntnisse und Trends von Konjunkturprognosen von Investmentbanken und Asset Managern und bieten so einen umfassenden und datengesteuerten Ansatz. Ziel dieser Studie ist es, zu zeigen, wie KI und NLP im Kontext der Vermögensallokation und der Aktien- und Anleihenstrategien effektiv eingesetzt werden können. Idealerweise helfen sie, ein klares Bild der Wirtschaftslandschaft zu vermitteln, um Anlegern zu helfen, aus einer sehr großen Menge an Textinformationen effizient und zuverlässig Nutzen zu ziehen.
Unsere Studie zu NLP für Finanz Research
Unsere Analyse basiert auf zwei Datensätzen: auf 16 Ausblicken führender Finanzunternehmen, die auf LinkedIn veröffentlicht wurden. Die Ausblicke liegen im PDF-Format vor und umfassen zwischen 50 und 140 Seiten. Sie enthalten ein breites Spektrum an Themen, von wirtschaftlichen Perspektiven bis hin zu Ausblicken für bestimmte Anlageklassen und thematischen Anlageideen. Inhalt und Struktur der Berichte können daher recht unterschiedlich sein.
Der andere Datensatz erfasst Ausblicke von 59 Wertpapierfirmen, die auf der Bloomberg-Website veröffentlicht wurden und in 31 Anlagethemen unterteilt sind. Hier handelt es sich um kurze Zusammenfassungen, die im Durchschnitt nur aus 1-5 Sätzen bestehen.
Anwendungen der NLP im Finanzbereich
Zunächst wollen uns allerdings einige Beispiele für Anwendungen der NLP im Finanzbereich ansehen:
- Sentimentanalyse: NLP wird zur Analyse von Kundenfeedback, Nachrichtenartikeln und Beiträgen in sozialen Medien verwendet, um das allgemeine Sentiment gegenüber einem Unternehmen, einem Produkt oder einer Branche zu ermitteln, was für Investitionsentscheidungen genutzt werden kann;
- Risikomanagement: NLP kann zur Verarbeitung und Analyse großer Mengen unstrukturierter Daten wie Nachrichtenartikel, Finanzberichte und juristische Dokumente eingesetzt werden, um potenzielle Risiken und Bedrohungen für ein Unternehmen oder eine Branche zu ermitteln. Insbesondere im ESG-Bereich, wo alle Informationen textbasiert sind, nutzen wir NLP, um festzustellen, welche Unternehmen in unethische Aktivitäten oder Sektoren verwickelt sind.
- Zusammenfassung von Dokumenten: NLP kann verwendet werden, um umfangreiche Dokumente wie Finanzberichte oder juristische Dokumente automatisch zusammenzufassen, was es Analysten und Händlern erleichtert, die wichtigsten Punkte schnell zu erfassen.
- Vergleiche: NLP kann verwendet werden, um Texte zu vergleichen und durch eine Vielzahl von Techniken Übereinstimmungen und Unterschiede zu finden.
- Information Retrieval und maschinengestütztes Leseverstehen.
Wir analysierten zunächst den Inhalt der umfassenden Berichte. Wir wollten verstehen, welche Inhalte für die Ausblicke 2023 besonders wichtig waren und ob sich mit dieser Methodik feststellen lässt, wie sich die Themen von Jahr zu Jahr verändern.
Um die Informationen aus den umfassenden Berichten, die wir im PDF-Format von LinkedIn heruntergeladen haben, zu analysieren, mussten wir alle Texte einlesen und in mehreren Schritten konvertieren, bevor wir sie mit NLP Methoden bearbeiten konnten. In einem ersten Schritt nutzen wir Wortwolken als Werkzeug zur Textvisualisierung. Mit Hilfe von Wortwolken lassen sich die wichtigsten oder am häufigsten verwendeten Wörter in einem Text schnell identifizieren, was für das Verständnis der Hauptthemen eines Textes hilfreich sein kann. Die Abbildung zeigt eine Wortwolke, die aus dem Inhalt aller Forschungsberichte abgeleitet wurde.
Wir können einige der Hauptthemen erahnen, die in den meisten Berichten eine wichtige Rolle spielen, wie Inflation, Zinsen und Risiko. Wir sind jedoch daran interessiert, den Text auf einer detaillierten Themenebene aufzuschlüsseln, um zu sehen, wie sich die Welt verändert hat und welche alten Themen aus den vergangenen Jahren von der Bildfläche verschwunden sind und welche neuen Themen die Anleger heute beschäftigen.
Wie können Computer erkennen, welche Themen in einem Bericht enthalten sind?
Um diese Aufgabe zu bewältigen, verwenden wir einen Ansatz, der unter dem Begriff Themenanalyse (Topic Analysis, auch Latent Dirichlet Analysis, LDA) bekannt ist. Bei der Themenanalyse im NLP geht es darum, die Hauptthemen in einem Text oder einer Textsammlung zu identifizieren. Sie wird verwendet, um zu verstehen, worum es in einem Text geht, und um wichtige Informationen aus ihm zu extrahieren.
Auf diese Weise lassen sich die Hauptthemen, die in einem Text diskutiert werden, automatisch identifizieren. So kann LDA dazu verwendet werden, aus einer großen Sammlung von Nachrichtenartikeln automatisch die Hauptthemen zu identifizieren. Sobald die Hauptthemen identifiziert sind, können die Artikel anhand ihrer Themen gruppiert oder kategorisiert werden. Dabei wird davon ausgegangen, dass jedes Dokument in der Sammlung eine Mischung von Themen ist und dass jedes Wort im Dokument mit einem der Themen verbunden ist.
Hinter LDA steht der Versuch, Themen zu identifizieren, die die Wörter in den Dokumenten am besten erklären können. Dazu wird ein statistisches Modell verwendet, das eine Reihe von Wahrscheinlichkeiten für jedes Wort, jedes Thema und jedes Dokument erzeugt. LDA ist eine so genannte unüberwachte Lernmethode, die keine gelabelten Daten benötigt. Sie kennt die Themen nicht im Voraus und findet sie während des Prozesses autonom.
Nach der Durchführung der Themenanalyse konnten wir zahlreiche relevante Themen identifizieren. Wir zeigen hier nur eine Auswahl von Themen aus den Berichten, die wir wieder im World Cloud-Format analysiert haben, z. B. Zentralbanken, Energiekrise, Wirtschaftsausblick, Aktienmarkt. (Weitere Themen, auf die wir nicht eingegangen sind, waren Anleihemärkte, Kredite, Inflation, Investment Research und Risikomanagement/Regulierung/Steuern). Es finden sich Wirtschaftsausblicke und Aktienmarktprognosen. In diesem Jahr waren jedoch zwei Themen in fast allen Berichten dominierend, die in den Vorjahren weniger stark präsent waren: Zentralbanken/Inflation und Energiekrise.
Wie können wir Computer Sentiment verstehen?
Aus den Bloomberg-Ausblicken wählten wir wiederum 7 Themen für 49 Unternehmen aus und führten eine Stimmungsanalyse durch, um die Unterschiede im Tonfall der Investmentgesellschaften zu den ausgewählten Themen zu verstehen.
Die Stimmungsanalyse ist eine Methode, bei der die Verarbeitung natürlicher Sprache und Techniken des maschinellen Lernens eingesetzt werden, um die in einem Text ausgedrückte emotionale Stimmung oder Haltung zu ermitteln. Eine Möglichkeit zur Durchführung der Stimmungsanalyse ist die Verwendung eines Wörterbuchs mit klassifizierten Wörtern, wobei jedem Wort ein Stimmungswert (z. B. positiv, negativ, neutral) zugeordnet wird. Ein Wörterbuch könnte zum Beispiel Wörter wie „glücklich“, „aufgeregt“ und „freudig“ als positiv, „wütend“, „frustriert“ und „enttäuscht“ als negativ und „neutral“, „gleichgültig“ und „ruhig“ als neutral enthalten.
Zur Durchführung der Stimmungsanalyse mit diesem Wörterbuch wird der zu analysierende Text zunächst in einzelne Wörter zerlegt, und dann wird jedes Wort im Wörterbuch nachgeschlagen, um seinen Stimmungswert zu ermitteln. Die Bewertungen für alle Wörter werden dann kombiniert, um eine Gesamtbewertung der Stimmung des Textes zu erhalten.
In der Realität ist der Prozess viel aufwendiger, da oft spezielle Wörterbücher erforderlich sind. Tim Loughran hat dazu eine interessante Arbeit veröffentlicht, die unter dem Titel bekannt ist: „When is a Liability not a Liability“. Während das englische Wort „Liability“ (Verbindlichkeit, aber auch Passiva) in einem Standardkontext höchstwahrscheinlich mit einem negativen Gefühl verbunden ist, werden Passiva in der Investmentwelt als Ergänzung zu Aktiva gesehen und haben einen neutralen Charakter. Ein weiteres Problem sind Negationen wie „nicht gut“, die die Stimmung in einem Kontext umkehren können. Daher werden im wirklichen Leben Algorithmen verwendet, die maßgeschneiderte Probleme berücksichtigen, um zuverlässige Bewertungen der Stimmung von Texten zu erhalten.
Die Abbildung veranschaulicht die Ergebnisse unserer Stimmungsanalyse zu sieben verschiedenen Themen für 49 Wertpapierfirmen, die wir den Einschätzungen auf Bloomberg entnommen haben. Je höher der Stimmungswert und je grüner die Farbe für ein bestimmtes Thema und Unternehmen ist, desto positiver ist die Stimmung und umgekehrt.
Ein Beispiel für ein positives und negatives Sentiment sind die folgenden Phrasen aus den Konjunkturprognosen:
Positiv: Unser Basisszenario geht davon aus, dass die US-Notenbank die Geldpolitik etwas stärker straffen wird, als es der Markt erwarten lässt. In der Zwischenzeit erwarten wir, dass die Bank of England und die Europäische Zentralbank die Zinssätze nicht so stark anheben, wie es der Markt impliziert. Die Inflation geht in den USA recht schnell zurück, in mehreren anderen großen Volkswirtschaften jedoch noch schneller. Die US-Kerninflationsrate sinkt auf Jahresbasis unter drei Prozent, allerdings mit einem breiten Konfidenzintervall.
Negativ: 2023 dürfte ein Jahr sein, in dem die Realwirtschaft endgültig in eine (leichte) Rezession abgeleitet, die monetären Bedingungen allmählich nicht mehr gestrafft werden und die systemischen Risiken zunehmen.
Als Base Case wird das Szenario definiert, welches die Wertpapierfirmen als wahrscheinlichstes Ergebnis für das neue Geschäftsjahr ansehen. Viele Firmen nutzen negative Stimmungswerte, um ihren Ausblick Ende 2022 um Prognosen für dieses Jahr zu formulieren.
Das negative Sentiment ist insbesondere für die Wachstumsprognose (Growth) klar erkennbar, bei der viele Firmen aufgrund der anhaltenden Energiekrise, der geopolitischen Lage, der Lieferkettenprobleme und der restriktiven Politik der großen Zentralbanken ist eine deutliche Verlangsamung des Wachstums oder gar eine Rezession erwarten.
Wenn wir die Stimmungswerte für China mit denen der USA vergleichen, stellen wir fest, dass in den USA ein positiverer Ton herrscht und die negativen Beiträge nicht so extrem sind. In ähnlicher Weise finden wir viele positive Einschätzungen zu China aufgrund günstiger Bewertungen und Anzeichen für das Ende der Nullzins-Politik, allerdings sind viele der positiveren Einschätzungen doch eher gedämpft.
Die Sentiment-Analyse gibt uns zwar ein erstes Gefühl dafür, wie positiv oder negativ einzelne Unternehmen einem Thema gegenüber eingestellt sind, doch trägt die Sentiment-Analyse nicht dazu bei, den Inhalt von Texten zu verstehen. Um dies zu erreichen, werden im NLP Einbettungen (Embeddings) verwendet, um den Inhalt des Textes zu verstehen. Wie funktioniert das?
Wie können Computer Inhalte verstehen?
Wort- und Satzeinbettungen sind Techniken, die in der Verarbeitung natürlicher Sprache (NLP) verwendet werden, um Wörter und Sätze in einem numerischen Format darzustellen, das von maschinellen Lernmodellen verarbeitet werden kann. Sie werden als hochdimensionale Vektoren dargestellt, wobei jede Dimension einem bestimmten Merkmal des Wortes entspricht.
Wir können uns die Einbettungen als Attribute von Wörtern vorstellen, die wir zu beschreiben versuchen. Wildkatzen und Hauskatzen haben viele Eigenschaften gemeinsam: Sie sind Säugetiere mit Fell, scharfen Krallen und einer kurzen Schnauze und bekannt für ihre Beweglichkeit und ihre Jagdfähigkeiten sowie für ihr unabhängiges Wesen. Wildkatzen, wie Löwen, Tiger und Panther, leben jedoch in ihrem natürlichen Lebensraum und werden nicht als Haustiere gehalten.
Wenn wir Hauskatzen mit Hunden vergleichen, sind auch einige Eigenschaften ähnlich. Zum Beispiel werden Hauskatzen und Hunde als Haustiere gehalten. Hunde sind jedoch soziale Tiere und müssen trainiert und können trainiert werden, während Katzen relativ pflegeleicht sind und nicht so viel Aufmerksamkeit benötigen wie Hunde.
Die Dimensionen der Einbettung können als individuelle Attribute mit ihrem jeweiligen quantitativen Umfang betrachtet werden. So sind Hunde und Hauskatzen auf der Dimension Haustiere sehr ähnlich, während sie sich auf vielen anderen Dimensionen stark unterscheiden.
Zur Erzeugung von Einbettungen werden gängige Algorithmen wie word2vec, GloVe, FastText oder BERT verwendet, die alle von den großen Technologieunternehmen entwickelt wurden. Zusätzlich zu den Worteinbettungen fasst die Satz- oder Dokumenteneinbettung die Bedeutung des gesamten Satzes oder Dokuments zusammen. Für den Schätzungsprozess ist ein großer Textkorpus erforderlich, und viele Algorithmen verwenden neuronale Netze, die beträchtliche Rechenressourcen verbrauchen, die realistischerweise in einer Cloud-Computing-Umgebung ausgeführt werden müssen.
Diese Einbettungen können als Input für verschiedene NLP-Aufgaben wie Textklassifizierung, Stimmungsanalyse, Named Entity Recognition, Sprachübersetzung und mehr verwendet werden. Sie werden auch als Input für Deep-Learning-Modelle wie rekurrente neuronale Netze und transformatorbasierte Modelle verwendet. Diese Modelle können lernen, sinnvolle Repräsentationen aus den Einbettungen zu extrahieren, die für eine Vielzahl von Aufgaben verwendet werden können.
Wir verwenden Einbettungen, um den Grad der Ähnlichkeit der verschiedenen Ansichten zu analysieren. Die Textähnlichkeit kann zur Erkennung von Plagiaten im akademischen Bereich verwendet werden, indem der Text mit einer großen Anzahl von Dokumenten verglichen wird und Passagen, die mit anderen Quellen übereinstimmen, markiert werden. Einige dieser Tools verwenden Worteinbettungen als Teil ihres Algorithmus, um die semantische Ähnlichkeit zwischen Sätzen, Absätzen oder Dokumenten zu vergleichen.
Wir können Einbettungen für unsere Zwecke nutzen, um zu sehen, welche Firmen ähnliche Inhalte aufweisen und welche Firmen sich stärker unterscheiden. Als Anleger wollen wir ein breites Spektrum unterschiedlicher Ansichten nutzen, um die gesamte Bandbreite der Anlagerisiken zu verstehen, denen wir ausgesetzt sein könnten. Aus Ausblicken von Unternehmen mit ähnlichem Kontext können wir repräsentative Stichproben ziehen. Bei Bloomberg sind alle Beitraege klar nach Themen unterteilt, wie „Base Case“, „Growth“, etc. Ausblick 1, 2 und 3 sind Beispiele von drei Firmen in der Kategorie „Base Case“.
Ausblick 1: „Wir erwarten einen Abschwung des globalen BIP-Wachstums im Jahr 2023, angeführt von Rezessionen in den USA und der Eurozone, mit einem unter dem Trend liegenden Wachstum in China und vielen Schwellenländern.“
Ausblick 2: „Bis ins Jahr 2023 bleibt ein erwarteter Schock: die Rezession. In den USA, im Euroraum und im Vereinigten Königreich wird im nächsten Jahr mit einer Rezession gerechnet, und der Rest der Welt dürfte sich weiter abschwächen, wobei China eine bemerkenswerte Ausnahme darstellt. Der Rezessionsschock bedeutet wahrscheinlich, dass die Unternehmensgewinne und das Wirtschaftswachstum in der ersten Jahreshälfte unter Druck geraten werden, während gleichzeitig die Wiedereröffnung Chinas bestimmten Vermögenswerten eine Atempause verschafft.“
Ausblick 3: Im Vergleich zu den gedämpften Erwartungen wird das Wachstum im Jahr 2023 positiv überraschen, da die USA eine Rezession abwenden, Europa nach der Energiekrise eine robuste Erholung erlebt und China seine Nullzins-Politik aufgibt. Das Wachstum wird sich gegen Ende 2023 abschwächen, und 2024 ist eine leichte Rezession wahrscheinlich.
Auf der Grundlage unseres Ansatzes zur Analyse der Textähnlichkeit stellen wir fest, dass Ausblick 1 und 2 in Bezug auf die Ähnlichkeit sehr hoch sind, während sich Ausblick 3 von beiden unterscheidet.
Große Unternehmen an der Spitze der Liste in Abbildung 4 wie Citi, Wells Fargo, Barclays und JP Morgan scheinen in ihren Basisszenarien sehr unterschiedliche Ansichten zu haben, die sich von denen der anderen Unternehmen unterscheiden. Bei den Unternehmen am Ende der Liste gibt es dagegen mehr Überschneidungen. Es wäre interessant zu analysieren, ob sich bestimmte Firmen in der Vergangenheit gehäuft haben. Vor allem von unabhängigen Forschungsunternehmen würde man einen vielfältigen Ausblick erwarten.
Fazit: KI und NLP sind nützliche Tools, haben aber Schwächen, die man kennen muss
Die obigen Beispiele veranschaulichen, wie künstliche Intelligenz den Anlegern helfen kann, große Mengen von Dokumenten, oft Hunderte von Seiten, innerhalb von Sekunden zu verarbeiten, um ein Gefühl dafür zu bekommen, welche Themen in den Dokumenten enthalten sind, wie die Stimmung gegenüber bestimmten Themen ist und welche Inhalte ähnlich oder völlig unterschiedlich sind.
Die von uns verwendeten Prognosen werden von Investmentbanken, Vermögensverwaltungsgesellschaften, institutionellen Vermögensverwaltern und unabhängigen Forschungsunternehmen erstellt. Folglich können die Zielgruppen sehr unterschiedlich sein, von Kleinanlegern bis zu vermögenden Anlegern oder professionellen Vermögensverwaltern. Es wäre interessant, die Daten weiter nach Zielgruppen aufzuschlüsseln und die Häufung der Ansichten oder den insgesamt positiven/negativen Ton nach Zielgruppen zu analysieren. Alternativ könnten die Daten nach geografischen Gesichtspunkten aufgeschlüsselt werden, um zu sehen, wie US-Firmen die Welt im Vergleich zu Wertpapierfirmen in Europa oder Asien sehen.
NLP wird heute im Finanzsektor zu wenig genutzt. Wir versuchen im Grunde, die Vorteile aufzuzeigen, die es angesichts der Informationsflut, der die Anleger täglich ausgesetzt sind, bringen kann. Diese Werkzeuge können die Arbeitsbelastung des Anlegers verringern, indem sie alle Informationen durchforsten und die wichtigsten Informationen herausfiltern.
Aber natürlich ist es wichtig zu erwähnen, dass LDA Schwächen hat. Sie ist von der Anzahl der ausgewählten Themen, der Qualität der Eingabedaten und der verwendeten Technik beeinflusst werden kann. Außerdem ist sie nur eine der vielen Techniken, die in der NLP verwendet werden, und es ist wichtig, auch andere Techniken zu verwenden, um sicherzustellen, dass die Ergebnisse genau und zuverlässig sind. Sie funktioniert am besten, wenn eine klare Trennung der Themen in den Dokumenten vorhanden ist, da bei zu vielen Überschneidungen die Trennung nach Themen unscharf wird.
Disclaimer
Dieser Beitrag stellt eine Meinungsäußerung und keine Anlageberatung dar.
Dieser Beitrag basiert auf dem Blog-Artikel des Digital Leaders Fund – https://thedlf.de/kann-ki-konjunkturprognosen/
Du muss angemeldet sein, um einen Kommentar zu veröffentlichen.