Kann Nvidia KI, und was ist KI überhaupt

Ungeachtet der jüngsten Turbulenzen an den Aktienmärkten, die wir in diesem Beitrag außen vor lassen, da sie nichts mit der KI-Thematik per se zu tun haben, hat die Nvidia-Aktie in diesem Jahr überproportional hohe Volatilität gezeigt, insbesondere einen deutlichen Einbruch im Jänner 2025:

Nvidia Aktienentwicklung der letzten 6 Monate (Quelle: finanzen.net)

Der Auslöser war DeepSeek bzw die Berichterstattung darüber:

Die Medien berichteten, dass es dem chinesischen Startup DeepSeek gelungen sei, mit geringen Kosten und älteren Nvidia-Prozessoren „eine KI zu trainieren“, die quasi gleichwertig mit den aktuellen top KI-Anwendungen sei, also zB ChatGPT, Gemini oder Llama. Daraufhin stürzte der Kurs von Nvidia deutlich ab und war mit 31.03.25 um 30% niedriger als zum Höchststand 2025 bei 140 EUR. Befürchtungen wurden laut, der KI-Hype sei zu Ende, die Nvidia-Aktie zu teuer.

War der Absturz der Nvidia-Aktie gerechtfertigt?

Beim Lesen der medialen Berichterstattung formte sich bei mir der Eindruck, dass viele nicht wirklich wissen, was Nvidia genau tut, und was KI überhaupt genau ist, oder was sich hinter den Begriffen generative KI und LLMs (Large Language Models) genau verbirgt.

Warren Buffet hat schon gesagt: Investiere niemals in ein Business, das du nicht verstehst.

Die aktuelle Berichterstattung ist vielfältig, aber nicht wirklich hilfreich dabei, KI besser zu verstehen. Aber vorsichtshalber nicht in KI-Tech Aktien investieren, weil man sie nicht versteht? Das wäre schade. Ich möchte in diesem Beitrag versuchen zu erklären, was man aktuell unter KI versteht, wo Nvidia hier die Nase unangefochten vorne hat, wo das Unternehmen mit Konkurrenz zu rechnen hat, und wo – meiner Meinung nach – die „KI-Reise“ in der nächsten Zeit hingehen wird.

Was ist KI überhaupt

Derzeit ist, wenn von Künstlicher Intelligenz gesprochen wird, fast ausschließlich generative KI gemeint, also solche, die verschiedene Arten von Inhalt generieren kann, allen voran Texte (Large Language Models), aber auch Bilder, Videos und Musik. Um realistisch einschätzen zu können, ob (generative) KI wirklich der mächtige Zukunftstrend sind und ob die großen Tech-Unternehmen damit bald Geld verdienen können, muss man besser verstehen, was sich hinter all dem verbirgt.

Das LLM, das den KI-Hype massiv befeuert hat, ist ChatGPT. Unsummen werden in das Training von LLMs investiert, das eine enorme Anzahl an Nvidia GPUs, Datencenter und Energie benötigt. ZB erforderte das Training von Llama 3.1 (Meta) wahrscheinlich Tausende von Hochleistungs-GPUs von Nvidia, die für die Bewältigung der umfangreichen Berechnungen beim Training umfangreicher Sprachmodelle unerlässlich sind. Diese GPUs sind nicht nur teuer in der Anschaffung, sondern verbrauchen auch eine beträchtliche Menge an Energie während der Trainingszeit, die sich über mehrere Wochen oder sogar Monate erstrecken kann: ZB erforderte das Training des Llama 3 Modells insgesamt etwa 39 Millionen GPU-Stunden (27,5 GWh) auf H100-80GB GPUs, die jeweils eine maximale Leistung von 700W haben; dies entspricht dem jährlichen Energieverbrauch von 1300 modernen Haushalten.

Wie wird nun ein LLM trainiert? Und wie aufwändig sind die Schritte?

1.       Pre-Training

Wir wollen hier nicht in die Tiefe gehen, nur ein grundsätzliches Verständnis aufbauen. Der erste Schritt, Pre-Training, basiert auf Milliarden von Dokumenten aus dem World Wide Web, die nach bestimmten Kriterien gefiltert werden und mit Neuronalen Netzen ein Modell erstellt wird: In vielen hintereinandergeschalteten und parallelisierten Schritten lernt der Algorithmus, für einen vorgegebenen Text diejenige Textsequenz (“Token”) zu erraten, die diesen am besten ergänzt. Das bedeutet, für jeden möglichen folgenden Token werden Wahrscheinlichkeiten ermittelt. Man kann sich das vorstellen wie das Kinderspiel, bei dem ein Spieler einen Satz beginnt und der nächste Mitspieler muss das nächste Wort dazu finden. Im vorliegenden Fall sucht die KI das „passende“ nächste Token auf Basis von berechneten Wahrscheinlichkeiten. Je häufiger eine Textsequenz (die KI versteht den Inhalt nicht) im Internet gefunden wird, ob richtig oder falsch, faktengecheckt oder nicht, desto höher die Wahrscheinlichkeit, dass es als nächstes Token „erraten“ wird.

Output des Pre-Trainings ist ein Basismodell (base model), das auf Fragen, die ein User stellt, einen „best guess“ aus dem Internet als Antwort ermittelt. Somit ist ein LLM in diesem Stadium eine Art „Internetdokumentsimulator“.

Das Fragenstellen wird übrigens „Inference“ genannt, hier werden „best guesses“ ausgespuckt, die mit den Wahrscheinlichkeiten „zusammenpassen“. (An dieser Stelle möchte ich mich für die starke Vereinfachung entschuldigen). Eine KI ist also ein Modell, das auf Wahrscheinlichkeiten beruht, „es“ „weiß“ nicht, was richtig oder falsch ist. Das heißt, je weniger ähnliche Texte im Internet gefunden werden, desto weniger werden hohe Wahrscheinlichkeiten berechnet und desto unterschiedlicher ist das Ergebnis bei jeder einzelnen identen Abfrage. Insbesondere bei früheren Modellen sollte man daher dieselbe Frage öfter stellen und die Resultate vergleichen. Weichen die Resultate (mehr oder weniger stark) voneinander ab, dann handelt es sich meist um „Halluzinationen“. Das bedeutet, das LLM weiß es einfach nicht. Da es aber nicht weiß, dass es nicht weiß, gibt es einfach das aus, was am nächsten kommt, was eine völlig absurde Antwort sein kann. Man kann daher sagen, dass der Output stochastisch ist, inspiriert durch Internetdaten. Halluzinationen treten insbesondere dann auf, wenn es sich um neuere Ereignisse handelt, die das LLM nicht wissen kann, d.h. wenn es sich um ein Ereignis handelt, das im Trainingsumfang nicht enthalten ist.

2.       Post-Training: Supervised Fine-Tuning

Das Basismodell ist aber noch kein Assistant oder Chatbot, man kann sich noch nicht mit ihm unterhalten. Um das zu erreichen, werden von Menschen verfasste Beispielunterhaltungen im sogenannten Supervised Fine-Tuning eingespeist, auf die das LLM im zweiten Schritt wieder trainiert wird. Dadurch lernt es, statistisch die vorgefertigten Unterhaltungen zu imitieren. Klarerweise ist die Struktur, Art und Inhalt dieser vorgegebenen Unterhaltungen ausschlaggebend, wie und was das LLM auf Fragen antwortet.

Ein LLM kann bestimmte Aufgaben schlecht erfüllen, zum Beispiel Zählen. Dafür besteht aber die Möglichkeit, dem LLM zu sagen, dass es Hilfsmittel verwenden soll, zB im Internet suchen, oder einen Programmcode zu schreiben, um richtig zu zählen.

3.       Post-Training: Reinforcement Learning – „Reasoning models“

Dies ist der „letzte Schrei“, oder der aktuelle Stand dessen, was ein LLM zu leisten vermag. Der dritte Schritt im Training ist das Reinforcement Learning (RL). Hier lernt das Modell, wie man Lösungen auf Probleme findet, und zwar von selbst, ohne Anleitung. Klassisches Beispiel ist das Spiel „Hide and Seek“, in dem mit einfachen Vorgaben mehrere “Agenten” (die einen sollen sich verstecken, die anderen suchen) aufeinander losgelassen werden, und das System selbständig lernt. Das Modell hat auch „Aha- Momente“ und Durchbrüche, um einen Sachverhalt neu zu beleuchten. Kurz gesagt, das Modell lernt Problemlösen.

Ein Reasoning model ist ein Model, das mit RL trainiert wurde, es verwendet bei der Problemlösung verschiedene Perspektiven, vergleicht Ansätze und überprüft die Lösung auch auf Richtigkeit. Beispiele sind ChatGPT o1 oder auch DeepSeek R1, von dem eingangs schon die Rede war.

Die Prüfungsanalogie

Trotz aller versuchten Einfachheit war das alles ein bisschen abstrakt, oder? Bemühen wir zum besseren Verständnis einen Vergleich: Pre-Training entspricht dem Lernen für eine Prüfung aus Textbüchern. Bei der Prüfung selbst (der Inference) darf man keine Hilfsmittel verwenden, hat beschränkte Zeit zu überlegen und muss sich darauf verlassen, dass das, was aus der Erinnerung hochkommt, richtig erinnert wird. Wenn man Wissenslücken hat, versucht man einfach ein bisschen zu raten. Bei einem Reasoning model ist die Prüfungssituation eine andere. Auch hier ist Zeit relevant, aber man kann die Prüfungsaufgabe mit nach Hause nehmen und über das Wochenende lösen, Hilfsmittel sind erlaubt. Zur Beantwortung der Prüfungsfragen muss man auch hinreichend nachdenken, alte Informationen (aus dem Pauken für die Prüfung erinnerte) doppelchecken und nach neuen Informationen suchen. Dieser Schritt wird auch „test-time compute“ genannt. Inference ist dann das konkrete Beantworten der Prüfungsfrage.

Nicht-reasoning-Modelle gehen vom Pre-Training (Pauken) direkt zur Inferenz (Beantwortung) über. Reasoning-Modelle machen in der Mitte einen zusätzlichen Zeit-Test-Berechnungsschritt mit dem Ziel, bessere Antworten zu produzieren.

Wir merken uns, auch beim Reasoning (oder auch test-time compute) spielt der Faktor Zeit (und damit Hardware und Energie) eine Rolle. Und auch für Inference braucht man Hardware und Energie.

Ist das also schon KI?

Wir haben über das Training von LLMs gesprochen. Aber auch die neuesten Modelle können immer noch halluzinieren, besonders wenn wir uns in „unverified domain“ befinden, bei dem es um Sachverhalte geht, die nicht objektiv nachzuprüfen sind, wie beispielsweise Humor.

Wie geht es weiter? LLMs können auf Bilder, Videos und Musik angewendet werden, das fällt alles unter den Begriff generative KI. Ein weiterer Schritt wäre es, das KI mit Aufgaben zu betreuen, die es selbständig erfüllen soll. Eine bessere Integration wird bald vor der Tür stehen, das Problem des Updates von Trainingsdaten wird gelöst werden. Was aber immer bleiben wird, ist, dass man „KI“ immer nur als Tool sehen darf und einer KI keine Entscheidungen überlassen darf. Wir erinnern uns, ein ChatBot Assistent ist ein „Internet autocomplete“ der Frage, wie im Kinderspiel, wo ein Spieler einen Satz beginnt und der nächste Mitspieler muss das nächste Wort dazu finden.

Der Output ist aber nicht nur ein „best guess“ und muss daher nicht richtig sein, er ist auch abhängig vom Input, der per se von Menschen gemacht ist: was man so im Internet findet, welche Daten gefiltert werden, welche Unterhaltungen kuratiert werden und alle möglichen andere Biases, die nicht ganz so offensichtlich sind. Dessen sollte man sich immer bewusst sein, wenn man KI als Tool nutzt.

Was ist nun mit Nvidia?

Jetzt haben wir endlich alle Informationen, die wir brauchen, um auf die aktuelle Situation von Nvidia eingehen zu können. Auf Spezialitäten von Nvidia, dessen Stärken und Schwächen gehen wir im nächsten Beitrag noch näher ein, aber was hat Nvidia für die obigen Modelle und Modelltypen zu bieten?

Nvidia stellt insbesondere GPUs für das Pre-Training bereit. Diese wurden ursprünglich als Videografikkarten für Gaming entwickelt, es stellte sich aber heraus, dass diese bestens geeignet für das Pre-Training von LLMs sind. Vereinfachend wird häufig die Aussage getroffen, dass sie perfekt geeignet für KI im Allgemeinen sind. Stimmt das?

Zuerst mal ist Pre-Training der mit Abstand aufwändigste Schritt. Für Llama 3 von Meta werden zB über 400 Milliarden Parameter im Neuronalen Netz geschätzt, das Unmengen an Energie und Hardware kostet, wie wir schon gehört haben. In puncto Pre-training und den immensen Hardware-Anforderungen ist Nvidia mit seinen herausragenden GPUs hier unangefochtener Marktführer. Nvidia entwickelt aber keine eigenen generativen KI- Anwendungen.

DeepSeek

Anders als DeepSeek: DeepSeek trainiert LLMs, die kostenlos verfügbar sind und auch als App downgeloaded werden können. Das chinesische Startup hat gezeigt, dass man sowohl Pre-Training als auch Reasoning-Modelle effizienter trainieren kann, und dass man für den dritten Schritt einen „short cut“ machen kann, nämlich quasi dem Basismodell eine Art Lehrer bereitzustellen, der ihm mitteilt, wie er an Problemlösungen herangehen kann, also eine Art “Lern-Coach” („Distillation“). Das Besondere an DeepSeek ist, dass sie vieles transparent gemacht und publiziert haben. Mein Fazit: Insgesamt gute Ideen, aber keine Disruption oder Revolution.

Es gibt auch viel inhaltliche Kritik am Output von DeepSeek, so wird vermutet, dass sich DeepSeek frei an bereits vortrainierten Modellen von ChatGPT bedient hat und dadurch die Trainingskosten entsprechend reduzieren konnte. Es gibt auch umfangreiche Bedenken hinsichtlich Sicherheit und Datenschutz, zumal die Daten auf Servern in China gespeichert werden und die Einstellung der chinesischen Führung zu Datenschutz bekannt ist. Weiters ist diese KI-Anwendung voreingenommen (biased), da insbesondere China-kritische Themenbereiche ausgespart werden, d.h. entsprechende Fragen nicht oder nicht richtig beantwortet werden. Insgesamt ist an eine Nutzung von DeepSeek mit Vorsicht heranzugehen.

Um die skizzierten Probleme von LLMs zu reduzieren, ist ein Zugang zu einem “Inference Provider” zu empfehlen, zumindest für kritische Fragestellungen. Hier werden auf einer Plattform viele verschiedene LLMs zur Verfügung gestellt, denen man gleichzeitig dieselbe Frage stellen kann. Diese sind aber nicht kostenlos verfügbar, sondern es wird nach Rechenzeit abgerechnet.

DeepSeek hat gezeigt, dass KIs effizient trainiert werden können, und zwar auch mit älteren Nvidia GPUs, und trotzdem kann man ganz vorne dabei sein. Dies hat den Markt stark verunsichert und Zweifel an der Nachhaltigkeit von Nvidias enormen Umsätzen gesät.

Gleichzeitig kann das ein Boost für eine deutlich raschere und massive Verbreitung und ein großer Schritt in Richtung tragfähige Geschäftsmodelle für KI sein. Eine größere Verbreitung und Integration bedeutet mehr Inference. Gehen wir noch mal kurz einen Schritt zurück: Reasoning-Modelle brauchen bei Inference Zeit, um über eine Lösung nachzudenken – und diese Zeit (test-time compute) wird ausschlaggebend sein für den Erfolg von bestimmten KI-Anwendungen. Und natürlich ist die zugrundeliegende Hardware ein entscheidender Faktor für die Zeit, die dafür benötigt wird. Nvidia stellt auch hierfür Hardware zur Verfügung.

Nvidia GPUs sind bestens geeignet für Pre-Training, aber nach eigenen Angaben auch sehr gut geeignet für Inference. Hier gibt es aber schon andere Wettbewerber, zum Beispiel Huawei.

Aber Nvidia ruht sich nicht auf den Lorbeeren aus und schläft nicht. Mehr dazu im nächsten Beitrag.

Weiter
Weiter

Trumpsession