Stochastische Papageien und das Geheimnis der LLMs

Shownotes

Wir nehmen euch mit hinter die Kulissen der KI: In dieser ersten Folge von Künstlich Klug räumen wir mit Ängsten, Missverständnissen und Hypes rund um Large Language Models auf. Wir erklären, wie LLMs wirklich funktionieren, warum sie manchmal wie Papageien wirken - und warum sie keine künstlichen Gehirne sind.

Mit anschaulichen Beispielen, klaren Fakten und jeder Menge Begeisterung zeigen wir, was ein LLM kann, was es nicht kann - und warum Reasoning und Tooluse mehr mit Theater als mit Magie zu tun haben. Hört rein und entwickelt mit uns ein besseres Bauchgefühl für KI, fernab von Apokalypse und Jobverlust!

Haben Sie Feedback oder Anregungen für kommende Folgen? Wir freuen uns über eine Nachricht!

kuenstlichklug@gmail.com

Transkript anzeigen

00:00:00: Künstliche Gehirne, Jobverlust, Roboterapokalypse, LinkedIn-KI-Experten.

00:00:06: Nur eine kleine Liste der Schrecken, die wir large language Models zu verdanken haben.

00:00:12: Aber vielleicht sollten wir nicht so sehr auf die Meinung von Leuten hören, die nicht mal wissen, wie man KI-Buch stabiliert.

00:00:18: Das beste Mittel gegen Angst und falsche Informationen ist Wissen.

00:00:22: Daher wollen wir uns heute die Frage stellen, was ist ein large language Model und wie funktioniert es überhaupt?

00:00:29: Herzlich willkommen zur ersten Folge von Künstlich Klug, dem KI-Podcast ohne Hype, dafür mit Fakten und Begeisterung.

00:00:38: Von Afritz-Consulting und Divisio, präsentiert von Christoph Henkelmann und Andreas Fritz.

00:00:44: Hi, Christoph.

00:00:45: Hi, Andreas.

00:00:46: Wie funktionieren LLMs eigentlich?

00:00:48: Ich hab manchmal das Gefühl, wenn ich mit GGBT oder anderen LLMs interagiere, also wenn ich da irgendwie mit arbeite.

00:00:56: Mir wird irgendwie nur was gespiegelt, also es ist wie ein Papagei, der irgendwie dahinter steckt.

00:01:01: Und an anderen Stellen denke ich mir, wow, krass, okay, das wirkt jetzt gerade extrem intelligent.

00:01:07: Und die Frage, die wir heute so ein bisschen auflösen wollen, ist ja eigentlich, wie funktioniert das dahinter und was ist es jetzt tatsächlich?

00:01:12: Genau,

00:01:13: das ist der berühmte stochastische Papagei.

00:01:15: Es gibt ja dann zwei Extreme.

00:01:16: Die einen sagen, das ist komplett unnötz, nur ein statistischer Trick, der stochastische Papagei.

00:01:22: Und das ist alles unbrauchbar.

00:01:24: Und dann gibt es halt die anderen, die reden dann gleich von AGI, Artificial General Intelligence.

00:01:29: Wir verlieren alle unseren Job und übermenschlich gut.

00:01:32: Na ja, die Wahrheit liegt wie so oft ein bisschen in der Mitte.

00:01:36: wenn man verstehen will, warum, dann müssten wir uns mal drüber unterhalten, wie die Sachen funktionieren.

00:01:41: Denn der Witz ist, die Systeme im Moment, die funktionieren auch alle gleich.

00:01:45: Also es gibt sehr viele Anbieter inzwischen.

00:01:47: Die meisten Leute kennen ChatGPT von OpenAI, aber es gibt ja noch eine Menge andere.

00:01:52: Google, Entropic, Mistral, alle anderen Hersteller, die es da so gibt.

00:01:56: Da gibt es ja Dutzende inzwischen.

00:01:57: Aber der Witz ist, die Systeme funktionieren alle gleich.

00:02:00: Die LLMs, die wir im Moment haben, die Large Language Models, funktionieren alle nach dem GPT-Prinzip.

00:02:07: Daher kommt der Name Chat GPT.

00:02:09: Das GPT steht für Generative Pre-Train-Transformer.

00:02:13: Das ist aber gar nicht so wichtig, wo die Abkürzung herkommt.

00:02:16: Man sagt inzwischen LLMs und die funktionieren alle gleich.

00:02:20: Hinter LLMs habe ich verstanden.

00:02:21: Stehen nach Schlengurtsmanns.

00:02:23: Und ein Grundprinzip, wie die funktionieren, sind Tokens, also die arbeiten mit Tokens.

00:02:29: Genau.

00:02:30: Wie der Name sagt, large Language Mod.

00:02:32: Das ist groß, klar.

00:02:33: Language, es geht um Sprache.

00:02:35: Und in dem Fall heißt Sprache vor uns erst mal, auch wenn es das auch für Audio gibt, Text.

00:02:40: Und dann möchte man ja denken, da kommen Buchstaben rein und raus.

00:02:42: Das ist ja klar, ist ja Text.

00:02:44: So ist es aber in der Tat gar nicht, sondern die konsumieren sogenannte Tokens.

00:02:48: Das kann man sich vorstellen wie Silben.

00:02:51: oder aber auch ganze kurze Wörter.

00:02:54: Gerade im Deutschen sind es nicht Silbengrenzen, sondern manchmal ist es etwas komisch, wie diese Grenzen für diese Tokens gebildet werden.

00:03:01: Wo die herkommen, ist interessant, aber das ist tatsächlich ein stochastischer Trick, damit die Systeme effizienter funktionieren.

00:03:07: Aber im Grunde genommen nehmen die Wortschnipsel auf und geben Wortschnipsel von sich, also ein LLM.

00:03:14: Unter dem LLM ist ein Machine Learning Modell, ein Modell ist etwas gelernt ist, also da sind ganz viele mathematische Formel und da kommen ganz viele Parameter rein wie in der Schule XYZ, nur halt Milliarden und Milliarden davon.

00:03:30: und wenn diese Parameter richtig gesetzt sind, dann spricht man von einem Modell.

00:03:34: Also das ist das Modell, die mathematischen Formel, das was es gelernt hat.

00:03:38: und dieses Modell kann weiter nichts als eine Sequenz von Tokens aufnehmen und dann das nächste Token produzieren.

00:03:47: Das ist der ganze Witz.

00:03:48: Also alles, was die machen können, sind Token aufnehmen und wieder Token ausspuppen.

00:03:53: Okay, das heißt, ich verstanden, der zersetzt quasi einen Text, den ich eingebe, in einzelne Schnipseln, einzelne Tokens.

00:04:02: Das macht noch nicht mal das Modell.

00:04:03: Das macht sogar die Software.

00:04:05: Also das Modell selber kann zum Beispiel gar nicht agieren, sondern um das Modell herum gibt es ganz normale Computersoftware und die Computersoftware zerlegt sind Tokens, schüttet das in das Modell, dreht quasi einmal an der Kurbel und dann fällt ein neues Token hinten raus.

00:04:20: Und das macht eine ganz normale Computer Software, die das Modell abspielt.

00:04:24: Das ist quasi der Chat, mit dem wir da zu tun haben.

00:04:27: Wenn es für so einen Text jetzt beispielsweise keine passenden Tokens gibt, was passiert dann?

00:04:32: Genau, das gab es gerade in der Frühzeit dieser Modelle.

00:04:36: Also wenn ich jetzt eine sehr merkwürdige Buchstabenkombination habe oder ich habe ein Modell, das nur europäische Tokens kennt und da kommt auf einmal kürrlisch oder chinesische Zeichen, dann wird das auf ein sogenanntes unbekannt Token gemappt.

00:04:50: Also das muss man auch immer dran denken, nicht jedes Modell kann jedes Token verarbeiten.

00:04:56: Und das ist für das Modell so, als wenn wir in der E-Mail diesen Diamanten mit dem Fragezeichen drin sehen.

00:05:02: Wenn du das mal kennst, wenn die Umlaute falsch sind, dann sind diese Fragezeichen in der Raute.

00:05:06: Das ist genau das, was für das Modell passiert.

00:05:08: Wobei die ganz großen Modelle heutzutage, der hat viele verschiedene Tokenscannen, dass sie eigentlich jede gesprochen Sprache.

00:05:14: verstehen, aber im Zweifelsfall kommt dann nichts an.

00:05:19: Was machen die dann mit den Tokens?

00:05:21: Also das ist schon gerade ihm gesagt, das wird vorher von der Software um das LLM rum, also um die KI-Rum zerschnitten, wird dann am Ende da reingekippt.

00:05:30: Was passiert dann?

00:05:31: Was dann passiert ist, dass die Tokens intern einfach nur auf Zahlenkolonnen gemapped werden.

00:05:37: Also für jedes Token gibt es eine Kolonne von Zahlen, die quasi den Fingerprint, den Fingerabdruck dieses Tokens darstellt, weil diese Machine Learning Modelle dieser Art zumindest, können gar nicht mit Buchstaben umgehen oder mit Tokens oder irgendwas, die können nur Zahlen verarbeiten.

00:05:54: Daraus entsteht dann halt eine sehr lange Sequenz von Zahlen für das Modell, um genau zu sein von Vektoren, wer das aus der Schule noch kennt.

00:06:01: Also es kann man sich vorstellen wie ein Axelsheet und da sind ganz viele Spalten im Axelsheet und die sind alle voller Zahlen.

00:06:07: Mehr ist das nicht.

00:06:08: Und dann läuft diese Menge von Zahlen dadurch und ganz am Ende kommt wieder eine neue Menge an Zahlen raus.

00:06:16: Und das ist dann tatsächlich eine Wahrscheinlichkeitsverteilung, etwas vereinfacht gesagt, welches Token das nächste ist.

00:06:23: Das heißt, dieses Modell sagt noch nicht mal, das ist mein nächstes Token, sondern er sagt, am wahrscheinlichsten denke ich, sollte jetzt das Token kommen.

00:06:32: Aber du kannst auch das Token nehmen.

00:06:33: Zum Beispiel, wenn ich jetzt sage, wir stellen uns mal vor, jedes Token wäre ein Wort, das macht es leichter.

00:06:39: Und ich sage, das ist das Haus vom... und dann wird wahrscheinlich Nikolaus die höchste Wahrscheinlichkeit haben.

00:06:44: Man sagt, okay, das ist das Haus vom Nikolaus, das habe ich schon mal gehört, das heißt, ich nehme mal an, fünfzig Prozent, das heißt Nikolaus.

00:06:50: Aber es könnte ja zum Beispiel auch Andreas heißen, wenn zum Beispiel vorher noch in der Sequenz einfach unsere Transkription unseres Podcasts wäre, weil unsere Namen gefallen sind, dann macht es das wahrscheinlicher.

00:07:01: Und dann am Ende gibt es eine Wahrscheinlichkeit für jedes Token.

00:07:04: Das sind sehr viele Wahrscheinlichkeiten, weil sowas wie zum großes System wie Chatshipity hat, kennt hunderttausende verschiedener Token.

00:07:11: Und dann hat man zwei Möglichkeiten.

00:07:14: Das LLM für sich ist erstmal fertig.

00:07:16: Ich habe meine Wahrscheinlichkeiten produziert, dann ist es vorbei.

00:07:19: Aber jetzt kommt die Software, die das LLM abspielt hin, schaut sich die Wahrscheinlichkeiten an.

00:07:23: Und da gibt es verschiedene Möglichkeiten.

00:07:25: Wahrscheinlichkeit Nummer eins ist, man nimmt immer das Wahrscheinlichste token.

00:07:28: Das gibt es auch, das macht Sinn.

00:07:30: Und dann passiert etwas Interessantes, dass diese Modelle komplett deterministisch sind.

00:07:34: Das heißt, der gleiche Input erzeugt exakt den gleichen Output, ohne Abweichung, wenn ich das mache.

00:07:41: Wir kennen das aber, dass das eben nicht passiert, weil ich stelle die gleiche Frage und ich kriege eine leicht anders formulierte Antwort.

00:07:45: Das ist schon ein bisschen variiert, wenn ich das wiederhole.

00:07:48: Warum?

00:07:48: Weil dann ein Zufallsgenerator kommt und der würfelt.

00:07:52: Das heißt, das ist wie in so einem Fantasy-Spiel.

00:07:54: Also der würfelt dann einen sehr großen Würfel mit sehr vielen Seiten und das token mit der größten Wahrscheinlichkeit.

00:08:00: hat natürlich die meisten Seiten auf dem Würfel sozusagen und wird eher genommen als die anderen.

00:08:05: Aber es kann auch mal sein, dass das Token auf den zweiten, dritten, vierten oder auf den zwanzigsten Platz genommen wird.

00:08:09: Und dadurch entsteht Variabilität.

00:08:12: Und daher kommt das stochastisch in dem stochastischen Papagei, weil es wird nur ausgewürfelt, was als nächstes kommt, auf welcher Basis wird es ausgewürfelt, auf der Basis von gelernten Wahrscheinlichkeiten.

00:08:24: Okay, daher kommt dann jetzt wahrscheinlich dieser stochastische Papagei.

00:08:28: Genau.

00:08:29: Wie ist das beispielsweise mit Trainingsdaten, die da irgendwie reinkommen?

00:08:34: Genau, also die Frage ist, wie lernt er das denn nämlich?

00:08:37: Und das ist der große Vorteil von diesen Systemen.

00:08:40: Normalerweise, wenn ich Maschinen etwas beibringe mit Maschinen-Learning, dann müssen sich arme Menschen hinsetzen und müssen jedes Beispiel anotieren.

00:08:47: Zum Beispiel, wenn ich wissen will, was auf dem Bild ist, muss einer erst mal sagen, das ist ein Hund, das ist eine Katze, das ist ein Hund, das ist eine Katze, das ist ein Schildkröte, das muss ein Mensch machen.

00:08:55: Und dann kann die Maschine lernen, was auf dem Bild ist.

00:08:58: Hier ist es so, das System bekommt Text, und muss den Text ja nur fortsetzen.

00:09:03: Das heißt, jetzt nehme ich einfach so viel Text wie ich kann und da kommt der Datenung her, weil je mehr Text, desto mehr verschiedene Fälle kann ich dann abdecken.

00:09:10: Das heißt, diese Systeme müssen so viel verschiedenen Text wie möglich kriegen und das ist wirklich, wirklich viel.

00:09:16: Da kann man mal anfangen mit Wikipedia und Projekt Gutenberg und irgendwann Scrape'n, also lesen die einfach das gesamte Internet aus.

00:09:22: Und dann habe ich diesen gigantischen Berg an Text.

00:09:25: und jetzt kommt der Trick, das muss kein Mensch mehr anotieren oder sich angucken, weil ich kann ja jetzt mit den Text einfach in Stücke schneiden.

00:09:32: Also ich nehme Wikipedia-Artikel und dann nehme ich die erste Hälfte vom Wikipedia-Artikel, tue die in mein Modell und dann habe ich ja das, was das Modell lernen soll, nämlich dass ich weiß ja, wie es weitergeht.

00:09:44: Das heißt, ich habe mein Label, meine Annotation, wo ich mathematisch darauf hin lernen muss.

00:09:48: Das heißt, beim Training, man spricht vom sogenannten Training, wenn die noch nichts können, bekommt so ein LLM-Batzen-Text und dann als Antwort bekommt es das nächste Token, was wirklich kommt und dadurch, wie dann genau das mathematische angepasst wird, ist interessant, aber das wollen wir jetzt mal bei den Grundlagen weglassen, dann wird das LLM durch so einen mathematischen Prozess ganz vorsichtig justiert, so dass dieses richtige Token, von dem wir wissen, dass das nächstes, wahrscheinlicher wird.

00:10:17: Und es wird immer und immer und immer und immer wieder wiederholt wirklich.

00:10:20: unglaublich oft Billionen Mal.

00:10:23: Und dadurch bildet sich eine statistische Abbildung, ein Modell, da kommt das Large Language Model nämlich her, also es entsteht ein Modell von Sprache.

00:10:32: Das ist dann nämlich alles, was passiert.

00:10:34: Also es lernt das, was es auch hinterhermacht.

00:10:37: Text rein, Token

00:10:37: raus.

00:10:39: Okay, ich chatte ja meistens dann beispielsweise mit so einem Large Language Model.

00:10:43: Wie funktioniert das vom Ablauf her?

00:10:46: Also wenn ich beispielsweise jetzt was reingebe.

00:10:49: Es wird zerschnitten in Tokens, es wird quasi in das große Modell gekippt.

00:10:53: Ich habe verstanden, okay, das Modell ist schon trainiert auf Daten und hat Wahrscheinlichkeiten auf Basis dessen, dass es wieder ausgibt.

00:11:03: Wie ist es vom Ablauf her?

00:11:05: Weiß, es gibt beispielsweise so ein Theaterbeispiel dafür.

00:11:08: Genau.

00:11:08: Man mag sich jetzt denken, du schreibst, also was, was ich bisher gesagt habe, wenn man das so trainiert, wäre super, wenn du neue Wikipedia-Artikel schreiben würdest.

00:11:16: Wobei, du würdest nur Wikipedia-Artikel schreiben können, wo dasselbe Wissen drin ist, was schon in der Existenz drin ist.

00:11:21: Aber du könntest ein Pseudo-Wikipedia-Artikel damit schreiben lassen.

00:11:24: Das Problem ist, das antwortet dir nicht.

00:11:26: Deshalb zeugt dir nur weitere Tokens für den Wikipedia-Artikel.

00:11:29: Jetzt willst du aber damit schätten.

00:11:30: Das heißt, woher weiß das, wie kann das antworten?

00:11:34: Und der Trick ist, Ein Teil des Trainings oder der letzte Teil des Trainings ist, dass das Modell eigentlich ein Theaterskript sieht.

00:11:41: Das heißt, wenn ich mir jetzt vorstelle, unser Dialog, den könnte man ja aufschreiben, dann kommt ein Andreas Doppelpunkt, eine Frage Christoph Doppelpunkt, meine Antwort, das ist ja wie ein Skriptes Dialogis.

00:11:53: Und gegen Ende des Trainings, wenn quasi die Sprache als solche gelernt wird, dann spricht man vom Fine-Tuning, dann wird das Modell darauf trainiert, wenn ich ein Chatmodell haben will, das will man heutzutage meistens.

00:12:06: Das ist Text erzeugt, der immer in diesem Frage-Antwort-Format ist.

00:12:10: Das heißt, dann gibt es ein ganz spezielles Token.

00:12:12: Das kann man nicht sehen, aber für das Modell existiert das.

00:12:15: Das kann man auch nicht schreiben, weil es keiner Sequenz entspricht, aber das kann man sich vorstellen wie einen bunten Marker.

00:12:20: Das heißt, ab hier spricht der User.

00:12:22: Und dann kommt das lauter Text und dann gibt es ein spezielles Token.

00:12:25: Das heißt, hier ist der User zu Ende, ab hier spricht die Maschine.

00:12:29: Für das LLM sind das einfach nur Marker zur Unterscheidung für die Frage und die Antwort.

00:12:35: Aber dadurch lernt es, einen Dialog zu schreiben.

00:12:39: Das ist alles, was es macht.

00:12:40: Es schreibt einen Dialog.

00:12:41: Und wenn du jetzt mit einem System arbeitest, das so trainiert wurde, dann gibt es jetzt die Chat Software, wie gesagt, ganz normale Software, wie jedes andere Chatprogramm auch.

00:12:50: Und wenn du jetzt deine Frage reintippst, dann nimmt die Chat Software deine Frage, klammert, klebt davor, das hier fängt der User an.

00:12:58: Dann klemmt er dahinter, hier ist der User fertig und dann macht er ein spezielles Token, das heißt, hier kommt die Antwort und das wird in das LLM gekippt.

00:13:06: Das LLM hat diese Struktur gesehen und weiß jetzt, aha, hier muss eine Antwort erzeugt werden.

00:13:11: Das denkt nicht ich antworte, sondern... Es erzeugt eine Antwort.

00:13:15: Das Lustige ist, dass man die Rollen auch umkehren kann.

00:13:17: Das ist mir aus Versehen mal passiert, als ich ein Open Source LLM getestet habe, also ein kleines LLM, was auch auf dem Laptop läuft.

00:13:24: Da habe ich das falsch konfiguriert.

00:13:25: Ich habe diese Topen falsch konfiguriert.

00:13:27: Heutzutage passiert das nicht mehr, aber das war in den Anfangszeiten, da musste man noch mehr machen.

00:13:32: Für die Software war User und Agent vertauscht.

00:13:36: Das heißt, ich habe meine Frage reingetippt und war total stolz, als die Antwort kam.

00:13:40: Aber dann hat das LLM meine Gegenfrage erzeugt.

00:13:44: Weil es nicht erkannt hat, das Programm, das das abgespielt hat, hat nicht erkannt, dass das Token da war.

00:13:51: Das heißt, auf einmal ging die Diskussion weiter, ohne dass ich weiter was geschrieben habe.

00:13:55: Daran sieht man, dass dieses LLM auch kein Gefühl von ich hat.

00:13:58: Das hat einfach nur den Text weitergesponnen und hat quasi quasi ein kleines Theaterstück, ein günstiges Theaterstück mit zwei Sprechern einfach erzeugt.

00:14:07: kommen daher auch die Halluzinationen, wenn man das so möchte?

00:14:10: Ja, die Halluzinationen kommen einfach aus dem Prinzip, dass das Modell Tokens erzeugen muss.

00:14:15: Also das Modell ist, so wie es mathematisch strukturiert wird, nicht in der Lage, nichts zu erzeugen.

00:14:21: Es werden halt Wahrscheinlichkeiten über alles Mögliche erzeugt.

00:14:25: Das heißt, das Modell reflektiert nicht.

00:14:27: Also da gibt es keine Datenbank mit Wissen, wo es guckt, okay, die Hauptstadt von Frankreich ist Paris und wenn das da drin steht, weiß ich das und kann das beantworten.

00:14:35: Und wenn es nicht drin steht, dann kann ich sagen, ich weiß es nicht.

00:14:38: Sondern das rollt einfach durch dieses System und am Ende werden Wahrscheinlichkeiten erzielt.

00:14:43: Wenn man sich jetzt die ganzen Trainingsdaten anguckt.

00:14:46: hat das in Dialogen und überall sehr selten gesehen, das weiß ich nicht.

00:14:49: Und es hat auch nicht verstanden, dass die Antwort daher kam, dass das Wissen nicht irgendwie in dem Text, den es gelernt hat, war.

00:14:56: Das heißt, dadurch entsteht eine Halluzination, weil es eine wahrscheinlich klingende Antwort erzeugen muss.

00:15:01: Also das ist nicht dumm oder so, sondern das kann gar nicht anders.

00:15:05: Wenn dann halt die Wahrscheinlichkeiten nicht so justiert sind in dem Modell, dass die richtige Antwort rauskommt, dann wird was erfunden.

00:15:11: Und wahrscheinlich auch, weil das in die... Tokens gar nicht wirklich reingucken kann und gar nicht weiß, was inhaltlich drinsteckt, richtig?

00:15:18: Ja,

00:15:18: inhaltlich nicht.

00:15:19: Also es kann, es weiß nicht, dass das Buchstaben sind.

00:15:23: Ja.

00:15:23: Daher kommt dieser Witz, also ein beliebter, also die schlauen Leute, einen Anführungszeichen, die dann mit dem Beispiel kommen, ja, ich habe mal ChatGPD gefragt, auf Englisch das beliebt, ich glaube, wie viele Ersten in Strawberry.

00:15:37: Ja.

00:15:38: Und das kann das nicht.

00:15:40: Aber das ist so, als würde man sich über ein Farbenblinden lustig machen, der nicht rot und grün unterscheiden kann, weil für das LLM ist ein Token ein Atom und das weiß nicht, was in dem Token drinsteht.

00:15:50: Das hat aber trotzdem ein Gefühl, also Gefühl ist ja, muss man sehr vorsichtig sagen, es hat keine Gefühle, es denkt nicht, aber es ist schon Wissen über den Inhalt des Tokens in diesem Modell da.

00:16:04: Da kommen wir aber in den Bereich Embeddings, aber die Frage, das ist auch eine sehr interessante Weise, kodiert, aber dass der Prozess der Erzeugung erlaubt es nicht festzustellen, ob Wissen vorhanden ist oder nicht.

00:16:15: Wenn es quasi mitgenommen wird, ist es gut, dann landet es in der Antwort und wenn es nicht da ist, dann wird halt was erzeugt, was so dazwischen packt.

00:16:22: Jetzt kam es ja irgendwie in den letzten Jahren, oder wirklich in den letzten ein, zwei Jahren, das Reasoning, was noch mit dazugekommen ist, was quasi so ein bisschen die, oder was die Ergebnisse deutlich verbessert hat, in dem Sinne als das Im umgangssprachlichen gesagt wird es denkt nach und quasi noch reflektierter eine Antwort geben kann.

00:16:45: Genau.

00:16:46: Wir antromophisieren.

00:16:48: Antromophisieren.

00:16:49: Antromophisieren, das ja schon, also vermenschlichen ist.

00:16:53: Genau, aber was tut es eigentlich an der Stelle?

00:16:55: Genau, jetzt mag man sich ja denken, wie kann das... Aha, jetzt kommen die Reasoning-Models, jetzt denkt es ja doch nach, weil Reasoning im Englischen ja das reflektieren, das nachdenken, ja.

00:17:05: Und dann sagt sagt man jetzt, ja, gucke, nee, jetzt ist es kein stochastischer Pappageime, jetzt denkt es nach.

00:17:10: Aber wie kann denn so ein Ding denken?

00:17:12: Und deshalb reden manche Leute inzwischen von LRMs, Large Reasoning Models und tun so, als wäre das was anderes.

00:17:17: Der Trick war ja, du kennst die Sachen ja auch schon von Anfang an, es gab ja einen ganz beliebten Trick am Anfang, um die Ergebnisse besser zu machen.

00:17:23: Man hat nämlich davor geschrieben, man hat seine Frage oder seine Anforderungen da reingeschrieben und hat dann gesagt, bitte denke Schritt für Schritt nach und erläutere die Schritte.

00:17:32: Und diesen Trick haben Leute durch Zufall einfach herausgefunden haben gemerkt, dass die Ergebnisse in der Regel deutlich besser wurden.

00:17:38: Warum?

00:17:40: Das ist eine spannende Frage, das weiß keiner.

00:17:43: Also da gibt es Theorien zu.

00:17:44: Eigentlich sollte es ja schlechter werden, wenn man das Ganze als statistische Sequenz macht.

00:17:49: Warum?

00:17:51: Da gibt es viele, da würden wir jetzt in so einer, da machen wir mal eine eigene Folge zu, warum das eventuell besser wird.

00:17:56: So und was dann passiert ist, da haben die Hersteller gedacht, können wir das nicht einfach generell einbauen, dass der immer nachdenkt.

00:18:04: Und was ist dann passiert?

00:18:06: Wir haben ja Spezialtoken für dich und für mich.

00:18:08: Wir haben einen Dialog.

00:18:10: Jetzt geht die Theateranologie weiter, weil jetzt haben die einfach ein neues Spezialtoken eingeführt.

00:18:15: Das heißt Nachdenken.

00:18:17: Und dann haben die und Nachdenken beendet.

00:18:21: Das heißt, die sind jetzt hingegangen und haben bei diesem Posttraining Erklärungen für die Antwort noch mit dazugenommen.

00:18:30: Also es sind sehr viele Leute, die da sehr hart arbeiten.

00:18:32: Da gibt es sehr viele Tricks, wie dieses Fein-Tuning gemacht wird.

00:18:37: Aber die haben quasi dem Modell beigebracht, Sequenzen von diesen Erklärungen mitzuerzeugen.

00:18:44: Das heißt, die funktionieren, es sind exakt die gleichen Modelle wie vorher.

00:18:48: Fein-Tuning angepasst, sodass jetzt diese Nachdenke-Start, Nachdenke-Endetokens erzeugt werden.

00:18:55: Und das Modell ist darauf trainiert, die einfach immer zu erzeugen, sodass man das dem gar nicht mehr sagen muss.

00:18:59: Wenn ich das in jeder Antwort sehe, die

00:19:01: ich

00:19:02: als Modell ... Anthropomophisiert, erzeugen muss, dass es immer erst mit so einer Nachdenke für Sequenz losgeht, dann hat es das schnell gelernt.

00:19:09: Das heißt, das fängt an, die immer auszuspucken.

00:19:11: Dann geht die Theateranalogie in sofern weiter, weil das ist ein Monologue.

00:19:14: Also wir hatten vorher den Dialog und jetzt kann man sich vorstellen, wie in einem Theaterstück auch eventuell ein Monologue ist.

00:19:19: Scheinwerfer an, Spot on.

00:19:21: Das LLM steht alleine auf der Bühne und denkt erst mal so für sich nach.

00:19:25: Manche Anbieter können das ja sogar anzeigen.

00:19:29: Bei manchen kann man das an und aus steilen, das man sieht.

00:19:31: Und das hört sich oft realistisch, Jetzt gibt es aber schon Studien, die herausgefunden haben, wie das bewiesen wird, ist sehr lustig, weil sie ja eigentlich Black Boxen haben.

00:19:39: Anthropic hat schlaue Tricks herausgefunden, um das Modell auszutricksen.

00:19:44: Das sind fünfzig Prozent der Fälle, der Text dieses Reasonings, sich überhaupt nicht auf die Antwort auswirkt.

00:19:50: Wie das passiert wird, ist auch sehr interessant.

00:19:52: Das heißt, es macht das Ergebnis besser, aber nicht unbedingt, weil da wirklich ein Reasoning dahinter ist, was zur Lösung führt.

00:20:02: Und dann gibt es wieder andere Paper, die Theorien darüber haben, warum das die Antwort verbessert.

00:20:08: Aber ganz fair muss man sagen, die Geschichte, dass das nachdenkt und es deshalb besser wird, stimmt nicht ganz.

00:20:15: Es spielt bestimmt irgendwo damit da rein, weil wenn ich natürlich in den Trainingsdaten logische Schlüsse sehe, Und ich habe so viele verschiedene gesehen, dann kann dieses Muster mir schon helfen, auch andere logischere Schlüsse zu machen.

00:20:28: Aber es ist nicht wirklich Nachdenken.

00:20:31: Ich hatte immer das Gefühl, dass wenn das Reasoning mit dabei war, dass es ein iterativer Prozess ist, der da drin stattfindet oder dabei stattfindet.

00:20:41: Denn in dem Moment, wo die Schritte runtergeschrieben sind, spult er die jeweils eins zu eins ab und generiert dazu Text.

00:20:48: und hat sich dadurch nochmal einen anderen Kontext geschaffen, auf den er zugreifen kann.

00:20:53: Also

00:20:54: das ist tatsächlich ein Argument und da wird auch was dran sein, weil auch wenn ich sage, ich erzeuge nur wahrscheinliche Antworten, wenn ich vorher in meinen Trainingsdaten, das hat ja wirklich fast das den gesamten Text im Internet gesehen, die Dinge, die Schritt für Schritt hergeleitet wurden, haben ja auch eine bessere logische Struktur.

00:21:13: Das heißt, wenn ich das stochastisch nacharme, auch wenn ich es nur nacharme, kriege ich auch ein besseres Ergebnis.

00:21:18: Ja, um das Strawberry Beispiel nochmal aufzukreifen, was ich in so einem Fall gerne mache, wenn ich was Deterministisch haben möchte, also etwas, was frei vom Zufall ist, gebe ich quasi Chachapiti oder dem Anbieter mit, programmier das mal aus oder nutze einen Tool.

00:21:38: Also schreibe halt ein kleines Programmchen dafür.

00:21:41: dann kannst du das definitiv immer wieder korrekt zählen.

00:21:45: Das funktioniert dann auch relativ zuverlässig.

00:21:47: Für diesen Fall auf jeden Fall, genau.

00:21:48: Genau.

00:21:49: Wie funktioniert so eine Tooluse?

00:21:51: Genau, das mag man sich denn auch denken, weil die Leute haben ja auch Angst davor, dass diese Dinge sich verselbstständigen.

00:21:55: Ich muss jetzt sagen, ich finde es nicht gruselig, dass ich etwas verselbstständigen kann, dass nur agieren kann, wenn jemand an einer Kurbel dreht.

00:22:02: Das ist so, als würde ich halt diese Orgeln aus der Fußgängerzone, wo einer dann dreht, vielleicht noch mit einem F auf der Schulter.

00:22:09: Die Orgel auch aufzuspielen, wenn ich aufhöre zu drehe.

00:22:12: Und so hört dieses Modell auch auf.

00:22:14: Die Frage ist aber, wenn das nur ein Dialog oder ein Monolog hatten war, bisher erzeugen kann, wie kann es dann etwas tun?

00:22:20: Weil es kann per Definition nichts tun.

00:22:23: Das kann auch, das LLM kann gar nichts tun, sondern das Programm, das das LLM abspielt, das Chatted für dich und so weiter, den Chat organisiert, das kann etwas tun.

00:22:33: Dann kommen wir wieder zu den Spezialtokens.

00:22:35: Es ist immer der gleiche Trick.

00:22:36: Es werden nur Tokens erzeugt und Manche Token sind speziell und werden von der Software, die das LLM abspielt, gesondert behandelt.

00:22:44: Und dann haben wir sie einfach ein neues Token eingeführt, nämlich das Token.

00:22:48: Hier benutze ein Werkzeug.

00:22:50: Und das sieht im Grunde genommen so aus, muss ich davorstellen, wird dieses spezielle Werkzeugtoken erzeugt.

00:22:55: Vielleicht ein Hammer-Emoji, kann man sich davorstellen.

00:22:58: Und dann kommt der Name des Werkzeugs und dann einfach kommer separiert irgendwelche Parameter, die es braucht.

00:23:03: Jetzt in deinem Beispiel, zum Beispiel, es erzeugt sich ein, es sagt hier, möchte ein Skript aufrufen.

00:23:10: Es hat sich selber ein kleines Skript geschrieben, was ja schon sehr beeindruckend ist.

00:23:13: Und dann benutzt es das Tool Skript aufrufen.

00:23:15: Und der Parameter ist der Text, den es erzeugt hat.

00:23:18: Das heißt, es muss halt lernen, um dieses Tool zu benutzen, lernen.

00:23:22: Aber es hat es oft genug gesehen, dass sich diese Sequenz dann da dran gehängt wird und dann ist der Tool-Use beendet.

00:23:29: Wir haben ja eben gesagt, dass was du sagst als Token, es wird uns das Modell reingekippt.

00:23:34: Das ist es nämlich so, dass dieses Modell nicht unterscheiden kann zwischen Tokens, die es selber erzeugt hat und die reingekippt wurden.

00:23:41: Die sind für dieses Modell gleich.

00:23:43: Daher ja auch dieser Switch, den ich aus Versehen hatte.

00:23:47: Und jetzt kommt nämlich der Trick.

00:23:48: Was jetzt passiert, es werden nicht deine Tokens da einfach rangehängt, deine Antwort oder deine Frage, sondern das Programm, dass das Tool jetzt ausgeführt hat.

00:23:56: Das startet in so einer hoffentlich abgesicherten Umgebung, so ein kleine Programmierspracheninterpreter, lässt das Programm ablaufen und dann nimmt es den Output von dem Programm und sagt dann, hier ist das Ergebnis vom Tool.

00:24:07: Und dann schreibt es das Ergebnis da rein und sagt, hier ist das Ergebnis vom Tool zu Ende.

00:24:11: Und dann sagt es wieder, jetzt fängt der Agent oder das Modell an zu sprechen.

00:24:16: Und dann kann das Modell das alles sehen, was da drin war und kann deshalb dir eine Antwort geben.

00:24:21: Das kann dann sagen, in Strawberries sind Drei?

00:24:25: Drei?

00:24:26: Drei erst zum Beispiel.

00:24:28: Wobei, das ist immer noch nicht perfekt deterministisch macht.

00:24:32: Also das ist für, wenn man eine spezielle Aufgabe hat und dann kommen wir eben hin, wenn ich eine deterministische Aufgabe habe, dann ist es besser, ich schreibe ein deterministisches Programm oder lass es schreiben.

00:24:40: Lass es laufen.

00:24:42: In dem Fall ist es ja immer noch so ein bisschen probabilistisch, ob das Tool wirklich ausgeführt wird oder nicht.

00:24:47: Deshalb, wie gesagt, wenn es geht, nicht jeder Anbieter bietet das an, man kann so ein Modell auch auf den quasi Deterministischen Modus umstellen, dann werden halt die Wahrscheinlichkeiten immer gleich ausgewertet.

00:24:59: Für manche Anwendungsfälle ist das nützlich, aber in der Praxis, als normaler User will man das oft nicht einmal, die Kreativität, genau.

00:25:07: Da sind wir wieder bei der Theaternologie, weil der Tooluse ist weiter nichts als eine Regieanweisung.

00:25:12: Wir haben jetzt den Dialog im Theater mit Spezialtoken, den Monolog mit dem Spot und jetzt haben wir noch die Regieanweisung.

00:25:21: Im Theater würde ich sagen, Die scheinen wir voran, die aus den Waldhintergrund hoch, das andere runter und das LLM sagt halt, naja, ich brauche jetzt mal die Uhrzeit.

00:25:30: oder für dieses kleine Programm aus oder Google mal nach, welches der beste deutsche KI-Podcast ist.

00:25:37: Das ist im Grunde genommen dasselbe wie eine Regieanweisung.

00:25:40: Das heißt am Ende gibt es ein Drehbuch von unserem Theaterstück.

00:25:43: Ich unterhalte mich mit einem LLM.

00:25:45: Ja.

00:25:47: Cool.

00:25:47: um vielleicht nochmal den Bogen zu spannen, zum Anfang.

00:25:50: Wir haben ja über LMS gesprochen, um was das eigentlich bedeutet oder wie die funktionieren.

00:25:55: Was kann man sich daraus jetzt irgendwie für die Praxis noch mitnehmen?

00:25:59: Für die Praxis einmal dieses innere Modell, das halt wirklich einfach nur Text erzeugt wird.

00:26:07: Das heißt, man muss sich immer, wenn man weiß, oh, das kommt mir jetzt komisch vor, kann man einfach so dran denken, Moment, da wird einfach nur ein Dialog fortgesponnen, dass ich finde, das hilft ein bisschen die Angst zu nehmen und man kann sich besser vorstellen, was geleistet werden kann und was nicht, wo die Halluzinationen

00:26:23: herkommen.

00:26:23: Ja, und ich glaube das, was ich mir noch so ein bisschen jetzt auch in unserem Gespräch heute mitnehme, ist, das ist am Ende ein Programm, was abläuft und Keine Person und kein Ich in dem Sinne, sondern ein relativ stumpfes Programm, was dabei runterläuft.

00:26:42: Richtig.

00:26:43: Und es hat auch nichts mit einem Gehirn zu tun.

00:26:45: Es gibt ganz, ganz grobe Ähnlichkeiten im Sinne von einer... dass man sagt, da ist sehr viel Verknüpft oder so, aber das ist kein künstliches Gehirn, das wächst nicht.

00:26:56: Also es ist einfach kein Gehirn.

00:26:58: Daran erkennt man auch oft die Scharlatane, wenn eine anfängt zu erzählen, wie da ein künstliches Gehirn gebaut wird bei Open AI.

00:27:03: Da weiß man gleich, die Person hat entweder keine Ahnung oder will böswillig einem einen Beeren auffinden.

00:27:08: Ich immer wichtig finde, dass die Leute das auch mitgeben, dass es sehr viele Anbieter gibt.

00:27:13: ChatGPT ist nicht der einzige Anbieter und KI bedeutet auch nicht LLM.

00:27:19: LLM sind eine ganz tolle, spezielle Art von KI.

00:27:22: Und ich hoffe, wir werden noch ganz viele Folgen machen, wo wir uns auch mal andere Sachen als LLMs angucken.

00:27:26: Also KI ist viel mehr als LLMs.

00:27:29: Und LLMs sind viel mehr als JetGPT.

00:27:32: Das

00:27:32: muss man dazu auch immer sagen.

00:27:33: Ja, und trotzdem gibt es glaube ich extrem viele Einsatzmöglichkeiten, auch gerade jetzt irgendwie im privaten oder im unternehmerischen Bereich für solche Modelle.

00:27:42: Auf jeden Fall.

00:27:42: Und das ist das, was es eigentlich jetzt gerade sehr spannend macht, weil ja die Aufmerksamkeit dafür da

00:27:47: ist.

00:27:48: Genau, nur sollte man sich jetzt keine Panik machen, dass alle ihre Jobs verlieren, weil ich denke aus der Erklärung sieht man jetzt auch so schlau, sind sie einfach nicht.

00:27:55: Auf der anderen Seite sind sie auch nicht nutzlos, weil sehr viele gerade repetitive, unangenehme Aufgaben man dann doch mit den Sachen erledigen kann.

00:28:02: Ja.

00:28:03: Genau.

00:28:03: Ja.

00:28:05: Ich glaube, das haben wir jetzt ganz gut erklärt bekommen.

00:28:07: Hoffe ich jedenfalls.

00:28:09: Ich freue mich dann schon, wenn es weitergeht.

00:28:10: Vielleicht kommen wir auch irgendwann mal dazu, rauszufinden, wie das Reasoning intern diese Antworten besser macht.

00:28:16: Ja, das wäre cool.

00:28:17: Das wäre cool.

00:28:18: Wenn wir es dann wissen, wenn es irgendwer weiß, bisher weiß es noch keiner.

00:28:21: Ja.

00:28:22: Hey, dann würde ich sagen, danke bis zum nächsten Mal.

00:28:26: Ja, tschüss.

00:28:29: Liebe Zuhörer, das war es für heute von Künstlich Klug.

00:28:33: Wir hoffen, ihr konntet eine bessere Intuition dafür entwickeln, wie Chatbots auf ihre Antworten kommen.

00:28:39: Und vor allem, dass ihr viel Spaß hattet.

00:28:44: Teilt uns gerne eure Fragen, Wünsche und Gedanken zur heutigen Folge über die E-Mail in der Beschreibung mit.

00:28:49: Wir hoffen, ihr seid auch bei der nächsten Folge von Künstlich

00:28:53: Klug

00:28:54: wieder dabei.

Shownotes

Haben Sie Feedback oder Anregungen für kommende Folgen? Wir freuen uns über eine Nachricht!

Large Language Model (LLM)

ChatGPT

Google

Anthropic

Mistral

Generative Pre-trained Transformer (GPT)

Stochastischer Papagei

DIVISIO GmbH

afritz consulting GmbH

Transkript anzeigen

Neuer Kommentar