LLMs ausprobieren - so klappt der Einstieg wirklich
Shownotes
Wir nehmen dir die Hemmschwelle beim Einstieg in die Welt der KI-Sprachmodelle. In dieser Folge zeigen wir, wie du LLMs wie ChatGPT, Claude, Gemini oder Mistral einfach ausprobieren kannst - und worauf du bei Anbietern, Accounts und Datenschutz achten solltest.
Wir sprechen offen über Unterschiede zwischen kostenlosen und bezahlten Accounts, erklären Begriffe wie Kontextfenster und Reasoning, teilen praktische Tipps aus unserem KI-Alltag und verraten, wie du die besten Modelle für deinen Zweck findest. Hör rein und erfahre, warum der erste Schritt oft der wichtigste ist – und wie einfach es sein kann, mit Künstlicher Intelligenz zu experimentieren.
LLM Arena (Chatbot Arena)
OpenAI
Anthropic (Claude)
Google Gemini
https://deepmind.google/technologies/gemini/
DeepSeek
Meta Llama
Mistral AI
DIVISIO
afritz consulting
Transkript anzeigen
00:00:00: Das ist ja alles ganz schön mit dieser KI.
00:00:02: Aber wie probiere ich so was aus?
00:00:04: Wo gibt es das zu kaufen?
00:00:06: Was kostet das?
00:00:08: Heute wollen wir versuchen, die Hemmschwelle beim ersten Einsatz von LLMs zu reduzieren und ein paar Hinweise zu geben, welche Alternativen es gibt, falls ihr mal Absalz von OpenAI Erfahrung sammeln wollt.
00:00:22: Herzlich willkommen zu einer neuen Folge vom Künstlich Klug.
00:00:26: dem KI-Podcast ohne Hype, dafür mit Fakten und Begeisterung von Afritz, Consulting und Divisio.
00:00:34: Hier am Gereon in Köln, wie immer, präsentiert von Andreas Fritz und Christopher Fenkelmann.
00:00:41: Ich weiß nicht, ob ich beim letzten Mal hallo gesagt habe.
00:00:43: Hast du beim letzten Mal hallo gesagt?
00:00:44: Ich
00:00:44: weiß es auch nicht mehr.
00:00:45: Ich sage jetzt mal hallo.
00:00:47: Hallo bei der zweiten Folge, zur zweiten Folge von Künstlich Klug, unserem KI-Podcast.
00:00:53: Beim letzten Mal haben wir uns mal Gedanken darüber gemacht, wie ein LLM, wie ChatGPT, funktioniert.
00:01:01: Und dann ist uns eingefallen, es wäre vielleicht ganz gut, wenn wir mal kurz erklären, wie man sowas überhaupt, also wie komme ich da dran?
00:01:06: Wie benutze ich das?
00:01:08: Du benutzt ja viel mehr verschiedene LLMs als ich.
00:01:11: Du probierst dir wirklich jedes Spielzeug sofort aus, was ja sehr praktisch ist, weil ich das dann nicht machen muss.
00:01:17: Ich kann nicht einfach fragen, ist das gut oder schlecht.
00:01:20: Da wäre jetzt meine Frage, wenn jetzt also jemand hier zugehört hat, hat er gesagt, okay, jetzt muss ich mir das auch endlich mal antun.
00:01:27: Oder jemand hat beim letzten Mal gelernt, aha, es gibt noch mehr als Chatshipity.
00:01:33: Was für Anbieter gibt es denn da?
00:01:35: Also wie gehe ich daran?
00:01:36: Was muss ich wissen?
00:01:37: Und ja, wie probiere ich Chatshipity oder einen Konkurrenten aus?
00:01:41: Ja, genau.
00:01:42: Also man muss vielleicht einmal ein bisschen abgrenzen.
00:01:45: Es gibt viele große Anbieter und ganz viele kleine Anbieter.
00:01:50: Wenn man die großen im Blick behalten möchte, ist das OpenAI mit den JGBT-Modellen.
00:01:56: Es ist das Anthropic mit den Modellen, die Cloud heißen bei denen.
00:02:00: Es ist das Google mit den Gemini-Modellen.
00:02:03: Dann gibt es noch DeepSeq als relativ großen Anbieter und den Modellen, die die haben.
00:02:12: Ansonsten gibt es quasi noch ein relativ bekanntes von Meta, das O-Lama oder das Lama-Modell.
00:02:18: Und Mestral, der einzige europäische Anbieter, der ein kompetitives Modell zu bieten hat.
00:02:24: Denn das muss man sagen, also was du bisher aufgezählt hast, war USA bis auf Diebzig, diese nach China.
00:02:29: Ja, korrekt, korrekt.
00:02:31: Also das sind so die... ... großen Anbieter, die man da ... ... häufig sieht und ... ... wie Sie mal die meisten verwenden.
00:02:39: Genau.
00:02:40: Und die meisten ... ... dieser Anbieter haben ... ... mehrere Modelle im Magengebot.
00:02:44: Also nicht nur ein Modell, ... ... sondern einfach mehrere Modelle.
00:02:46: Das war am Anfang auch ein bisschen einfacher.
00:02:48: Mittlerweile wird man ... ... erschlagen ... ... an einer Auswahl, die man irgendwie treffen kann.
00:02:53: Und ich mache mir häufig den Spaß ... ... um eine gute Auswahl für mich, ... ... für manche Anwendungszwecke zu finden.
00:02:59: Ich nutze ... ... Chat-Fenster oder Software ... ... um mehrere Modelle gleichzeitig auszuprobieren ... ... oder locken mich einfach bei mehreren Modellen ein, ... ... gib den selben Prompt, also den selben Befehl ... ... bei allen ein ... ... und guck mal sowas, was das Ergebnis macht ... ... und dann sehe ich quasi, welches Modell ich ... ... lieber benutzen möchte.
00:03:18: Das hast du gesagt, du lockst dich da ein, vielleicht ... ... um wirklich ... auch jeden abzuholen, damit sich da keiner überfordert fühlt.
00:03:26: Das heißt also, da registriere ich mich wie bei jeder anderen Webseite, wie bei einem Webshop auch.
00:03:31: Das heißt also, wenn ich jetzt Entropic ausprobieren will, die Links zu diesen unersprechlichen Namen, die packen wir dann in die Show Notes.
00:03:38: Ich will das jetzt gar nicht buchstabieren.
00:03:40: Aber wenn ich Entropic aus... probieren will, dann gehe ich auf die einen Webseite, mach mir da einen Account und in der Regel chatte ich erstmal auf der Webseite des Anbieters.
00:03:50: in einem Chatfenster oder manche haben auch Apps, glaube ich, kann man sich dann runterladen.
00:03:55: Genau, also das ist so der gängige Weg und... Ansonsten kann man sich halt eigene Software runterladen oder im Web nochmal eine Oberfläche nutzen, wo man das Ganze über einen Api-Key einbindet.
00:04:09: Also sprich über eine Schnittstelle, die man dort nutzt und man generiert quasi, wenn man sich einen Zugang geholt hat, einen Schlüssel, einen eindeutigen Schlüssel, das mein Zugang ist und den kann man dann quasi in anderen Programmen mit einbinden und dann kann ich das Modell auch dort nutzen.
00:04:29: Das hört sich aber eher etwas an, dass Software-Entwickler erstmal ausprobieren sollten, weil man kriegt diese AP Keys nicht mit den normalen Zugängen.
00:04:38: Da braucht man dann einen anderen Account für, richtig?
00:04:40: Also so kenne ich das... Teilweise
00:04:42: ja, teilweise nein.
00:04:43: Also teilweise kann man sich die AP Keys auch so holen,
00:04:46: tatsächlich.
00:04:48: Wer gibt denn AP Keys mit einem Personal Account raus?
00:04:50: Meinenfalls nach Anthropic.
00:04:54: Also bevor wir hier unten erzählen, muss ich nochmal reingucken, aber man kann sich auch so Apikis generieren, bei Chatchi BT beziehungsweise Open My Eye braucht man quasi Atmenkontrollen
00:05:05: dran.
00:05:06: Das heißt, also manche haben verschiedene Arten, das heißt man kann sie als Privatnotser oder als Unternehmen registrieren und dann gibt es auch verschiedene Arten von Accounts.
00:05:16: Wie unterscheiden die sich denn jetzt noch außer die Tatsache, das ist natürlich als Unternehmen, da muss ich meine Umsatzsteuer-ID eingeben.
00:05:22: Krieg halt eine Rechnung, wenn ich es vielleicht absetzen kann und so.
00:05:25: Aber was ist denn denn noch die Unterschiede zwischen den Privataccounts und den Firmenaccount?
00:05:29: Also grundsätzlich die meisten Anbieter haben kostenfreien Accounts?
00:05:34: Ja, das ist ja super.
00:05:34: Da benutze ich doch nur den.
00:05:35: Warum sollte ich den denn nicht benutzen?
00:05:37: Genau, dort hat man aber meistens nicht die neuesten Modelle dabei und ein sehr eingeschränktes Kontextfenster.
00:05:43: Was ist ein Kontextfenster?
00:05:44: Kontextfenster bedeutet Ich kann nur eine gewisse Menge an Text und damit auch eine gewisse Menge an Tokens eingeben, die er überhaupt verarbeiten kann.
00:05:53: Und das ist dann sehr eingeschränkt.
00:05:56: Ich mache ein Beispiel, wenn das sehr eingeschränkt ist und ich chatte mit ihm und gebe ihm am Anfang irgendwas mit.
00:06:03: Beispielsweise, mein Geburtstag ist am ... Du
00:06:06: musst mir überlegen, wann ist er?
00:06:08: Genau, ist an irgendeinem Datum.
00:06:11: Und ... chatte mit ihm weiter und es wird mehr Text generiert und frag ihn irgendwann hinterher, wann ist mein Geburtstag?
00:06:18: Dann weiß er das im Zweifel gar nicht mehr, weil das Kontextfenster schon erschöpft ist und ich zwischendurch so viel Text gebraucht habe.
00:06:25: Das bedeutet, wie gesagt, also bei den kostenfreien Accounts ist das Kontextfenster sehr klein und ich habe in der Regel ältere Modelle als wie in einem Plus-Account oder einem Pro-Account, wie auch immer die das nennen.
00:06:41: Genau, dann haben die meistens so eine Stufe drin, ... ... zwanzig Dollar oder irgendwie sowas ... ... zwanzig Euro ... ... um die Modelle wirklich gut nutzen zu können.
00:06:50: Also dann habe ich die Auswahl der Modelle, ... ... habe große Kontextfans, etc.
00:06:53: ... ... und dann haben die meisten Anbieter ... ... nochmal irgendwie Unternehmensaccounts ... ... oder ... ... ja, höherwertiger Accounts.
00:07:02: Ich weiß, ob mehr er hat, ... ... also nach ein, zwei Jahre nach Einführung.
00:07:08: ... auf die Webseite mitgepackt, dann waren ... ... ein zweihundert Dollar Account mit dabei, mit einem ... ... extrem neuen Modell, einem extrem großen ... ... Kontextfenster, das konnten dann nur diese Leute nutzen.
00:07:20: Gibt ja noch einen Aspekt bei den kostenlosen ... ... Accounts, denn ich denke der Datenschutz ist da ... ... nicht ganz unerheblich, gerade bei den amerikanischen ... ... und chinesischen Anbietern.
00:07:30: Würde ich mir zweimal überlegen, was ich in den öffentlichen Account reinschreibe, weil, also zumindest bei OpenAir weiß ich, der kostenlose Account, die machen mit den Daten mehr oder weniger, was sie wollen.
00:07:41: Bei den anderen Accountstufen behaupten sie zumindest, dass sie es nicht tun,
00:07:46: ob
00:07:46: man das dann glaubt oder nicht.
00:07:49: muss man schauen.
00:07:50: Würde ich mich wahrscheinlich bei keinem Anbieter drauf verlassen.
00:07:52: Wir machen glaube ich die Folge nochmal separat, wo wir über die lokale Anwendung von solchen Modellen sprechen und ich glaube so kann man sie am ersten Tag schutzkonform nutzen.
00:08:05: Man hat zumindest irgendwo, wenn man die Account-Bestimmung genau liest, kann man auf jeden Fall auf etwas verweisen, wobei ich sagen muss.
00:08:13: Ich persönlich traue zumindest Mistral an der Stelle als europäischen Anbieter.
00:08:18: Die sind ja auch in Frankreich firmiert.
00:08:20: Die können sich es nicht leisten, glaube ich, wirklich zu behaupten, die Daten nicht zu nutzen, ist dann trotzdem zu tun.
00:08:27: Bei den Amerikanern ist es ja jetzt zumindest so, dass OpenAI von einem Gericht verpflichtet worden ist, die Daten aufzuheben.
00:08:33: Das ist ja das jüngste Urteil, das kommt aus der Klage der New York Times.
00:08:38: Im Zuge der Beweisaufnahme hat jetzt das Gericht OpenAI untersagt, die Daten zu löschen.
00:08:44: Das heißt, da sieht man das schon mal, die können sagen, was sie wollen, aber das amerikanische Gericht sagt, nee, das wird nicht gelöscht.
00:08:49: Das heißt, was man im Moment zumindest über die normalen Chat-Accounts, ob das über die AP-Accounts auch so läuft, weiß ich nicht, eingibt, wird erst mal auf unbestimmte Zeit dort gespeichert und wird dann eventuell auch vor Gericht eingesehen.
00:09:02: Das muss man sich halt dann immer überlegen.
00:09:04: Aber wie du sagtest, es gibt, wenn man selbst misstral nicht trauen möchte, gibt es ja immer noch die lokalen Modelle, die man auf seinem Laptop laufen lassen kann.
00:09:13: Aber da sprechen wir vielleicht meine anderen Folge drüber, weil da muss man noch ein paar mehr Clipzüge machen.
00:09:18: Also was wir jetzt haben ist, ich gehe auf eine Webseite von einem Anbieter, die großen führen wir dann in den Show Notes auf.
00:09:25: Ich registre mich.
00:09:28: Wenn ich zumindest dann ein bisschen was bezahle, habe ich eine gewisse Garantie, dass vielleicht nicht alles gleich verwendet wird.
00:09:35: Aber du sagtest, ich habe jetzt verschiedene Modelle.
00:09:38: Und du vergleichst die einfach, aber was sind denn so für Kriterien für die unterschiedlichen Arten von Modellen?
00:09:43: Also, worin unterscheiden diese?
00:09:46: Genau, also es gibt häufig einen grundlegenden Unterschied zwischen Geschwindigkeit, Kontextgröße, Reasoning oder nicht.
00:09:54: Reasoning, also sprich, worüber wir beim letzten Mal gesprochen haben, ob die Schritte es vorher runterzubrechen und dann in Einzelteilen zu beantworten, ob das schon mit eingebaut ist oder nicht.
00:10:07: Das sind so die wesentlichen Unterschiede.
00:10:09: Ich mache mal ein Beispiel bei ChatGPT.
00:10:12: Es ist vier O-Beispels, weil das nicht Reasoning-Modell und das O-Vier das Reasoning-Modell ist.
00:10:18: Die
00:10:18: Namen sind ja auch wirklich absolut unverständlich.
00:10:21: Also selbst ich, der das täglich beruflich macht, ich muss jedes Mal die Webseite aufmachen, um rauszufinden, was jetzt O-Drei, drei O, vier O, vier O-Mini.
00:10:30: Also die Namensgebung ist bei denen auf jeden Fall verbesserungswürdig.
00:10:35: Muss man gut dran bleiben, das stimmt.
00:10:37: Für mich ist es ganz simpel, einfach Anbietername und Model List zu googeln.
00:10:43: ganz altmodisch zu googeln, weil da bekommt man die Webseite mit den neuesten Sachen, denn die Modelle wissen teilweise selber nicht, wer sie sind und was der Cut-off ist.
00:10:51: Das heißt, in der regelweisen Modell, wenn man es fragt, welches es ist, aber ich habe es auch schon erlebt, dass ein Sonnet-Modell, das ist eine Klasse von Modellen bei Entropic, behauptet hat, es wäre ein Opus-Modell.
00:11:03: Das heißt, die wissen das selber nicht so genau, da würde ich dann lieber immer mal auf der Webseite nachgucken, was die können.
00:11:09: Stelle ich mich mal ganz dumm und sage, na ja, wenn Reasoning bessere Ergebnisse liefert.
00:11:12: ... warum benutze ich nicht immer Reasoning?
00:11:15: Genau ... ... ich fühle mich persönlich ... ... nur zu häufig Reasoning, ... ... einfach weil ich ... ... dann einen hohen Qualitätsanspruch ... ... an die Ergebnisse habe ... ... und im Zweifel auch etwas länger warten ... ... kann oder möchte.
00:11:26: Ja, das
00:11:26: ist der Hauptgrund, die Wartezeit.
00:11:28: Genau.
00:11:28: Also ich habe jetzt, ... ... ich muss gerade etwas sehr kniffliges machen, ... ... wo ich O-III Pro, das allergrößte benutze ... ... und der überlegt auch schon mal fünf Minuten.
00:11:36: Ja,
00:11:36: genau.
00:11:37: So, das ist dann natürlich ... ... kein knackiger Dialog mehr, ne?
00:11:39: Nein, nein, das ist richtig.
00:11:41: Wenn ich aber ... Wie gesagt, in hoher Qualität bei den Ergebnissen haben möchte und auch mir vorher beispielsweise prompt Gedanken mache, wie soll das Ergebnis aussehen, das gut beschreibe.
00:11:56: Viel Kontext mit dir, ich glaube, dann ist das gut.
00:11:58: Das zweite ist natürlich, du hast jetzt vorhin von den... Api-Kies gesprochen, also von den Schlüsseln, dort wird Protokten abgerechnet.
00:12:08: Wie ich kein Reasoning-Modell haben, weil die nicht sichtbaren inneren Monologe werden trotzdem abgerechnet, auch wenn ich
00:12:14: das Ergebnis nicht bekomme.
00:12:15: Genau, also die Reasoning-Modelle sind in der Regel teurer, wenn man Protokten bezahlt, also über den Api-Kie, wenn man das Ganze einfach nur in dem ... ... doller monatlichen Abo-Modell hat, merkt man das nicht sofort.
00:12:30: Da sind natürlich die extrem teuren Modelle auch häufig eingeschränkt.
00:12:34: Genau
00:12:35: aus dem Grund, weil die ja viel mehr Rechenpower dann sehen.
00:12:37: Das heißt also, du sagst, wenn ich erstmal, wenn ich eine Flatrate im Grunde genommen habe, einen fixen monatlichen Betrag, ... Nämlich so lange ich kann die großen Reasoning-Modelle.
00:12:47: Und
00:12:47: die Zeit habe.
00:12:47: Genau.
00:12:48: Die Zeit habe.
00:12:49: Beim Apike, und da gebe ich dir dann recht, da werden dann die kleinen Modelle wirklich interessant, weil ich rechne pro Token ab.
00:12:56: Und ich sehe es immer ja mehr von der Programmier-Seite, weil ich mehr Software damit auch programmiere.
00:13:01: Da merke ich, dass dann also A die Geschwindigkeit, kleinere Modelle sind.
00:13:05: dann nochmal, auch ohne Reasoning, sind die kleineren Modelle nochmal viel schneller als die größeren.
00:13:10: Und natürlich auch billiger, weil nicht nur die Anzahl der Tokens ist wichtig.
00:13:13: Je größer das Modell, desto teurer sind die Tokens.
00:13:17: Einfaches Beispiel, wenn ich beispielsweise eine Excel-Liste habe und ganz viele Zahlen durchgehen möchte und immer irgendwas klassifizieren möchte.
00:13:24: Oh ja,
00:13:25: erzähl mal, da hattest du doch dieses wundere Beispiel vielleicht für den Zuhörer.
00:13:30: Andreas war ganz begeistert von einer neuen, tollen KI-Software, die Excel-Cheats für dich analysiert hat.
00:13:37: Das war toll.
00:13:38: Ich glaube, ich kann mich noch erinnern, weil ich es dir ungefähr zehnmal gesagt habe.
00:13:42: wo du hast geschafft, hundert Euro in fünf Minuten zu verbrennen.
00:13:46: Das ging schnell, genau.
00:13:47: Das ging schnell.
00:13:48: Das war eine Menge Tokens in dem Ex-Schied.
00:13:51: Aber das
00:13:52: Ergebnis war deutlich besser als ... ... als damals auch ohne.
00:13:55: Also man muss dazu sagen, ... ... das ist ein Add-in Plug-in, ... ... was man in Excel oder in Word nutzen kann.
00:14:02: Ich habe es halt dazu genutzt, ... ... um eine große Liste ... ... mit Einträgen zu klassifizieren.
00:14:08: So und ... ... habe das zum ersten Mal genutzt ... ... und habe aber am Anfang nicht darauf geachtet, ... ... welches Modell ich dort eingestellt habe.
00:14:14: Ich habe die ersten drei Einträge ausprobiert, ... ... habe gesehen, okay, es funktioniert ... ... und habe das dann mal für sechs Tausend gemacht.
00:14:21: Und ... ... dann waren das sehr, sehr viele aufgefunden.
00:14:23: Das ist
00:14:24: eine wertvolle Lektion für dich und natürlich auch für unsere Zuhörer.
00:14:29: Das heißt also, wenn man... Gründung genommen ist es so, wenn man eine Flatrate hat, dann kann das nicht passieren.
00:14:34: Die normalen Personal-Accounts, da passiert das nicht.
00:14:36: Bei keinem Anbieter.
00:14:37: so viel, ich weiß.
00:14:38: Wenn man anfängt, Apikis zu erzeugen, sollte man sich darüber im Klaren sein.
00:14:42: Das ist gefährlich werden kann.
00:14:44: Kleiner Tipp, das mache ich immer.
00:14:45: Ich mache oft Apikis für Workshops.
00:14:47: Also ich gebe halt Workshops für verschiedene Leute zu diesen Themen.
00:14:51: Und dann erzeug ich halt immer einen Apikis für einen Workshop.
00:14:54: Und die meisten Anbieter erlauben es für einen Apikin-Limit zu setzen.
00:14:58: Das mache ich natürlich immer vor dem Workshop, weil ich den Kieler natürlich Dutzend von Leuten kostenlos zugänglich mache.
00:15:05: Genau.
00:15:05: Auch wie gesagt, die Apikis haben ihre Vorteile oder ihre Vorzüge.
00:15:09: ... einmal um die Abrechnung ... ... im Blick zu behalten ... ... und einen Griff zu behalten ... ... und gleichzeitig auch ... ... ja, wie gesagt ... ... verschiedenste Modelle ... ... im Zugriff zu haben.
00:15:19: Also ... ... ob ich jetzt ... ... zwanzig Dollar ... ... zehnmal bezahle ... ... oder ... ... ob ich einfach die Apikis nutze ... ... und ab und zu mal was prompt habe ... ... bei allen gleichzeitig ... ... macht natürlich einen Preis Unterschied.
00:15:29: Aber
00:15:29: wie gesagt Apikis ... ... das ist dann für Fortgeschrittene Nutzer ... ... die auch selber vielleicht mal ... ... ein bisschen programmieren können ... ... allen anderen.
00:15:36: Ich würde einen ... kleinen Bezahl-Account empfehlen, weil bei den kostenlosen kann man hundertprozent sicher sein, dass die Daten abgepumpt werden.
00:15:43: Bei den etwas günstigeren hat man zumindest einen Gewissenschutz.
00:15:47: Wie gesagt, Mistral hostet das Ganze in Europa und ist nur im europäischen Firma, die dem recht strengten europäischen Datenschutz unterliegt.
00:15:54: Von daher glaube ich, dass wer da ein bisschen vorsichtiger sein möchte, kann die ruhig mal ausprobieren.
00:16:00: Und dann ist aber die Frage, jetzt sagst du, okay, Du hast bestimmt bei allen einen Account, das gönnst du dir.
00:16:06: Ich habe bei fast allen einen Account, das muss ich mir gönnen.
00:16:09: Jetzt ist aber die Frage, wenn man nicht einfach mal jedes Mal sechs Stück parallel jede Woche ausprobieren möchte, um zu wissen, wer diese Woche besser ist.
00:16:16: Wo kann ich denn mal gucken, wie gut an diese Modelle im Vergleich sind, wenn ich nicht Stundenzeit habe, das selber rauszufinden?
00:16:21: Ja, genau.
00:16:22: Also... Es ändert sich häufig, weil auch die Modelle immer wieder erneuert werden, auch Dinge, die man im Hintergrund gar nicht mitbekommt, erneuern sich.
00:16:32: Was man nutzen kann, ist die LM Arena, die hast du mir mal irgendwann gezeigt, weil dort die verschiedenen Modelle quasi aufgelistet sind, auch ganz, ganz, ganz viele Modelle, die jetzt nicht Mainstream sind.
00:16:43: Und dort gibt es sogenannte Scores, die glaube ich aus dem Schach.
00:16:48: Genau,
00:16:49: den Elo-Score, also bei der LM Arena, das ist immer mein erster Go-To, weil ich halt nicht die Zeit habe, wirklich den ganzen Tag das nur auszuprobieren, so wie du.
00:16:58: Was machst du eigentlich?
00:17:01: Das heißt, bei der LM Arena, wer auch wirklich mal anonym das schnell mal testen möchte, da kann man die Modelle nämlich kostenlos nutzen.
00:17:09: Man kann also einen kurzen Chat führen und man bekommt, und das finde ich so toll, man bekommt ein unbekanntes Modell.
00:17:15: Das heißt, die LM Arena hat ein Chatfenster und man kann eine Frage stellen und bekommt zwei Antworten von zwei Modellen und man weiß nicht, welche das sind und man bewertet hinterher, welche man besser findet.
00:17:27: Und dadurch bekommen die Modelle Punkte.
00:17:31: Und das Punktevergabesystem funktioniert wie beim Schach.
00:17:33: Das ist der sogenannte E-Low-Score.
00:17:35: Das heißt, beim Schach ist es ja so, ich bin ein denkbar schlechter Schachspieler, wenn ich Kasparov schlage.
00:17:42: dann bekomme ich eine Menge Elopunkte.
00:17:45: Wenn der mich schlägt, bekommt er wahrscheinlich gar keinen.
00:17:48: Und so funktioniert das bei den Modellen auch.
00:17:50: Also Modelle, die bereits einen sehr hohen Score haben.
00:17:53: Wenn dann ein neues Modell kommt, das schlägt das, dann bekomme ich es auf einen Schlag sehr viele Punkte.
00:17:56: Und so pendelt sich das aus.
00:17:59: Und da kann man dann sehen, also wenn man A, kann man es einfach mal ausprobieren, aber man kann nicht gezielt Modelle testen, weil man weiß ja nicht, wer ich immer bekommt.
00:18:06: Aber aus diesem Eloscore, bei dem man dann helfen kann, die zu ermitteln, daraus werden dann sogenannte Boards gemacht, quasi Hitparaden.
00:18:14: Und es gibt eine allgemeine Hitparade, aber es gibt die Hitparaden zum Beispiel auch nach Sprache oder nach Anwendungsfall, weil sie ja praktisch finde, weil zum Beispiel manche Modelle besser Deutsch können als andere.
00:18:23: Und dann kann man sich einfach den E-Low-Score angucken.
00:18:26: Dann bekommt man ein Gefühl dafür.
00:18:27: Dann sieht man dann halt schon, dass die großen Anbieter stark dominieren.
00:18:30: Also die Top-Ten sind immer OpenAI, Google, Entropic, Mistralstöste auch schon rein in diese Top-Ten teilweise.
00:18:38: Aber man sieht auch dann zum Beispiel, dass es auch sehr gute Modelle gibt, wenn man zum Beispiel Geld sparen muss, kann man dann schauen, was gibt es denn bei Google gerade, was günstig ist, und dann kann man halt schauen, wie die günstigeren Modelle auch performen.
00:18:51: Und wenn man halt wirklich einfach gar keine Ahnung hat, man sagt mal, okay, jetzt mache ich mir mal so ein Mistrale-Count, was funktioniert denn da, dann kann ich ins Leaderboard gucken, gucken, ob ich das beste Mistralmodell oder das beste OpenAir-Ei-Modell.
00:19:02: Oder eine Kerze, wenn ich ... beispielsweise mein Anwendungsfall ... ... schon sehr konkret habe, ... ... beispielsweise Softwareentwicklung ... ... oder was anderes ... ... kann danach filtern, ... ... das ist die eine Möglichkeit, ... ... die andere Möglichkeit ist, ... ... dass selbst eben ... ... günstige, kostenfrei teilweise Open Source Modelle ... ... gar nicht so weit weg sind von den Profimodellen.
00:19:22: Genau.
00:19:23: Und das ist tatsächlich sehr interessant, ... ... wenn man das später mal irgendwie ... ... im Unternehmen einsetzen möchte, ... ... das zu integrieren, ... ... ist viel leichter als ... ... oder Datenschutzkonformer.
00:19:33: Wir müssen unbedingt die Folge ... ... über lokale Modelle machen, ... ... aber wenn man dann dahin geht, ... ... dass man es wirklich im Unternehmen einsetzt, ... ... dann muss man über die Open Source Modelle nachdenken, ... ... weil da gibt es welche, die können wirklich mithalten.
00:19:45: und da hat man dann die Möglichkeit, das auch selber zu betreiben.
00:19:47: Das ist nicht ganz leicht, aber es geht.
00:19:50: Also, Fazit, wenn jetzt jemand sagt, okay, ich will das jetzt mal ausprobieren, wie machen wir, was sind die ersten Schritte?
00:20:00: Entweder man sucht sich schon ein konkretes Modell oder ein Anbieter raus, Open AI, ... Claude mit Anthropic Google ... ... und macht sich dort ein Account ... ... lockt sich ein und kann quasi direkt den Chat nutzen.
00:20:16: Eine Möglichkeit.
00:20:18: Ich würde es am Anfang erst im kostenfreien Modus machen ... ... und dann gucken, ob es sich lohnt, da irgendwie ... ... in den Pro- oder Plus-Account reinzugehen.
00:20:25: Man
00:20:26: muss da ja nicht gleich was Wichtiges schreiben.
00:20:27: Wenn ich ja weiß, die hören das alles ab, ... ... dann kann ich einfach mal ein bisschen rumspaßen ... ... und dann ist das ja auch gar nicht schlimm.
00:20:33: Genau.
00:20:35: Und wenn man es dann schon eins konkreter haben möchte und vielleicht auch die Auswahl zwischen verschiedene Modellen haben möchte, guckt man halt tatsächlich in die LM Arena rein und sich da die Leaderboards an, was für welchen Anwendungszweck irgendwie am besten gerade ist.
00:20:50: Und das ändert sich, wie gesagt, gefühlt wöchentlich.
00:20:54: Wobei ich sagen muss, ich sage das immer den.
00:20:58: normalen Nutzern, die nicht vier Accounts haben müssen.
00:21:01: Es ist überhaupt nicht schlimm, wenn man nicht immer das aller allerbeste Modell ein setzt, weil inzwischen die Verbesserungen immer kleiner werden.
00:21:10: und selbst das zwanzigbeste Modell von der LM Arena ist immer noch fantastisch.
00:21:14: und es ist gar nicht schlecht oder gar kein Problem, wenn man nicht die Top drei benutzt.
00:21:20: Man kann immer noch produktiv und toll damit arbeiten.
00:21:22: Ich glaube, dass sollte reiten, dass man den Einstieg bekommt, oder?
00:21:29: Absolut.
00:21:29: Und was mir nochmal wichtig ist, auch vielleicht zum Fazit noch zu sagen, ganz am Anfang, als die Modelle publik wurden und ich das auch angefangen habe zu nutzen, gab es noch eine extrem große Scheu davor.
00:21:43: und mittlerweile nutzen das relativ viele Leute, aber es gibt immer noch eine große Scheu davor.
00:21:49: Ich glaube, man kommt nur an diese Themen ran, wenn man das praktisch wirklich in die Finger nimmt oder in die Hände nimmt.
00:21:55: Und das ist mein Riesenappell, falls jemand noch nicht diese Modelle genutzt hat, auch mal verschiedene Modelle auszuprobieren oder sich mal wirklich einen Account zu machen und unterschiedlichste Dinge damit zu erzeugen.
00:22:10: Genau.
00:22:10: Sich mal Zeit nehmen und wer noch ein bisschen Angst vor der Technik hat, dem empfehle ich unsere erste Folge, weil da haben wir ja erklärt Angst muss man davor eigentlich nicht haben.
00:22:21: Cool.
00:22:22: Dann sind wir, glaube ich, durch für heute.
00:22:25: Ja.
00:22:25: Danke, Andreas, für deine Zeit.
00:22:27: Vielen Dank euch fürs Zuhören und hoffentlich dann in der nächsten Folge wieder.
00:22:31: Tschüss.
00:22:35: Liebe Zuhörer, das war es heute von Künstlich Glück.
00:22:41: Wir wünschen euch viel Spaß beim Ausprobieren und Experimentieren mit dem LLM an Peter Eurerer Wahl.
00:22:47: Erzählt uns doch, wofür ihr euch entschieden habt und teilt uns gerne eure Fragen, Wünsche und Gedanken zur heutigen Folge über die E-Mail in der Beschreibung mit.
00:22:58: Wir hoffen, ihr seid auch bei der nächsten Folge von Künstlich Klug wieder dabei.
Neuer Kommentar