Lokale Modelle: Deine eigene KI

Shownotes

In dieser Folge zeigen wir, wie einfach es sein kann, leistungsstarke KI-Modelle analog zu ChatGPT direkt auf dem eigenen Rechner zu betreiben, ganz ohne Internetverbindung, monatliche Kosten oder Datenabfluss. Wir sprechen offen über die Vorteile und Grenzen lokaler Modelle, geben praktische Tipps zur Installation und erklären, warum selbst kleine LLMs heute erstaunlich viel leisten können.

Wir diskutieren, für wen sich lokale KI besonders lohnt, wie du das passende Modell für deine Hardware findest und welche Rolle Datenschutz und Kontrolle dabei spielen. Gemeinsam räumen wir mit Missverständnissen auf und geben Einblicke in spannende Anwendungsfälle. Probier’s aus und entdecke, wie einfach Künstliche Intelligenz lokal genutzt werden kann!

Haben Sie Feedback oder Anregungen für kommende Folgen? Wir freuen uns über eine Nachricht!

kuenstlichklug@gmail.com

Transkript anzeigen

00:00:00: Stell dir vor, du könntest ChatGPT auf deinem Laptop laufen lassen.

00:00:04: Ohne Internet, ohne dass deine Daten irgendwo hochgeladen werden.

00:00:09: Ohne monatliche Gebühren.

00:00:11: Klingt wie Science Fiction, ist es aber nicht.

00:00:14: Heute zeigen wir euch, wie ihr mit Tools wie Olama und Modellen wie Lama III oder Quinn eure eigene KI-Lokale betreibt.

00:00:22: Die erreichen zwar nicht ganz die Leistung der neuesten Cloudmodelle, aber dafür die von GPT-IV vor einem Jahr.

00:00:28: und das mit voller Kontrolle über eure Daten ohne latenten und

00:00:31: ohne laufende Kosten.

00:00:34: Herzlich willkommen zu einer neuen Folge von Künstlich Klug, dem KI-Podcast ohne Hype, dafür mit Fakten und Begeisterung von Afritz, Consulting und Divisio.

00:00:43: Aus dem herbstlichen Gereonsviertel grüßen euch Andreas und Christoph.

00:00:48: Hi Andreas.

00:00:49: Hi Christoph.

00:00:50: Und hallo Publikum.

00:00:51: Herzlich willkommen zum Künstlich Klug Podcast, dem KI-Podcast.

00:00:56: Genau.

00:00:57: Und Zungenbrecher.

00:00:59: Und zu unserer heutigen Folge, was haben wir uns heute ausgedacht, Andreas?

00:01:03: Wir haben ja jetzt schon ganz viel über verschiedene Modelle gesprochen.

00:01:06: und tatsächlich eine Sache, wo du mich Anfang des Jahres mal so ein bisschen drauf gebracht hast, ist, installier doch mal selber welche.

00:01:15: Genau.

00:01:16: Das ist etwas, was mich überrascht, wenn man wahrscheinlich täglich damit zu tun hat, dass die meisten Leute nicht wissen, dass man so ein Ding auf einem normalen Laptop laufen lassen kann.

00:01:26: Dann glauben die meisten Leute, und das stimmt ja auch, ein ganz großes GPT-Fünf, braucht man hunderte und Millionen Euro teure Rechner, das stimmt schon, aber es gibt ja, wir haben am Anfang gesagt, es gibt ja nicht nur OpenAI, sondern auch ganz viele andere Hersteller.

00:01:41: und es gibt auch Hersteller, die veröffentlichen ihre Modelle kostenlos und der Trend geht zum kleinen LLM, das nennt man dann auch manchmal SLM, Small Language Model.

00:01:54: Die sind so klein, dass die je nach Größe auf dem Handy laufen, das gibt es ja so auch, oder aber eine größere Gaming-Karte brauchen.

00:02:06: Das heißt, dass jeder, wer so ein bisschen Computerspiele zu Hause hat und zum Beispiel eine Nvidia-Grafikarte hat, der hat es gut.

00:02:13: Auf neuen Macs läuft super und so weiter.

00:02:15: Die werden immer größer und die gibt es halt in der ganzen Bandbreite.

00:02:18: Und die stehen unter verschiedenen Lizenzen, die meisten davon unter Lizenzen, die es erlauben, eigene Produkte damit zu bauen.

00:02:26: Vielleicht noch mal einen Schritt für mich zurück.

00:02:30: Ich bin ja damals hergegangen und habe mir quasi dann ... über eine Plattform diese Modelle runtergeladen.

00:02:37: Man hat dabei gesehen, dass es die in verschiedenen Größen gibt.

00:02:41: Also ich mache jetzt mal ein Beispiel.

00:02:43: Ulama ist ja eines dieser Open Source Modelle, die man auch in verschiedenen Größen runterladen kann.

00:02:49: Vorsicht, Ulama ist die Software, mit der man es laufen lässt.

00:02:53: Ulama ist das Modell.

00:02:54: Genau, Ulama ist das Open Source Modell.

00:02:56: Das heißt, die Ulama ist quasi die Abspiel-Software, sozusagen der CD-Player, wo ich das Modell einlege und Lama ist ein, ist die CD ist also einzig Modelle, der sich abspielt.

00:03:08: Genau, die gibt es in verschiedenen Größen.

00:03:12: Und da war auch quasi so eine Gebrauchsempfehlung mit dabei.

00:03:16: Du hast ein Laptop mit dem und dem Arbeitsspeicher oder mit der und der GPU.

00:03:23: Du kannst mit Sicherheit nur das Modell laufen lassen oder schnell laufen lassen.

00:03:29: Genau.

00:03:30: Und dementsprechend habe ich dann so eins runtergeladen und mir eine Software um das Ganze anzuzeigen, also sprich mit einem Chatfenster und einem Drum und Dran.

00:03:39: Die erste Frage für mich ist, wie funktioniert das, dass es die in verschiedenen Größen gibt?

00:03:44: Das ist eine gute Frage.

00:03:45: Wir hatten ja am Anfang gesagt, wenn die Modelle trainiert werden.

00:03:49: Ein typisches Missverständnis ist, dass die Leute denken, das ist wie ein Gehirn.

00:03:52: Und dann möchte ich ja denken, das wächst halt immer weiter, je mehr es lernt oder so.

00:03:55: Das stimmt nicht.

00:03:57: Architektur, das Modell wird von vornherein vorgegeben beim Programmieren.

00:04:01: Und da kann ich mir aussuchen, wie viele Parameter, also wie viel Platz zum Lernen dieses Modell hat.

00:04:06: Das ist wirklich eine Zahl, die kann ich hochdrehen.

00:04:08: Da kann ich einfach unterschiedliche Werte einstellen.

00:04:11: Dann gibt es also zwei Möglichkeiten.

00:04:12: Entweder haben die Hersteller diesen Wert von vornherein eingestellt, die haben also mehrere Modelle trainiert, ein klein ist ein mittleres großes.

00:04:20: Was in der Praxis sehr oft passiert ist, dass ein sehr großes trainiert wird und die kleineren Modelle daraus entweder destilliert werden, das ist eine Technik, das heißt wirklich so, also wie man den Schnaps destilliert, destilliert man das Modell.

00:04:31: Da gibt es also lustige Tricks, wie man, ich sage mal zum Beispiel, aus einem Siebzig Milliarden Parametermodell einen Zwei-Dreißig Milliarden Parametermodell macht, und dabei nur... drei bis fünf Prozent der Leistungen verliert.

00:04:44: Ich sagte immer, diese Sachen wachsen logarithmisch.

00:04:47: Das heißt, man kann die Hälfte von den Parametern eigentlich braucht man nicht und büsst nur ein paar Prozent der Leistungsfähigkeit ein.

00:04:53: Das sind diese kleinen Modelle teilweise überraschend leistungsfähig, weil ... acht Milliarden Parametermodell ist nicht zehn Prozent so gut wie ein Achtzig Milliarden Parametermodell, sondern für ein Achtzig Prozent so gut.

00:05:06: Meistens heutzutage die großen Hersteller wie Metta mit Lama, die bauen ein großes Modell und dann gibt es verschiedene Techniken wie Destillation unter anderem ein kleineres Modell rauszumachen.

00:05:16: Was auch oft ein beliebter Weg ist, ist so ein Lehrer-Schüler-Weg, das heißt man trainiert erst das große Modell, macht das zum Lehrer und dann gibt es Tricks, wie ich immer wieder weiteren Output erzeugen kann, um damit dann den Schüler zu trainieren.

00:05:29: Gibt es verschiedene Strategien?

00:05:31: Gibt es eine Faustformel?

00:05:32: Keine Ahnung, ich habe ein Laptop mit, mit der Arbeitspeicher und XY.

00:05:39: Was für eine Größe ein Modell ich darauf sinnvollerweise laufen lassen kann?

00:05:42: Oder kann man das daran gar nicht festmachen?

00:05:44: Man kann es ungefähr festmachen.

00:05:46: Es kommt immer darauf an, wie ungeduldig man ist.

00:05:49: dieses O-Lama, und das ist auch die Software, die ich dafür empfehlen würde.

00:05:52: Wir geben natürlich Instruktionen, wie man das macht, geben wir in den Notes an.

00:05:57: Wir gingen gleich mal nochmal kurz drauf ein, aber ich denke, dass einfach sprachlich alles zu erläutern, die Schritte, wo man das runter lädt, ist etwas mühsig zum Anhören.

00:06:06: Aber man lädt sich halt diese O-Lama-Software runter, die ist open-source und kostenlos.

00:06:10: Und dann kann man in der O-Lama-Software einfach auswählen, welches Modell man nimmt.

00:06:14: Und dann ist man eigentlich schon fertig.

00:06:16: Man kann wie du noch eine zusätzliche Software hinzuladen, die eine schönere Benutzeroberfläche hat, aber auch mit Urlarmar kann man bereits mit den Dingern schätten.

00:06:25: Dann kommt die Frage zum Modell.

00:06:27: Da kommt so ein bisschen drauf an, welcher Hardmare man hat.

00:06:29: Also, wenn man eine GPU hat, die Gamer, also wer mit seinem PC spielt, der wird das kennen.

00:06:38: Und dann sollte man empfehlen, das Modell auch auf der GPU laufen zu lassen, weil es wesentlich schneller ist.

00:06:43: Und dann kann man einfach gucken, Wie viel Arbeitsspeicher hat die GPU?

00:06:47: Und das ist ein starker Indikator ungefähr, wie gut es läuft.

00:06:49: Ein Beispiel.

00:06:50: Diese Modelle haben im Namen immer ein großes B, zum Beispiel acht B. Das B steht für die amerikanische Billion, die Milliarde.

00:06:59: Und wenn ich ein acht B-Modell habe, dann brauche ich dafür immer das doppelte Arbeitsspeicher.

00:07:05: In der Regel, weil die meisten Modelle speichern jeden Parameter mit zwei Beiden.

00:07:10: Und dann brauche ich sechzehn Milliarden Beit, um acht Milliarden Modell auszuführen.

00:07:16: Es gibt Modelle, die sind auch quantisiert.

00:07:18: Da kann man dann in einer sechzehn Gigabyte Grafikkarte einen sechzehn Milliarden Parameter ausführen.

00:07:24: Es gibt verschiedene Arten, diese Modelle abzuspeichern.

00:07:28: Ich empfehle da mal Pimal-Daumen zu gucken.

00:07:30: Also wenn man eine GPU hat, guckt mal.

00:07:32: einfach mal, wenn ich eine sechzehn Gigabyte Grafikkarte habe, würde ich tatsächlich auch mal im sechzehn ungefähr zwölf Milliarden Parametermodell anfangen.

00:07:39: Und wenn einem das dann zu langsam ist, weil dann Ola immer die ganze Zeit die Daten zwischen der Grafikkarte und so hin und her schieben muss, dann kann man eines runtergehen.

00:07:47: Denn diese Modelle kann man sich frei runterladen.

00:07:49: Wenn man eine normale DSL-Leitung hat, das Schlimmste, was passiert ist, man hat ein falsches Modell runtergeladen, dann kann man das wieder löschen und dann lädt man es nächste runter.

00:07:57: Dann kann man sich auch nicht den Computer mit kaputt machen oder sowas.

00:08:01: Wenn man keine Grafikkarte hat, kann man das trotzdem mal ausprobieren.

00:08:04: Da hängt es dann ganz viel davon an, wie viel Speicher mein Computer hat.

00:08:08: Es geht immer um den Speicher, gar nicht so sehr um die GPU.

00:08:11: Wenn ich zum Beispiel einen acht Gigabyte Desktop-Rechner habe, das ist so üblich, was man vielleicht so hat, dann würde ich erst mal mit zum zwei bis vier Milliarden Parameter Modell anfangen, weil das Betriebssystem und andere braucht auch ein bisschen Platz.

00:08:25: Das ist so die Faustregel.

00:08:26: Man guckt wie viel Speicher hat man im Rechner und dann probiert man ein bisschen mehr, ein bisschen weniger und schaut ob's crashed und tastet sich so ein bisschen ran.

00:08:33: Man könnte das vorher ausrechnen, aber selbst ich mache das nicht.

00:08:36: macht das Pi mal da oben und dann nehme ich mir eins.

00:08:39: Mac-User haben es da besonders leicht.

00:08:40: Das ist das Gute, weil die neuen Macs, die haben etwas, das nennt sich Unified Memory, der vereinheitliche Speicher.

00:08:48: Da wird nicht zwischen Grafikkartenspeicher und Laptop- oder PC-Speicher unterschieden.

00:08:53: Das ist alles eins.

00:08:54: Und das ist für LLMs total toll, weil der limitierende Faktor ist immer der Speicher.

00:08:58: Und wenn ich mir einen teuren Mac gegönnt habe, vielleicht sogar Zweihenreißig oder sogar große Modelle auf dem MacBook laufen lassen.

00:09:07: Die sind richtig schnell.

00:09:08: Das ist fast so schnell wie wenn man normal ChatGPT im Web benutzt.

00:09:13: Ja, vielleicht mal irgendwie so ein bisschen aus der Anwendungsperspektive hergedacht.

00:09:18: Also ich fand es dann irgendwie spannend zu sehen, Ich konnte wirklich oben mal den W-Lang-Knopf ausdrücken oder das Internet für eine Zeit lang ausknipsen und trotzdem mit dem Modell interagieren und bekam Antworten zurück.

00:09:32: Zwar nicht die hochklassig Premium Antworten, die ich mit irgendeinem Online-Modell mit vielen, vielen Parametern bekommen hätte, aber trotzdem auf manche Dinge antworten.

00:09:43: Und das fand ich zumindest vor einigen Monaten dann sehr spannend.

00:09:47: ... gerade Sachen, wo ich bei den Online-Modellen ... ... wegen vieler Api-Anfragen Geld bezahlt hätte ... ... oder habe in einer oder anderen Experiment.

00:09:56: Die Geschichte müssen

00:09:57: wir auch noch mal erzählen, ja.

00:09:58: Genau.

00:09:59: Konnte ich dann mit einem lokalen Modell, also einfache Klassifizierung von Daten, relativ leicht durcharbeiten lassen und da ist gar nichts passiert.

00:10:08: Genau, die Frage ist ja, warum macht man das dann überhaupt?

00:10:11: Ich meine, ich finde es natürlich einfach cool.

00:10:13: Also es nimmt auch ein bisschen die Angst, wenn man sieht so, ja, ich kann hier in meinem Wohnzimmer mein eigenes JetGPT betreiben.

00:10:20: Ich finde es immer gut.

00:10:21: Erzeugt den mündigen Computernutzer.

00:10:24: Dann gibt es natürlich den privatsphäre Aspekt.

00:10:26: Das ist eine Open Source Software, wo viele Leute sehr genau drauf gucken.

00:10:30: Da gibt es keine versteckten Sachen.

00:10:32: Wenn man Ola mal nutzt, bleiben die Daten garantiert bei einem.

00:10:36: Da braucht man sich dann, da kann man dann auch wirklich sehr private Sachen gerne mit diskutieren.

00:10:39: Da muss ich keine Sorgen machen.

00:10:41: Das ist der zweite Aspekt.

00:10:42: Der dritte kann der Preis sein.

00:10:44: Ich meine, diese Apis teilweise oder auch dieser Zugang im Monat ist teilweise so günstig, dass es gar nicht so eine große Rolle spielt.

00:10:51: Aber da zahlt man dann wirklich nur noch den Strom, den man lokal verbraucht.

00:10:55: Gerade wenn man aufwendige teure Experimente macht, wo man vielleicht sehr, sehr, sehr, sehr viele Daten tagelang bearbeiten möchte, kann sich das auf einmal wieder lohnen.

00:11:03: Und du sprichst die Qualität an.

00:11:05: Natürlich ist jetzt zum Beispiel einen acht Milliarden Parameter-Opensource-Modell kann nicht mit GPT-IV oder V mithalten.

00:11:13: Oder dem neuesten Entropic Opus oder so.

00:11:15: Aber es ist schon so, es ist besser als GPT-III-V.

00:11:19: Und wenn wir uns erinnern, dieser Hype, dieses explosive Wartstum bei ChatGPT, ging los mit ChatGPT-III-V, wo alle gesagt haben, das ist unglaublich.

00:11:28: Die holt nie wieder einer ein, das ist ja Zukunftstechnologie.

00:11:31: Und diese Zukunftstechnologie, ChatGPT-III-V, das war Ich weiß gar nicht, ich war ein Drei-Fünf-Haus-Kameron.

00:11:38: Das ist seit zwei bis drei Jahren her.

00:11:41: Also nur zwei bis drei Jahre später kann ich die auf dem Aldi-PC erreichen.

00:11:44: Besser.

00:11:45: Also ein Modell, die guten Modelle, also sehr gut sind die Lama-Modelle, Quen, und von Google Gemina ist das Kommerzielle.

00:11:55: Das Open Source-Modell heißt, mir fällt es gleich wieder ein, es gibt ein kostenloses Google-Modell.

00:12:01: Es gibt auch jetzt ein Chat-GPT.

00:12:03: in Open Source kostenlos.

00:12:05: Das war auch eine große Nachricht.

00:12:06: Und diese Modelle können alle schon mit GPT-IV mithalten, die größeren.

00:12:11: Also, wenn ich so jenseits der acht Milliarden Parameter komme, du sagst, da war noch ein deutlich merkbarer Unterschied, glaube ich dir.

00:12:17: Ja.

00:12:17: Spätestens, wenn du beim dreißig Milliarden Parametermodell bist, wofür man dann schon sehr mächtigen Laptop oder so braucht, aber es geht, dann ist man auf einem Niveau, das wir vor anderthalb Jahren bei den kommerziellen Modellen hatten.

00:12:29: Vor anderthalb Jahren.

00:12:31: Und das ist natürlich auch sehr gut, wenn man selber Software bauen will.

00:12:33: Also richtig spannend werden diese Modelle, wenn man selber eine Software bauen will, die irgendwas mit KI macht, wo man eventuell den Datenschutz hat.

00:12:41: Also wenn ich eine mittlere Firma bin und will irgendeinen eigenen Firmenschat bauen oder irgendwas oder ich bin im Medizinbereich unterwegs oder mit sensiblen Daten, dann kann ich so eine KI-basierte Applikation auch selber entwickeln und bin komplett unabhängig.

00:12:56: Gerade im Moment will man vielleicht gar nicht immer so abhängig von einem amerikanischen Dienstleister sein.

00:13:00: Ja, plus wenn ich jetzt mal irgendwie an ein produzierendes Gewerbe, an Logistik, an viele Branchen denke, wo man sehr viele aber kleine Recheneinheiten hat.

00:13:16: Also beispielsweise in der Werkstraße irgendwie viele Roboterarme oder ... in der Logistik irgendwie die Scanner für RFID-Chips ... ... oder in den Fahrzeugen.

00:13:26: Das

00:13:27: können auch einfach Büroabläufe sein mit sehr vielen Bearbeitungen.

00:13:30: Genau, aber da sind das ja dann häufig kleine ... ... Recheninstanzen, kleine PCs, ... ... die nicht viel Rechenpower haben, ... ... die dann aber ... ... kleine Modelle, spezialisierte Modelle ... ... auf ein Newcase, ... ... die dann nur dafür gedacht sind, ... ... XYZ zu machen und nicht ... Wikipedia nach der Hauptstadt von Paris zu fragen.

00:13:50: Gut, das

00:13:51: können die auch, weil das ist so offensichtlich.

00:13:52: Das können sie jetzt die Kleinsten.

00:13:54: Aber ja, genau da hast du recht.

00:13:55: Entschuldigung, ich hatte dich noch ein bisschen in die Richtung die Größe der Aufgabe verstanden.

00:13:59: Ja, aber wenn ich tatsächlich im Industriebereich bin in der Fertigung, dann ist es tatsächlich möglich, vielleicht an einem Punkt, wo ich so eine KI-Technik einsetzen will, aber ich habe kein Internet oder will das nicht.

00:14:09: Oder es sind sehr viele Daten, weil halt per alle Nullkommar fünf Sekunden irgendwas an irgendwo vorbeiläuft auf dem Förderband.

00:14:16: Dann kann ich dann tatsächlich, wenn ich vielleicht, oder ich rüste den PC ein bisschen auf, kann ich auf einmal in einer Werkshalle mein eigenes LLM benutzen.

00:14:24: Das ist

00:14:24: halt auch was, was wir.

00:14:26: auch

00:14:27: tun.

00:14:29: Das ist ein beliebter Use Case.

00:14:31: Wobei sehr der Startenschutz Thema ist gerade unglaublich wichtig.

00:14:35: Also da kommt auch ganz viel.

00:14:37: Ja, aber klar, das kann ich dann machen.

00:14:40: Und ich kann vor allem mehrere benutzen, wie du sagst, die verschiedenen kleinen Modelle, wenn man dann mal die Beschreibung liest, die haben unterschiedliche Stärken und Schwächen.

00:14:47: Klar, wenn ich ein Modell sehr, sehr, sehr klein wache, dann muss ich irgendwas Opfern.

00:14:51: Es gibt halt Modelle, die zum Beispiel sehr gut darin sind Anweisungen zu befolgen.

00:14:55: Das ist, wenn ich komplexere Arbeitsschritte ein bisschen dynamisch automatisieren will, Stichwort Agenten.

00:15:02: Was im Moment in aller Munde ist, dann gibt es Modelle, die sind einfach sehr gut darin.

00:15:06: Verbale Anweisungen zu befolgen.

00:15:07: Die sind ja vielleicht nicht so schlau, die können ja nicht so viel über Geografie erzählen, aber dem folgen die.

00:15:11: Dann gibt es Modelle, die können sehr gut kleine Coach-Snipsel erzeugen und so weiter.

00:15:15: Es gibt es halt für verschiedene Sachen, verschiedene Modelle auch die Sprachen.

00:15:18: Also es gibt da Modelle, die können eigentlich nur gut Englisch, die meisten können inzwischen Englisch und Chinesisch, weil die guten kleinen Modelle kommen aus China inzwischen.

00:15:26: Und ab und zu kann dann auch eins Deutsch.

00:15:28: Tatsächlich, das ist eine der schwierigsten Sachen, wenn man komplexere Büroaufgaben lösen will in Deutschland und will da so ein kleines Modell einbauen.

00:15:36: Das ist immer das, wo wir am längsten suchen.

00:15:37: müssen wir eins gefunden, haben das gut genug Deutsch, spricht damit die Antwort-E-Mail auch

00:15:41: durch.

00:15:41: Ja, ja.

00:15:42: Du hast mich noch mal so ein bisschen da drauf gebracht, weil du vor einigen Zeiten Grafen hattest und da hast du genau das, was du gerade eben beschrieben hattest.

00:15:51: optisch sichtbar gemacht.

00:15:53: Du hast quasi gezeigt, dass der E-Low-Score, den wir vor ein paar Folgen irgendwie auch mal angerissen haben, nämlich der Wert, die die LLMs gegeneinander gerankt werden in der Qualität der Antworten.

00:16:06: ... bei den kleinen Modellen vor, ... ... oder den großen Modellen vor ein paar Jahren, ... ... mittlerweile so gut ist wie bei den Open Source Modellen heute.

00:16:16: Oder

00:16:16: teilweise besser.

00:16:17: Es gibt kleine Open Source Modelle, die besser sind ... ... als GPD-Dreifen.

00:16:21: Genau.

00:16:22: Und dass dieser zeitliche Abstand zwischen den Modellen ... ... mittlerweile sehr, sehr, sehr eng ist, ... ... also es lohnt sich, auf die lokalen Modelle ... ... zu gucken und zu überlegen, ... ... will ich sowas lokal laufen lassen, weil ... ... in vielleicht ... sechs Monate, dass das nächste Open Source Modell so gut ist wie das heutige Online-Modell.

00:16:41: Das

00:16:41: stimmt, genau.

00:16:42: Also dieser Abstand, der Punkt, wo die Open Source Modelle, das sind ja noch teilweise die Großen, aber wo die frei erhältlichen Modelle aufschließen, dieser Abstand ist immer kleiner geworden.

00:16:53: Das schwankt doch mal so ein bisschen, aber so sechs, also manchmal sechs Monate später schon, maximal zwölf bis achtzehn Monate kriegt man das halt.

00:17:02: was ich auch interessant finde, wenn alle immer davon sprechen, wie uneinholbar diese Firmen sind, dass das niemand anders kann.

00:17:10: Gut, jetzt sind diese guten Open Source Modelle auch von Firmen gemacht, die sehr viel Geld haben.

00:17:14: Das muss man sagen.

00:17:15: Die machen das nicht nur aus reiner Menschenfreude, als reine Menschenfreunde, also ein Metta, sprich Facebook, die haben damit Die waren einer der Vorreiter, die haben dieses Lama-Modell rausgebracht, was wirklich mit GPT mithalten konnte, mehr oder weniger, und haben das einfach kostenlos unter die Leute gebracht.

00:17:36: Das haben die natürlich auch gemacht, um... den anderen einen Knüppel zwischen die Beine zu schmeißen, weil deren Modell, deren Geschäftsmodell ist nicht dieses Modell, quasi diesen Chat zu verkaufen, die setzen das intern für ihre Produkte ein, die wollten aber sicher stellen, dass die anderen nicht zu viel Erfolg haben.

00:17:54: Also das ist tatsächlich eine Störung der Konkurrenz, also wie wenn ein Großhändler einen kleinen Laden versucht, aus dem Geschäft zu drängen, in dem er Waren unter Einkaufspreis verkauft.

00:18:05: gar nicht mehr erlaubt ist.

00:18:06: Aber so Großhändler machen sowas ja, so macht Meta das auch.

00:18:10: Ich glaube schon, dass das ein Open AI nicht, also schon sehr ärgert, wenn dann so ein Modell kommt.

00:18:15: Und ganz deutlich ist das mit den chinesischen Modellen geworden.

00:18:19: Das ist ganz klar, die Chinesen bringen diese Modelle meiner Meinung nach kostenlos unter die Leute, um damit die... KI-Vorherrschaft der USA in Gefahr zu bringen, was ihnen auch sehr, sehr gut gelingt.

00:18:31: Na gut, dann kann man halt dann in dem Fall mal in der Mitte sitzen und sagen, da brauchen wir halt gar nichts auszugeben.

00:18:35: Also es ist tatsächlich toll, man kriegt diese Modelle geschenkt und kann sie dann hier auch in Europa kostenlos einsetzen und Produkte zu bauen.

00:18:43: Also es ist nicht nur schlecht, dass man nicht so viele Milliarden hier in Europa investiert darin.

00:18:49: Da können sich die anderen eine blutige Nase

00:18:50: holen.

00:18:53: Wollen wir damit schließen?

00:18:54: Oder hast du noch einen Punkt, wo du sagst, das ist eigentlich total wichtig zu wissen, auch im Thema lokale Modelle?

00:19:01: Ich glaube, es ist wirklich, also das Einzige, es ist leichter, als man denkt.

00:19:05: Jeder, der schon mal eine Software auf seinem Computer installiert hat, kann, je nachdem, wie schnell die Internetleitung ist, in drei bis fünfzehn Minuten eine lokale KI haben, die er selber unter Kontrolle hat.

00:19:20: O-Lama, Link kommt in der Beschreibung, O-L-L-A-M-A, die ist die Software.

00:19:24: Gibt es Linux, Windows, Mac, kann man sich kostenlos runterladen.

00:19:28: Und O-Lama, da gibt es eine schöne Webseite auch.

00:19:30: Wo bekomme ich die Modelle her?

00:19:31: Kein Problem, es gibt eine O-Lama Webseite, da sind die alle aufgelistet.

00:19:36: Das gruselige ist bei Ulama, ich muss dann mal so ein Befehl selber eintippen, aber der ist ganz leicht.

00:19:41: Den schreiben wir auch dann drunter und dann wird das Modell runtergeladen und dann kann man sich damit unterhalten.

00:19:45: Das kann wirklich jeder probieren, braucht man keine Angst vorhaben und man kann sich nichts kaputt machen.

00:19:50: Festplatte wird ein bisschen voll, weil die Modelle

00:19:52: können.

00:19:52: Genau.

00:19:53: Und wenn man sich das Ganze irgendwie optisch noch einschöne an... gucken möchte.

00:19:57: Anything LLM war so eine UI, die irgendwie dafür lokal ganz passend war.

00:20:02: Es gibt auf welchem Web.

00:20:04: Und davon gibt es auch mehrere Anbieter, einfach um sich ein schönes Chatfenster mit verschiedenen Funktionalitäten dahin zu legen.

00:20:10: Genau.

00:20:11: Da packen wir noch einen Link drunter.

00:20:12: Genau.

00:20:13: Brauchen wir aber gar nicht.

00:20:14: Als Start, wenn man nicht spielen will.

00:20:17: Ja.

00:20:17: Cool.

00:20:18: Und ich kann nur jedem raten, das mal auszuprobieren, weil er die Angst vor der Technik

00:20:21: nimmt.

00:20:21: Ja.

00:20:22: Dann vielen Dank.

00:20:23: Ich hoffe, dass hat euch gefallen.

00:20:25: Bis zum nächsten Mal.

00:20:42: Bis zum nächsten Mal.

00:20:52: Ciao.

Shownotes

Haben Sie Feedback oder Anregungen für kommende Folgen? Wir freuen uns über eine Nachricht!

Ollama

Llama 3

Qwen

AnythingLLM

Hugging Face

DIVISIO GmbH

afritz consulting GmbH

Transkript anzeigen

Neuer Kommentar