Im Fokus: Wie funktionieren Bilder KIs genau – außerdem Llama 4, updates von OpenAI und Midjourney

Shownotes

Die Themen in Episode 16: KI’s Next Top Model

  • Meta hat am 5. April das neue Llama 4 Modell vorgestellt Es wurden vier Modelle angekündigt, aber zunächst kamen nur zwei heraus:
  • Llama 4 Maveric: 400 Milliarden Parameter, verteilt auf 128 Experten mit je 17 Milliarden Parametern.
  • Llama 4 Scout: 109 Milliarden Parameter, 16 Experten mit je 17 Milliarden Parametern.
  • Beide Modelle basieren auf einem Mix of Experts Ansatz. Das bedeutet, das Modell wählt bei Fragen einen spezifischen Experten zur Beantwortung aus, was Ressourcen spart.
  • Es sollen noch zwei weitere Modelle folgen.
  • Das Muttermodell heißt Behemoth und hat 2 Billionen Parameter, ist aber noch nicht veröffentlicht.
  • Ein viertes Modell soll ein Reasoning Modell sein.

Besonderheiten von Llama 4:

  • Open Source Modell.

  • Mix of Experts Architektur.

  • Sehr großes Kontextfenster:

  • Scout Modell: 10 Millionen Token.

  • Kleineres Modell: 1 Million Token.

  • Übertrifft bisherige Spitzenreiter wie Googles Gemini 2.5 (2 Millionen Token).

  • Diskussion über die Relevanz so großer Kontextfenster und den potenziellen Ressourcenverbrauch.

  • Meta hat beim Launch in der LM Arena „gecheatet“, indem die Ergebnisse besser dargestellt wurden als die tatsächliche Leistung des veröffentlichten Modells. Die getestete Version schien auch eine andere zu sein.

  • Rankings und Testsysteme für KI-Modelle sind nicht immer aussagekräftig; Ausprobieren ist wichtig

OpenAI hat ihrer neuen Reasoning Modelle O3 und O4 Mini angekündigt.

  • Sam Altman deutete die baldige Veröffentlichung von GPT-5 an, mit der Behauptung, dass die Modelle deutlich besser seien als erwartet, insbesondere im Reasoning. - Dies könnte eine Reaktion auf Googles Gemini 2.5 Pro sein.

Midjourney hat V7 ausgerollt.

  • Midjourney V7 wird als „besseres Altbekanntes“ beschrieben. Die Bildqualität soll besser sein und es gibt eine Personalisierung (die aber schon vorher existierte).
  • Neuer „Draft Mode“: 10x schneller und halbe Kosten.
  • Bekannte Modi bleiben: Turbo und Relax.
  • Das Problem mit Schriftarten ist bei Midjourney weiterhin nicht gelöst. OpenAI scheint hier durch eine andere Trainingsmethode einen Vorteil zu haben. Das Problem mit der Darstellung von Händen bei Midjourney scheint gefixt zu sein.

Brauchbare, nützliche Tools

  • Vorstellung von drei vielversprechenden KI-Startups aus einem amerikanischen Podcast: Ace, General Agents und Lindy AI.
  • Ace: Eine Art Computer Automation, die es ermöglicht, dem System Aufgaben zu geben, die es dann auf dem Computer (Browser, Apps, Oberfläche) selbstständig erledigt. Der Host plant, Ace als Alternative zu Browser-Agent-Tools zu testen, die bisher nicht optimal funktionierten.
  • Lindy AI: Hat ein neues Feature namens Swarms herausgebracht. Swarms ermöglicht das Starten tausender KI-Agenten gleichzeitig, um parallele Transaktionen durchzuführen (z.B. Lead-Generierung, Marktrecherche, individualisierte Massen-E-Mails).
  • Diese Massen-Bots könnten in Zukunft relevanter werden, wenn die Agenten selbst besser in der Umsetzung sind.

Studie zu Professional Services

  • Eine Studie von Ethan Batraski analysiert die Auswirkungen von KI auf den 20 Billionen Dollar schweren Markt der Professional Services (Beratungen, Anwaltskanzleien etc.).
  • Die Studie deutet darauf hin, dass dieser Markt komplett durch KI „disrupted“ werden könnte, da KI-Systeme zunehmend die Aufgaben von Beratern und Analysten übernehmen können.
  • Es ist fraglich, wie schnell sich das Enterprise-Segment auf KI-zentrierte Dienstleister einlassen wird.
  • Yusuf argumentiert, dass KI-Systeme in bestimmten Bereichen (wie dem Wartungsgeschäft) sogar bessere Ergebnisse liefern können als traditionelle Berater, da sie mit spezifischen Informationen gefüttert werden können.

KI-Adaption in Deutschland

  • Die FAZ hat zwei Artikel zur KI-Adaption in Deutschland veröffentlicht.
  • Ein Artikel besagt, dass in der Industrie nur 19% der Unternehmen KI produktiv einsetzen und in anderen Ländern (China, USA) der Aufbau von Infrastruktur und Datenstrategien vorangetrieben wird.
  • Im produzierenden Gewerbe sollen es sogar nur 19% und in der Industrie insgesamt nur 7% mit einer klaren KI-Strategie sein.
  • Yusuf zweifelt an der Dramatik dieser Zahlen und vermutet einen Bias in der zitierten Studie der Hannover Messe 2025.
  • Es wird beobachtet, dass viele Unternehmen in Deutschland und Europa bereits mit der Umsetzung von KI-Themen beginnen.
  • Herausforderungen für KI-Dienstleister in Europa sind oft DSGVO, Datenschutz und Wettbewerbsschutz, weniger die technische Umsetzung.
  • Es wird der krasse Gegensatz zu den USA betont, wo die Disruption großer Märkte diskutiert wird.
  • Ältere Studien von KMG zeigen eine deutlich höhere KI-Adoptionsrate im Enterprise-Segment (über 50%). Yusuf hält die niedrigen Zahlen der FAZ für unwahrscheinlich.

Datacenter Updates

  • Diskussion über die Meldung, dass Microsoft möglicherweise Datacenter-Projekte im Umfang von 2 Gigawatt „stehen lässt“.
  • Mögliche Gründe könnten Konflikte zwischen OpenAI und Microsoft sein.
  • OpenAI plant jedoch eigene Investitionen in Rechenzentren im Umfang von 10 bis 40 Milliarden Dollar.
  • Das US-Energieministerium hat 16 bundeseigene Standorte für den Bau von KI-Rechenzentren ernannt, an denen bereits Energieinfrastruktur vorhanden ist.
  • Der größte Bottleneck ist aktuell der Strom, nicht die Rechenleistung. Im Bereich der Kühlung in Rechenzentren geht der Trend zur Flüssigkühlung, insbesondere Direct-to-Chip und Immersionskühlung.
  • Es zeichnet sich ein Trend zu zwei-Phasen-Flüssigkühlungssystemen (Hybrid aus Luft- und Flüssigkühlung) ab, bei denen z.B. GPUs flüssig und CPUs/Speicher luftgekühlt werden.
  • Der Markt für Flüssigkühlungssysteme soll von 5,6 Milliarden US-Dollar im Jahr 2024 auf 48 Milliarden US-Dollar im Jahr 2034 ansteigen. Energieeffizientere Kühlung ist entscheidend, da 40% der Kosten von Rechenzentren auf die Kühlung entfallen.

Googles NotebookLM

  • NotebookLM hat eine Webanbindung erhalten. Nutzer können nun externe Quellen suchen und auswählen, die das Tool zur Bearbeitung nutzen soll.
  • Dies macht NotebookLM zu einem noch praktischeren Recherche-Tool, obwohl Gemini 2.5 ähnliche Funktionen bietet.

Erklärung: Wie funktionieren Bilder-KIs?

Die meisten bekannten Bilder-KIs basieren auf Diffusion Models, die schrittweise Rauschen in strukturierte Inhalte verwandeln.

Schritt-für-Schritt-Erklärung der Funktionsweise von Diffusion Models:

  • Ausgangspunkt: Ein klares Bild (z.B. eine Katze).
  • Verrauschung: Das Bild wird in vielen Schritten mit zufälligem Rauschen überlagert, bis es nur noch reines Rauschen ist (TV-Snow).
  • Training: Das Modell lernt, diesen Verrauschungsprozess rückgängig zu machen. Es bekommt leicht verrauschte Bilder gezeigt und muss vorhersagen, wie das Originalbild aussah. Statt das Bild direkt zu rekonstruieren, lernt das Modell, das Rauschen selbst zu berechnen und schrittweise abzuziehen.
  • Generierung: Start mit reinem Zufallsrauschen. Das Modell entfernt in vielen kleinen Schritten (500-1000) das Rauschen und sagt in jedem Schritt voraus, welcher Teil des Rauschens nicht zum endgültigen Bild gehört. So entsteht aus dem Chaos langsam ein kohärentes Bild.

Vorteile von Diffusion Models:

  • Der Lernprozess gerät selten außer Tritt.
  • Ermöglicht unendlich viele Variationen eines Themas.
  • Führt zu detaillierten und hochauflösenden Bildern durch schrittweise Fehlerkorrektur.

Vermutung zur Funktionsweise von GPT-4O: Es wird vermutet, dass OpenAI zusätzlich zu Diffusion Models auch Auto Regressive Models nutzt.

  • Auto Regressive Models generieren Bilder, indem sie Pixel oder Bild-Token Schritt für Schritt vorhersagen, ähnlich wie Sprach-KIs Text Wort für Wort erzeugen.
  • Das Bild wird als lange Pixelkette behandelt, und jedes Pixel hängt vom vorherigen ab. Es werden Tokens aus Bildbereichen generiert.
  • Schrittweise Generierung: Start mit einem leeren Bild oder Start-Token. In jedem Schritt berechnet das Modell die Wahrscheinlichkeit des nächsten Pixels/Tokens basierend auf allen bereits generierten Teilen.
  • Vorteil: Ermöglicht das Zusammenstellen ganzer Objekte und komplexer Szenen (bis zu 20 Elemente in GPT-4O).
  • Erklärt die bessere Handhabung von Schriftarten in Bildern, da Auto Regressive Models den Kontext berücksichtigen können (ähnlich wie Transformer-Modelle in der Sprachverarbeitung).
  • Die Annahme ist, dass GPT-4O eine Kombination aus Diffusion Models (für das Hintergrundbild/Szenario) und Auto Regressive Models (für Objekte und Text) verwendet.
  • Hinweise auf diese Kombination wurden in frühen Posts von OpenAI gefunden (Easter Eggs).

Hashtags:

Llama4 #Meta #OpenAI #GPT5 #MidjourneyV7 #BilderKI #KItools #ACE #LindyAI #ProfessionalServices #Disruption #KIinDeutschland #Datacenter #Rechenzentrum

Flüssigkühlung #NotebookLM #DiffusionModels #AutoRegressiveModels #KIModelle

TokenWindow #ReasoningModelle #KIUpdate #TechNews #OpenSourceKI #MixOfExperts

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.