Außerdem: Google Gemini, OpenAI Sora, Nvidia Chat with RTX sowie weitere News und Lesetipps ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­ ͏ ‌     ­
Logo
‌
‌
Smart Content Report #4

Ein Überblick zu KI-Bildgeneratoren

Während die Aufmerksamkeit oft mehr bei den textbasierten KI-Angeboten liegt, haben sich die KI-Bildgeneratoren wie Dall-E, Stable Diffusion, MidJourney und andere stark weiterentwickelt.

Hier eine Übersicht wichtiger Angebote:

☞ Dall-E 3

Dall-E kommt wie ChatGPT von OpenAI und ist in die Oberfläche des Chatbots integriert. Als Nutzer erklärst du also ChatGPT was du brauchst und der KI-Assistent gibt Dall-E die entsprechenden Anweisungen. Im Hintergrund erstellt Dall-E verschiedene Varianten und eine davon wird dir als Ergebnis präsentiert.

Du kannst im nächsten Schritt um Änderungen und Verbesserungen bitten. Allerdings erstellen ChatGPT und Dall-E dann immer ein komplett neues Bild. Du kannst also nicht etwa darum bitten, dass nur ein Detail geändert wird.

Tipps:

  1. Beschreibe ChatGPT möglichst genau, wofür du das Bild brauchst und welchen Zweck es erfüllen soll.
  2. Experimentiere mit verschiedenen Stilen, ansonsten sehen deine Bilder austauschbar aus. Frage also beispielsweise explizit nach einer „minimalistischen Grafik“ oder einem „3D Render“.

Fazit: Dall-E eignet sich perfekt für Einsteiger und eilige Nutzer, da es keinerlei Einstellungen gibt. Die Qualität der Ergebnisse ist gut. Der Mangel an Optionen und Freiheiten ist allerdings frustrierend, wenn man ein bestimmtes Motiv vor Augen hat. Es funktioniert somit am besten, wenn du dich von der KI inspirieren und leiten lässt.

☞ Stable Diffusion

Stable Diffusion ist eine Familie von KI-Modellen von Stability AI. Das Besondere: Sie sind open source und stehen damit frei zur Verfügung.

Es hat sich in Windeseile eine höchst aktive Community rund um diese Bildgeneratoren entwickelt. Deshalb gibt es diverse Möglichkeiten, Stable Diffusion kostenlos auf dem eigenen Rechner zu nutzen – selbst Apps für Tablets und Smartphones gibt es. 

Stable Diffusion in Reinform ist nicht einsteigerfreundlich, da es eine lange Liste von Optionen und Funktionen gibt. Zudem musst du dich hier im Gegensatz zu Dall-E selbst um den Textbefehl (Prompt) kümmern.

Im Umkehrschluss bedeutet das: Hast du dich in Stable Diffusion eingearbeitet, hast du enorme Freiheiten. Es ist sicherlich das mächtigste Angebot.

Tipps:

  1. Du kannst Stable Diffusion hier kostenlos ausprobieren. Willst du mehr Optionen, findest du hier die Demo einer komplexeren Weboberfläche.
  2. Interessant ist auch die Toolsammlung Clipdrop, die im Hintergrund Stable Diffusion nutzt, um etwa den Hintergrund eines Fotos zu entfernen. Sehr beeindruckend ist darüber hinaus Stable Diffusion Turbo, das Bilder in Windeseile generiert.
  3. Willst du es genauer testen, nutze das DreamStudio.
  4. Für Fortgeschrittene gibt es browserbasierte Oberflächen wie Automatic1111 und ComfyUI. Für Apple-Geräte empfiehlt sich die kostenlose App Draw Things für Mac, iPad, iPhone.
  5. Finde Tipps und Tricks auf der Seite Stable Diffusion Art (Hinweis: Nicht alle Bilder auf der Seite sind geeignet fürs Aufrufen in der Öffentlichkeit)

Fazit: Stable Diffusion fühlt sich für mich an wie Photoshop und ähnlich mächtige Anwendungen. Am Anfang fällt es deshalb schwer, gute Ergebnisse zu erzielen. Aber wer sich vor der Lernkurve nicht scheut, hat hier ein enorm hilfreiches Werkzeug zur Hand, das sich sogar kostenlos nutzen lässt.

☞ MidJourney

MidJourney ist beliebt, aber ich gebe an dieser Stelle ganz offen zu, dass ich es bislang nicht einsetze. Der Grund: Es war lange Zeit nur über die Chatplattform Discord nutzbar, was ich persönlich abschreckend fand. Es machte den Prozess unnötig umständlich.

Inzwischen scheint MidJourney an einer leichter verständlichen und nutzerfreundlicheren Oberfläche zu arbeiten. Insofern werde ich es sicher demnächst noch einmal ausprobieren, sobald die tatsächlich live geschaltet ist.

Die Ergebnisse, die ich im Netz sehe, können durchaus beeindruckend sein, allerdings gilt das auch für Dall-E und Stable Diffusion.

Fazit: Will ich schnell und einfach ein Bild generieren, ist Dall-E besser und simpler. Will ich experimentieren und viele Optionen haben, führt kein Weg an Stable Diffusion vorbei. MidJourney scheint sehr beliebt und führt offenbar schnell zu guten Ergebnissen. Insofern könnte dieser Dienst künftig einen Platz zwischen den beiden anderen genannten ergattern.

☞ Weitere Angebote

Der Markt entwickelt sich schnell weiter. Hier einige weitere Angebote in aller Kürze:

Meta/Facebook: Imagine with Meta ist derzeit nur in den USA verfügbar. Es generiert vier Bilder zu einem Textprompt und ist derzeit kostenlos nutzbar. Login ist Pflicht. Alle Bilder haben ein sichtbares Wasserzeichen, das sie als KI-generiert kennzeichnet.

Microsoft: Image Creator from Designer war vorher bekannt als Bing Image Creator und nutzt hinter den Kulissen Dall-E (siehe oben). Es ist eine gute Möglichkeit, Dall-Es Fähigkeiten gratis auszuprobieren, wenn man mit den teils strikten Beschränkungen leben kann: Die KI verweigert sich sehr schnell auch bei harmlos scheinenden Bildbeschreibungen. Es ist in Microsofts Copilot Chatbot integriert (früher Bing Chat). Es setzt Microsofts Edge-Browser voraus.

Google: ImageFX ist derzeit eine Vorschau. Seine Besonderheit: Es möchte die Nutzer dabei unterstützen, Bildideen zu entwickeln und mit verschiedenen Stilen und Motiven zu experimentieren. Deshalb werden Teile des Textprompts automatisch zu Pulldownmenüs, mit denen sich schnell Alternativen auswählen lassen. Alle Bilder enthalten ein unsichtbares Wasserzeichen.

Amazon: Der Titan Image Generator steht derzeit für Nutzer des Dienstes AWS Bedrock zur Verfügung.

Welche Bildgeneratoren hast du ausprobiert und welche Erfahrungen hast du damit gemacht? Antworte mir dazu einfach auf diese E-Mail!

- Jan Tißler, UPLOAD Magazin

‌
ANZEIGE

neuroflash: Die Nr.1 KI Content Suite für Marketing Teams

Screenshot Neuroflash
‌

neuroflash ist die führende KI-Software zur Contentgenerierung im deutschsprachigen Raum. Das ist auch kein Wunder: Kein anderes Tool hat eine so hohe Qualität bei deutschen Texten wie das Angebot aus Hamburg.

Schließe dich über 1 Million professionellen Content Creators und Teams an und transformiere deine Arbeit mit KI!

Mehr erfahren
‌
‌

Möchtest du hier erscheinen?

Schalte eine Anzeige in den Newslettern des UPLOAD Magazins und erreiche über 4.000 interessierte Leser:innen.

Mehr erfahren
‌
‌
Aktuelle Meldungen

Viele Updates für Google Gemini

Google hat die Schlagzahl bei der KI-Entwicklung sichtbar erhöht. Zugleich vereint das Unternehmen seine Aktivitäten unter der Marke „Gemini“. Der ChatGPT-Konkurrent Google Bard hört deshalb nun auf den Namen Google Gemini und die proprietären KI-Modelle heißen ebenfalls Gemini.

Bislang nutzte Googles Chatbot das „Gemini Pro“ KI-Modell, nun ist außerdem „Gemini Ultra“ in seiner Version 1.0 verfügbar, sofern man $20/Monat bezahlt. Das ist grob vergleichbar mit ChatGPT Plus und GPT-4. Aber nur grob, denn die Suchmaschine kombiniert dieses Angebot mit seinem „Google One“-Abo, weshalb man bspw. auch 2 TB Cloudspeicher und andere Vorteile bekommt. Wer also bereits „Google One Premium“ für $9,99/Monat hat, bezahlt $10/Monat extra für das leistungsfähigste KI-Angebot. Das dürfte für viele Interessenten ein gutes Argument sein.

Ähnlich wie GPT-4 ist Gemini Ultra „multi modal“, es kommt also nicht nur mit Text zurecht, sondern kann außerdem hochgeladene Bilder verarbeiten und interpretieren, Links besuchen, und Bilder mit Googles Imagen 2 erstellen. Hier findest du einen Vergleich.

Google ist zudem ähnlich wie Microsoft dabei, den KI-Helfer in andere Angebote und Produkte zu integrieren. Ein Beispiel ist „Gemini for Google Workspace and Google Cloud“, ehemals bekannt als „Duet AI“. Gemini hilft hier etwa beim Schreiben von E-Mails oder fasst Dokumente zusammen.

Gemini findet sich außerdem in Apps für Android-Smartphones und iPhones. Android-Nutzer können Gemini sogar als Ersatz für den Google Assistant einsetzen. Hier ein Erfahrungsbericht.

Nicht zuletzt gibt Google eine Vorschau auf Gemini Pro in der Version 1.5. Es soll in seinen Fähigkeiten mit dem aktuellen Gemini Ultra vergleichbar sein und hat ein atemberaubend großes Kontextfenster von 1 Million Token. Dieser Wert bestimmt, wie viele Informationen die KI gleichzeitig überblicken kann. Zum Vergleich: OpenAIs aktuelles Spitzenprodukt GPT-4 Turbo schafft 128.000 Token, Anthropics Claude liegt bei 200.000.

Ein so großes Kontextfenster eröffnet neue Anwendungsfelder, da die KI etwa mit 10 Stunden Video oder zehntausenden Codezeilen zugleich arbeiten kann. Es ist nicht bekannt, ab wann Gemini 1.5 Pro der Allgemeinheit vorgestellt wird.

Quellen: Ars Technica, The Verge, TechCrunch, The Verge

Ansehen

OpenAI Sora: KI-Videos in neuer Qualität

OpenAI hat mit einer Vorschau auf die Video-KI „Sora“ für viel Aufsehen und Aufregung gesorgt. Die Beispiele auf der offiziellen Website sind tatsächlich beeindruckend. Ohne eigene Tests lässt sich bislang allerdings nicht sinnvoll einschätzen, wie gut Sora im Alltag funktioniert und wofür die Videoclips nutzbar sind. Es ist nicht bekannt, ab wann Sora für alle freigegeben wird.

Ansehen

Nvidia Chat with RTX: Lokale KI

In Smart Content Report #3 hatten wir bereits das Konzept der „Local LLMs“ vorgestellt: KI-Assistenten vom Schlage eines ChatGPT, die aber nicht in der Cloud arbeiten, sondern auf deinem eigenen PC oder einem selbstbetriebenen Server. Eine Herausforderung ist dabei die Geschwindigkeit der Antworten. Nvidia hat nun „Chat with RTX“ vorgestellt, das die Rechenpower der hauseigenen Grafikkarten nutzt. Eine kostenlose Demo-App gibt einen ersten Vorgeschmack. Hier ein Erfahrungsbericht bei The Verge und hier ein weiterer bei Windows Central.

Ansehen

Weitere News in aller Kürze

ChatGPT bekommt (versuchsweise) ein Gedächtnis. Bislang lernt der KI-Bot nicht dazu und jeder Chat ist vollkommen separat von anderen. OpenAI testet nun eine Funktion, bei der ChatGPT sich an wichtige Details aus anderen Gesprächen erinnern kann. Es ist bislang für einige wenige Nutzer verfügbar, um Erfahrungen zu sammeln und die Funktion zu optimieren. Quelle: OpenAI

Cohere Aya spricht 101 Sprachen. Die gemeinnützige Organisation Cohere for AI hat sein Large Language Model Aya vorgestellt, das 101 Sprachen beherrscht – mehr als doppelt so viele wie andere KI-Werkzeuge. Quellen: VentureBeat, Cohere

KI-Bildgenerator Stable Cascade funktioniert auf handelsüblichen PCs. Die Macher von Stable Diffusion (siehe oben) geben eine Vorschau auf Stable Cascade, das sich dank seiner speziellen Architektur auch auf PCs ohne spezialisierte und teure Hardware nutzen lässt. Quelle: Stability.ai

Slack mit neuen KI-Funktionen. Wer Slack in größeren Unternehmen und über lange Zeit nutzt, hat es nicht so leicht, up-to-date zu bleiben und Informationen wiederzufinden. KI-Helfer sollen das ändern: Sie fassen etwa Diskussionen zusammen oder verbessern die Suchfunktion. Quellen: VentureBeat, The Verge

Google zeigt Gemma, eine neue Familie von Open-Source-KI-Modellen. Während Googles Gemini-Angebote (siehe oben) proprietär sind, hat das Unternehmen nun zwei Open-Source-Modelle unter dem Namen Gemma vorgestellt, die sich frei nutzen lassen. Sie sind nach offiziellen Angaben auf Grundlage derselben Techniken entstanden, die für Gemini zum Einsatz kamen. Mit 2 Milliarden und 7 Milliarden Parametern sind die beiden Gemma-Modelle klein und haben begrenzte Fähigkeiten. Dafür dürften sie aber auch auf handelsüblichen PCs und Mobilgeräten nutzbar sein. Quellen: The Verge, Google

Air Canada muss für falsche Auskunft seines Chatbots geradestehen. Der Chatbot von Air Canada hat einem Kunden eine falsche Auskunft zu den Bedingungen für eine Erstattung gegeben. Vor Gericht argumentierte die Fluggesellschaft, der Chatbot sei für seine Aussagen selbst verantwortlich, nicht Air Canada. Das sah das Gericht anders und das Unternehmen musste zahlen. Quelle: The Guardian

‌
Lesetipps

Eine halbe Million Dollar mit KI-erzeugten Spam-Inhalten

Nebojša Vujinović Vujo kauft aufgegebene Nachrichtenwebsites und füllt sie mit KI-generierten Inhalten, um Werbeeinnahmen zu erzielen. Vujos profitabelster Erwerb war The Frisky, das im ersten Jahr über 500.000 US-Dollar Umsatz erzielte. Die Besucherzahlen seiner Websites sind jedoch im Laufe der Zeit gesunken, möglicherweise weil Suchmaschinen besser darin werden, Spam-Inhalte zu erkennen.

Lesen

Kostenloser Leitfaden „Künstliche Intelligenz im digitalen Marketing“

Der Branchenverband Bitkom hat einen kostenlosen Leitfaden für generative KI veröffentlicht, der sich an Profis und Entscheidungsträger:innen im digitalen Marketing richtet.

Ansehen

Wie verdienen Websites Geld, wenn nur noch KI-Bots die Leser sind?

Das Unternehmen The Browser Company hat mit Arc Search eine App für iPhones und iPads vorgestellt, die auf eine Suchanfrage des Nutzers hin das Web durchsucht und die gefundenen Informationen auf einer Seite präsentiert. Klickt jemand auf eine der gelisteten Quellen, werden u.a. Anzeigen automatisch geblockt. Pranav Dixit fragt sich in seinem Artikel bei Engadget, wie Websites in einer KI-dominierten Welt noch Geld verdienen könnten.

Lesen
‌

You don’t need a generative AI strategy. You need a content strategy that may or may not be optimized by generative AI.

Robert Rose
‌
Fundstück

Die Uhrzeit als Gedicht

Poem/1 Illustration
‌

Poem/1 ist eine Uhr der besonderen Art: Sie erzeugt mithilfe von ChatGPT ein Gedicht zur aktuellen Uhrzeit und zeigt es auf einem E-Paper Display an. Das Projekt lässt sich auf Kickstarter unterstützen.

Ansehen
‌
Was bedeutet …

Temperature

Die „Temperature“-Option ist ein Wert zwischen 0 und 1, der die Kreativität der KI-Antworten beeinflusst.

Konkret: Je näher der Wert an der 0 ist, desto eher entscheidet sich die KI für die wahrscheinlichste Variante. Je näher an der 1, desto eher haben unwahrscheinlichere Optionen eine Chance.

Im Kern sind Large Language Models schließlich KI-Systeme, die laufend den nächsten Textbestandteil (Token) vorhersagen, wenn sie eine Antwort generieren.

Erhöht man die Temperatur, wird der Output zufälliger.

Quelle
‌
Wir über uns

Gefällt dir dieser Newsletter? Dann empfiehl ihn doch weiter! Verweise dazu am besten auf https://upload-magazin.de/smart-content-report/

Wir haben zwei weitere Newsletter, die für dich relevant sind:

Das Content-Briefing liefert dir immer im Wechsel mit dem Smart Content Report einen praktischen Tipp für deine Content-Arbeit sowie Lesetipps andernorts. Ansehen …

Mit dem Update am Montag wiederum erfährst du einmal pro Woche, welche neuen Inhalte und Angebote du beim UPLOAD Magazin findest. Ansehen …

‌
‌
‌
Teil das auf FacebookTeil das auf InstagramTeil das auf YoutubeTeil das auf Linkedin
‌
Du bekommst diese E-Mail, weil du dich auf der Website des UPLOAD Magazin als in einen Newsletter eingetragen hast, weil wir dich als Kunden über ein Update informieren möchten oder weil du ein Abonnent des Magazins bist. Wenn du diese E-Mails nicht weiter bekommen möchtest, kannst du dich hier abmelden
Webversion - abmelden - Profil aktualisieren
Logo
© 2025 UPLOAD Magazin
Verantwortlich: CONTENTMEISTER LLC, Jan Tissler, 2850 Calle de Oriente, Santa Fe, NM 87507, Vereinigte Staaten – Telefon: +49-3212-5115781 – Ust-ID: DE337685849 – Impressum auf der Website: upload-magazin.de/impressum – Datenschutzerklärung: upload-magazin.de/datenschutzerklarung
‌
‌