Außerdem: MidJourney, Claude 3 Haiku, Inflection 2.5, die Erfinder des Transformer vorgestellt ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏
Smart Content Report #6
Bessere Prompts für KI-Bildgeneratoren
KI-Bildgeneratoren wie Stable Diffusion, MidJourney oder Dall-E können heute bereits erstaunliche Resultate liefern. Wer diese Werkzeuge allerdings schon einmal selbst ausprobiert hat, wird feststellen: Ganz so einfach auf Knopfdruck geht es dann doch nicht. Wer verlässlich und regelmäßig gute Ergebnisse erzielen will, muss sich mit den Eigenarten dieser Angeboten beschäftigen. Dazu gehört ähnlich wie bei KI-Textgeneratoren der Hinweis: Je vager der Prompt, desto austauschbarer und zufälliger das Ergebnis. Hier nun zunächst einige generelle Tipps für bessere Prompts: - Aussagekräftige Sprache. Beschreibe detailliert, was du sehen möchtest. Dazu gehören Dinge wie Farben, Texturen, Beleuchtung und Komposition.
- Stile und Techniken. Denke darüber nach, welchen Stil das Ergebnis haben soll. Das können Kunstrichtungen sein, genutzte Materialien oder auch die Art eines Fotos.
- Motiv und Kontext. Erkläre das Hauptmotiv des Bildes und füge bei Bedarf außerdem Informationen zum Kontext hinzu wie etwa den Ort oder die Tageszeit.
- Komposition und Perspektive. Der Wunsch nach einer Nahaufnahme wird zu einem anderen Ergebnis führen als ein Luftbild.
- Stimmung und Gefühle. Ja, du kannst auch ergänzen, welche Stimmung oder Gefühle das Bild vermitteln soll. Ist es eher humorvoll oder eher melancholisch?
Wie du siehst: Du brauchst idealerweise bereits eine Vorstellung davon, wie das Ergebnis aussehen soll. Dabei musst du aber keinesfalls alle oben genannten Punkte benennen. Zugleich gilt: Je genauer du deine Idee im Kopf hast, desto frustrierender kann die Umsetzung sein. Denn heutige KI-Werkzeuge straucheln beispielsweise bei Bildideen, für die es in ihrem Trainingsmaterial nicht genug (oder gar keine) Beispiele gibt. Du wirst mit der Zeit lernen, was verlässlich gut funktioniert und wo es schwierig wird. Einige weitere Tipps zum Vorgehen an dieser Stelle: - Je nach KI kannst du ein vorhandenes Bild oder Foto als Vorlage nutzen. Sogar Skizzen können ausreichen. Auf diese Weise kannst du etwa die Bildkomposition oder eine bestimmte Körperhaltung bestimmen.
- Verbessere dein Verständnis für die Stärken und Schwächen des Werkzeugs Schritt für Schritt.
- Jedes Tool ist anders und sogar eine neue Version kann eine andere Ausrichtung haben als du bislang kennst. Experimentiere deshalb so viel wie möglich!
- Schaue dich nach guten Vorbildern um und merke dir Begriffe für den Prompt, die zu gewünschten Ergebnissen führen. Kopiere allerdings nicht alles wahllos, denn so manche KI-Profis nutzen viel zu lange Prompts, weil sie nie getestet haben, was davon tatsächlich wirkungsvoll ist und was nicht. Bei Ideogram kannst du beispielsweise sehen, was andere generieren und mit welchen Prompts.
Die Anbieter dieser Werkzeuge haben inzwischen selbst erkannt, dass es vielen Nutzer:innen schwer fällt, ihre Bildidee in Worte zu fassen. Deshalb übernimmt das bei Dall-E beispielsweise ChatGPT: Du erklärst dem Chatbot möglichst genau, was du brauchst und der setzt es in einen passenden Prompt um. Ideogram macht dies ebenfalls automatisch und zeigt dir stets an, welchen erweiterten Prompt es genutzt hat. Und Google wiederum experimentiert mit einer Benutzeroberfläche, bei der du Alternativen zu deinen bisherigen Begriffen aus dynamisch generierten Pulldown-Menüs wählen kannst. Auch das hilft dabei, auf neue Ideen zu kommen. Insofern: In nicht allzu ferner Zukunft werden deine Prompt-Künste vielleicht nicht mehr so wichtig sein, da es die Tools selbst übernehmen oder dich aktiv unterstützen. Dennoch glaube ich: Auch dann wird es weiterhin gut sein, die Details zu verstehen, um gezielt auf Ergebnisse hinzuarbeiten. - Jan Tißler, UPLOAD Magazin
|
|
ANZEIGE
neuroflash: Die Nr.1 KI Content Suite für Marketing Teams
|
|
neuroflash ist die führende KI-Software zur Contentgenerierung im deutschsprachigen Raum. Das ist auch kein Wunder: Kein anderes Tool hat eine so hohe Qualität bei deutschen Texten wie das Angebot aus Hamburg. Schließe dich über 1 Million professionellen Content Creators und Teams an und transformiere deine Arbeit mit KI!
|
|
|
Möchtest du hier erscheinen?
Schalte eine Anzeige in den Newslettern des UPLOAD Magazins und erreiche über 4.000 interessierte Leser:innen.
|
|
|
|
NEUE TOOLS
Bei MidJourney bleiben Personen nun bei Bedarf konstant
Bislang sind Bildgeneratoren wie MidJourney nicht gut geeignet, wenn du eine spezifische, fiktive Person in weiteren Bildern verwenden möchtest. Eine solche Konsistenz ist für viele Anwendungen allerdings zwingend notwendig. Man denke hier etwa an Comics oder auch an Marketingmaterialien. Bei Stable Diffusion lässt sich das beispielsweise über „LoRAs“ lösen. Der technische Aufwand ist allerdings nichts für Laien. Eine andere Möglichkeit ist es, Prominente als Ausgangspunkt zu nutzen, die sich im Trainingsmaterial der KI finden. Das ist allerdings nicht immer sinnvoll oder rechtlich einwandfrei. Nun experimentiert MidJourney mit einer Funktion, die genau das mit geringem Aufwand ermöglichen soll: Du verweist dazu in deinem Prompt auf ein anderes Bild, das die gewünschte Person bereits zeigt. Die kannst du nun in neuen Werken nutzen und etwa den Hintergrund, die Bildkomposition, den Gesichtsausdruck, die Körperhaltung und einiges mehr anpassen. Ein Artikel bei VentureBeat erklärt es und zeigt Beispiele.
|
|
Claude 3 Haiku ist schnell und kostengünstig
Anthropic hatte kürzlich mit Claude 3 die neueste Version seines KI-Sprachmodells vorgestellt. Nach dem mittleren Angebot „Sonnet“ und dem größten und teuersten „Opus“ ist nun auch „Haiku“ verfügbar. Es lockt mit niedrigen Preisen und schnellen Antworten. Leider ist Claude weiterhin nicht offiziell in Europa nutzbar.
|
|
Inflection 2.5 verspricht Leistung auf dem Level von GPT-4
Inflection hat Inflection-2.5 veröffentlicht, eine aktualisierte Version seines persönlichen KI-Assistenten Pi, die mit führenden Sprachmodellen wie GPT-4 konkurrieren kann. Inflection-2.5 erreicht eine hohe Leistung in einer Reihe von Benchmarks und benötigt dabei nur 40% der Rechenleistung von GPT-4. Die Grundidee von Inflection ist es, den KI-Assistenten Pi persönlicher zu machen. Er soll dabei „hilfreich und sicher“ sein. Das Startup beschreibt ihn als einen „freundlichen und unterstützenden Begleiter“. Er ist verfübgar für Android, iOS, Web und Desktop. Quelle: VentureBeat
|
|
Weitere Tools in aller Kürze
Ein neues, offenes KI-Modell ist besonders folgsam. Während kommerzielle KI-Angebote viele Leitplanken und Schranken einbauen, um sie gegen Missbrauch zu sichern, wirbt das offene Modell Liberated-Qwen1.5-72B damit, dass es keine solche Beschränkungen hat. Stattdessen ist es speziell darauf trainiert, strikt den Vorgaben zu folgen. Dadurch lässt es sich weniger leicht austricksen. Zugleich muss man aber selbst festlegen, welche Antworten und Themen erlaubt sind. Quelle: VentureBeat
OpenAI will die Video-KI Sora „noch dieses Jahr“ auf den Markt bringen. Das Angebot hatte mit seinen Probevideos für Aufsehen gesorgt, da sie einen erheblichen Qualitätssprung versprechen. Quelle: The Verge Command-R ist ein neues Sprachmodell speziell für den Einsatz in Unternehmen. Das Startup Cohere hat den Enterprise-Markt im Auge. Sein Modell Command-R soll mit seiner Flexibilität überzeugen. Dazu gehört ein großes Kontextfenster von 128.000 Token und es kann auf externe Informationen via RAG zugreifen. (Wir hatten den Begriff RAG in Smart Content Report #1 erklärt.) Quelle: VentureBeat Skyvern will browserbasierte Aufgaben automatisieren. Die Idee: Man gibt der KI einen Auftrag in natürlicher Sprache und sie macht sich selbstständig an die Arbeit. Quelle: Hacker News Kolena ist eine Testplattform für KIs. Wer als Unternehmen etwa einen Chatbot anbieten will, möchte diesen sicher vorab auf Herz und Nieren testen. Die Plattform Kolena verspricht, diese Arbeit abzunehmen. Quelle: VentureBeat KL3M ist ein Sprachmodell, das fürs Training nur Inhalte aus dokumentierte, legalen Quellen verwendet hat. Es ist das erste solche Modell mit dem „Fairly Trained“-Siegel. Quelle: Wired Individuelle Chatbots erstellen mit dem Microsoft Copilot GPT Builder. Microsofts Partner OpenAI bietet bereits eine Funktion, um Chatbot-Varianten für bestimmte Einsatzzwecke zu erstellen („GPTs“). Eine vergleichbare Funktion gibt es nun für alle Nutzer:innen von Copilot Pro, wie VentureBeat hier berichtet. Video-KI Story.com wirbt mit längeren Clips. Während viele KI-Videos bislang nur einige Sekunden lang sein können, sollen sie bei Story.com bis zu 1 Minute lang sein. Eine Storyboard-Funktion soll dabei helfen, dass die Clips am Ende den Ideen und Bedürfnissen der Nutzer:innen entsprechen. Video-KI Pika ergänzt Ton. Pika bietet bereits eine „Lip Sync“-Funktion, bei der Personen in Videos das Sprechen lernen. Nun kommt eine Option hinzu, um einen generierten Clip zu vertonen, etwa mit Hintergrundgeräuschen und Effekten. Quelle: VentureBeat Google-Forscher zeigen VLOGGER, das aus einem einzigen Foto lebensechte Videos von Menschen erstellen kann, die sprechen, gestikulieren und sich bewegen. Das eröffnet eine Reihe potenzieller Anwendungen, wirft aber auch Bedenken hinsichtlich Fälschungen und Fehlinformationen auf. Quelle: VentureBeat Stable Video 3D erstellt 3D-Modelle aus einem einzigen Foto. Es lässt sich für nicht-kommerzielle Anwendungen kostenlos nutzen. Amazon-KI soll Shops das Leben erleichtern. Ein kleines, feines Beispiel für eine praktische KI-Anwendung zeigt Amazon: Ein Link zu einem Produkt im eigenen Shop genügt, und der Assistent generiert eine Amazon-Produktseite daraus, berichtet The Verge. Das Angebot ist zunächst in den USA verfügbar.
|
|
Aktuelle Meldungen
AWS, Accenture und Anthropic verbünden sich für Enterprise-KI
Amazon Web Services (AWS), Accenture und das KI-Start-up Anthropic (Claude) schließen sich zusammen, um Organisationen in stark regulierten Branchen wie dem Gesundheitswesen, der Regierung und dem Bankwesen bei der schnellen und verantwortungsvollen Implementierung maßgeschneiderter KI-Modelle zu unterstützen.
Die Partnerschaft will es Unternehmen ermöglichen, über die „Bedrock“-Plattform von AWS auf KI-Modelle von Anthropic zuzugreifen, einschließlich der gesamten Claude 3-Familie. Accenture wiederum soll die technische und Branchenexpertise beisteuern, um die Modelle zu verfeinern. Mehr als 1.400 Accenture-Ingenieure werden in der Nutzung der Anthropic-Modelle auf AWS geschult, um Implementierungsunterstützung zu leisten.
|
|
Weitere News in aller Kürze
Jailbreak mit ASCII-Trick. Forscher aus Washington und Chicago haben mit „ArtPrompt“ eine neue Methode entwickelt, um Sicherheitsmaßnahmen in Sprachmodellen zu umgehen. Demnach können Chatbots wie GPT-3.5, GPT-4, Gemini, Claude und Llama2 mit ASCII-Art-Prompts dazu gebracht werden, auf Anfragen zu antworten, die sie eigentlich ablehnen sollten. Dazu gehören etwa Ratschläge zum Bombenbau und zur Herstellung von Falschgeld. Quellen: Tom's Hardware, Ars Technica OpenAIs GTP Store ist voller Spam. Es scheint, das Startup hat nicht viel Zeit, um die angebotenen Chatbots zu kontrollieren, wie TechCrunch zeigt. Stability AI strauchelt. Das britische Startup hat die von Müncher Studenten entwickelte „Diffusion“-Technik für KI-Bildgenerierung populär gemacht. Nun haben Robin Rombach, Andreas Blattmann und Dominik Lorenz das Unternehmen verlassen und damit drei der ursprünglich fünf Personen, die am Forschungsprojekt beteiligt waren. Quelle: Forbes
|
|
Lesetipp
Diese acht Personen haben ChatGPT möglich gemacht – bei Google
Dieser Wired-Artikel erzählt die Geschichte hinter der Entwicklung der „Transformer“, einer revolutionären KI-Architektur, die moderne Sprachmodelle wie ChatGPT antreibt. Ein Team von acht Google-Forschern entwickelte den Transformer im Jahr 2017 auf der Grundlage des Konzepts der Aufmerksamkeit (Attention). Das Team arbeitete intensiv an der Fertigstellung des Papiers vor einem wichtigen Konferenztermin, und ihr Durchbruch wurde von der Google-Führung zunächst übersehen. Inzwischen ist der Transformer zu einer grundlegenden Technologie geworden, und die Forscher haben selbst erfolgreiche KI-Unternehmen gegründet.
|
|
Fundstück
Noch eine Sache, die KI nicht versteht: Spiegel
|
|
KI-Bildgeneratoren scheitern oftmals, weil sie nicht verstehen, was sie dort eigentlich erstellen. Spiegel sind ein schönes Beispiel dafür.
|
|
Was bedeutet …
Merging
Beim Merging werden zwei oder mehr KI-Modelle miteinander kombiniert, um auf diese Weise ein neues Modell zu erstellen. Die Ergebnisse können erstaunlich gut sein und erfordern keine teure Hardware.
|
|
Wir über uns
Gefällt dir dieser Newsletter? Dann empfiehl ihn doch weiter! Verweise dazu am besten auf https://upload-magazin.de/smart-content-report/ Wir haben zwei weitere Newsletter, die für dich relevant sind:
Das Content-Briefing liefert dir immer im Wechsel mit dem Smart Content Report einen praktischen Tipp für deine Content-Arbeit sowie Lesetipps andernorts. Ansehen …
Mit dem Update am Montag wiederum erfährst du einmal pro Woche, welche neuen Inhalte und Angebote du beim UPLOAD Magazin findest. Ansehen …
|
|
|