Außerdem: Konkurrenzkampf der KI-Bildgeneratoren, Gemini Live, Urheberrecht, Deepfakes als Betrugsmasche und mehr ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏
Smart Content Report #17
FLUX.1 vorgestellt: Alternative zu Midjourney und Dall-E aus Deutschland
Der Markt für KI-Bildgeneratoren hat zuletzt viel Bewegung gesehen und nun melden sich einige der führenden Köpfe dahinter mit einem eigenen Produkt zurück. FLUX.1 ist eine Familie von drei KI-Modellen, entwickelt vom Startup Black Forest Labs aus Deutschland. Robin Rombach, Andreas Blattmann und Dominik Lorenz gehören zum Team und waren vorher für Stability AI tätig, die mit Stable Diffusion frei verfügbare KI-Bildgeneratoren vorangebracht haben. Ebenfalls dabei ist Patrick Esser, der die grundlegende „latent diffusion“-Methode mitentwickelt hat. Die Ergebnisse von FLUX.1 sind beachtlich. Fachleute sehen die Resultate auf Augenhöhe mit kommerziellen Angeboten wie Midjourney und Dall-E (Teil von ChatGPT). Ich selbst habe die kostenlose Version von FLUX.1 über die App „Draw Things“ auf meinem Mac getestet und bin von den ersten Ergebnissen sehr angetan. FLUX.1 kommt bei alledem in drei Varianten: - FLUX.1 pro ist das beste Modell, aber dafür nur gegen Bezahlung über eine Schnittstelle (API) nutzbar. Das ist die Version, die du z.B. bei Plattformen für KI-Bilder vorfinden wirst.
- FLUX.1 dev ist von der Pro-Version abgeleitet und für Entwickler gedacht. Die generierten Bilder darfst du nicht kommerziell nutzen (siehe Lizenzbedingungen).
- FLUX.1 schnell zu guter Letzt erreicht nicht ganz die gleiche Qualität, steht dafür aber kostenlos zur Verfügung und ist unter der Apache-2.0-Lizenz veröffentlicht. Das bedeutet, dass du die Bilder für kommerzielle Zwecke verwenden darfst. Zudem ist die Schnell-Version kompakter und lässt sich auf einem Desktop-PC nutzen – sofern du die technische Hürde dafür nicht scheust.
FLUX.1 ist für mich persönlich der neue Standard, wenn es um frei verfügbare KI-Bildgenerierung geht. Und selbst bei den bezahlten, kommerziellen Angeboten scheint es oftmals ebenbürtig. Ausprobieren: HuggingFace (schnell), HuggingFace (dev), Fal.ai (schnell), Fal.ai (dev), NightCafe, BasedLabs Black Forest Labs hat 31 Millionen US-Dollar Startkapital erhalten, unter anderem von Andreessen Horowitz. Unklar ist leider wie so oft, woher die Trainingsdaten stammen. Quellen: Ars Technica, TechCrunch, Tom's Guide, VentureBeat, Black Forest Labs - Jan Tißler, UPLOAD Magazin
|
|
In eigener Sache
KI & Content: Individuelle Schulungen für Unternehmen
|
|
Erweitere dein Content-Team um passende KI-Tools für mehr Produktivität, Effizienz und Qualität.
In unseren individuellen Schulungen zeigen wir, wie dein Team ChatGPT, Bing Copilot, Perplexity und andere sinnvoll und zielgerichtet einsetzen kann und ermöglichen so die Integration in den produktiven Einsatz. Wir stellen deinem Team alle wichtigen KI-Tools vor, üben den gekonnten und zielgerichteten Einsatz und erarbeiten effiziente Workflows für noch besseren Content.
|
|
|
Möchtest du hier erscheinen?
Schalte eine Anzeige in den Newslettern des UPLOAD Magazins und erreiche über 4.000 interessierte Leser:innen.
|
|
|
|
TOOLS
Konkurrenzkampf bei KI-Bildgeneratoren wird stärker
Anbieter von KI-Bildgeneratoren haben ihre Dienste zuletzt deutlich erweitert und verbessert. Ideogram präsentierte etwa die Version 2.0 mit deutlich verbesserter Textwiedergabe – und war in diesem Bereich bereits führend. Das Unternehmen bietet weiterhin einen kostenlosen Zugang zu seiner Plattform an und hat zusätzlich eine iOS-App sowie eine Beta-Version seiner API veröffentlicht. Midjourney wiederum war bislang für Neulinge nur über die Discord-Plattform nutzbar und öffnet nun seine deutlich benutzerfreundlichere Web-Version für alle. Neue Nutzer können 25 Bilder kostenlos generieren, um den Service auszuprobieren. OpenAI wiederum ermöglicht nun auch Nutzern mit kostenlosen ChatGPT-Accounts, täglich bis zu zwei Bilder mit DALL-E 3 zu erstellen. Google wiederum hat Imagen 3, sein neuestes Text-zu-Bild-Modell, für alle Nutzer in den USA über die ImageFX-Plattform zugänglich gemacht. Quellen: Ideogram, VentureBeat, VentureBeat, The Verge, VentureBeat
|
|
Gemini Live ist Googles Antwort auf ChatGPTs Advanced Voice Mode
Google hat eine neue Sprachfunktion namens Gemini Live vorgestellt, die natürliche Gespräche mit dem KI-Assistenten des Unternehmens ermöglichen soll. Es ist zunächst für Android-Geräte verfügbar und bietet zehn verschiedene Stimmen zur Auswahl. Ersten Berichten zufolge zeigt Gemini Live jedoch noch einige Schwächen. Tester bemängeln technische Probleme sowie Ungenauigkeiten und Widersprüche in den Antworten. Auch die Persönlichkeit des Assistenten wird als eher farblos beschrieben. Google plant, die Funktionalität in Zukunft zu erweitern, unter anderem durch Kontextbewusstsein für Bildschirminhalte. Mit Gemini Live tritt Google in direkte Konkurrenz zu OpenAIs ChatGPT Advanced Voice Mode. Experten sehen neben den Möglichkeiten der Technologie auch potenzielle Risiken, etwa bei der Nachahmung von Stimmen. Quellen: The Verge, TechCrunch, VentureBeat
|
|
Weitere Tools in aller Kürze
VIDEO:
Eine neue Software namens Deep-Live-Cam sorgt für Aufsehen in sozialen Medien. Sie ermöglicht es, das Gesicht einer Person aus einem einzelnen Foto in Echtzeit auf einen Webcam-Stream zu übertragen. Dabei werden Pose, Beleuchtung und Mimik des Webcam-Nutzers übernommen. Das Open-Source-Projekt ist kostenlos auf GitHub verfügbar. Experten warnen vor möglichem Missbrauch für Betrug oder Identitätsdiebstahl. Luma AI hat eine verbesserte Version seines KI-gestützten Videomodells veröffentlicht. Dream Machine 1.5 bietet realistischere Videos, besseres Motion Tracking und ein intuitiveres Verständnis von Textanweisungen. Eine der wichtigsten Neuerungen ist die Fähigkeit, Text in generierte Videos einzubinden. Das Modell kann zudem nun auch nicht-englische Eingaben verarbeiten und mehrsprachige Inhalte erstellen. Die Geschwindigkeit wurde ebenfalls deutlich erhöht: Fünf Sekunden Video werden in etwa zwei Minuten generiert. Runway ML hat eine neue Version seines KI-Videomodells veröffentlicht: Gen-3 Alpha Turbo kann Videos siebenmal schneller generieren als sein Vorgänger und kostet dabei nur die Hälfte. Das Modell ist für alle Zugänge verfügbar, auch in der kostenlosen Testversion. Laut Runway-CEO Cristóbal Valenzuela dauere das Tippen eines Satzes nun länger als die Videogenerierung. Hotshot ist ein neues KI-Modell für Videos aus Texteingaben. Es ist derzeit als „early preview“ verfügbar. Nutzer können auf der Website kostenlos bis zu 10 Sekunden lange Videos in 720p-Auflösung generieren, allerdings ist die kostenlose Version auf zwei Generierungen pro Tag begrenzt. Das Modell wurde in nur vier Monaten von einem vierköpfigen Ingenieurteam entwickelt. Laut den Entwicklern ist Hotshot derzeit das fortschrittlichste öffentlich verfügbare Modell seiner Art. BILDER:
Adobe hat ein leistungsfähiges KI-Modell namens „Magic Fixup“ für die Bildbearbeitung vorgestellt. Benutzer nehmen hier grobe Änderungen an einem Bild vor, die die KI dann verfeinert. Das System hat aus Millionen von Videoframe-Paaren gelernt, um Objekte und Szenen unter verschiedenen Bedingungen zu verstehen. Adobe hat den Forschungscode auf GitHub veröffentlicht. TEXT:
Nous Research hat das erste vollständig feinabgestimmte Modell von Meta's Llama 3.1 405B vorgestellt: Hermes 3. Das Modell ist über die Lambda Chat Completions API und Lambda Chat-Oberfläche verfügbar. Hermes 3 übertrifft Llama 3.1 Instruct in Open-Source-LLM-Benchmarks. Es wurde speziell für komplexes Rollenspiel und kreatives Schreiben optimiert. Forscher der Tsinghua-Universität in Peking haben ein KI-System entwickelt, das zusammenhängende Texte mit über 10.000 Wörtern produzieren kann. Das Team um Yushi Bai entdeckte, dass die Ausgabelänge eines KI-Modells direkt mit der Länge der Texte zusammenhängt, die es während des Trainings sieht. Daraufhin erstellten sie „LongWriter-6k“, einen Datensatz mit 6.000 Schreibproben zwischen 2.000 und 32.000 Wörtern. Ihr 9-Milliarden-Parameter-Modell übertraf in der Folge auch größere proprietäre Modelle. Die Forscher haben ihren Code und ihre Modelle auf GitHub veröffentlicht. Salesforce hat eine neue Reihe von Open-Source-KI-Modellen namens xGen-MM veröffentlicht. Sie können Text und Bilder gleichzeitig verarbeiten. Eine Besonderheit ist die Fähigkeit, „verschachtelte Daten“ („interleaved data“) mit mehreren Bildern und Texten zu verarbeiten. Salesforce stellt verschiedene Varianten des Modells zur Verfügung, darunter eine für Anweisungen optimierte und eine auf Sicherheit getrimmte Version. Microsoft hat drei neue leistungsstarke KI-Modelle der Phi-3.5-Serie veröffentlicht. Alle drei sind auf der Plattform Hugging Face unter einer MIT-Lizenz frei verfügbar, die eine kommerzielle Nutzung erlaubt. In Benchmark-Tests übertreffen sie teilweise Angebote von Konkurrenten wie Google, Meta und OpenAI. Die Modelle unterstützen mehrere Sprachen und können bis zu 128.000 Tokens verarbeiten. Nvidia hat ein neues, kompaktes Sprachmodell namens Llama-3.1-Minitron 4B entwickelt. Das Modell nutzt Techniken wie Pruning und Destillation, um die Leistung größerer Modelle in einem kleineren Format zu erreichen. Das Modell ist auf Hugging Face unter der Nvidia Open Model License verfügbar, die eine kommerzielle Nutzung erlaubt. OpenAI hat ein Update für sein ChatGPT-Modell GPT-4o veröffentlicht. Die Änderung wurde ohne große Ankündigung im Social Web bekannt gegeben. Laut OpenAI basiert das Update auf Nutzerfeedback. Es handelt sich nicht um ein komplett neues Modell. Das Technology Innovation Institute (TII) aus Abu Dhabi hat ein neues Open-Source-Modell namens Falcon Mamba 7B veröffentlicht. Es nutzt die neuartige Mamba State Space Language Model (SSLM) Architektur und übertrifft führende Modelle seiner Größenklasse bei ausgewählten Benchmarks. Im Gegensatz zu herkömmlichen Transformer-Modellen kann Falcon Mamba 7B längere Texte effizienter verarbeiten, ohne zusätzliche Rechenleistung oder Speicher zu benötigen. AUDIO: Pindrop hat ein neues Tool zur Erkennung von KI-generierten Audio-Inhalten vorgestellt. Das webbasierte Programm namens Pulse Inspect soll laut Hersteller mit 99-prozentiger Genauigkeit künstlich erzeugte Sprache in Audio- und Videodateien identifizieren können. Es richtet sich vor allem an Organisationen wie Medienunternehmen oder Behörden, die Desinformation bekämpfen wollen. Pindrop bietet das Programm im Rahmen eines jährlichen Abonnements an und plant günstigere Optionen für Privatnutzer. 3D: Mit dem neuen Angebot von Exists lassen sich 3D-Spiele allein durch Texteingaben erstellen. Das cloudbasierte System nutzt generative KI-Modelle, um Spielumgebungen, Charaktere und Mechaniken ohne Programmierkenntnisse zu generieren. Aktuell befindet sich die Plattform in der geschlossenen Beta-Phase. Exists plant, mit führenden Spielestudios zusammenzuarbeiten, um die Technologie für User Generated Content in bestehende Spiele zu integrieren. Forscher von Meta und der Universität Oxford haben ein KI-Modell namens VFusion3D entwickelt, das hochwertige 3D-Objekte aus einzelnen Bildern oder Textbeschreibungen generieren kann. Das System nutzt vortrainierte Video-KI-Modelle, um synthetische 3D-Daten zu erzeugen und so die Knappheit an 3D-Trainingsdaten zu überwinden. Das Modell kann innerhalb von Sekunden ein 3D-Asset aus einem einzelnen Bild erstellen. Trotz beeindruckender Fähigkeiten hat das System noch Schwierigkeiten mit bestimmten Objekttypen wie Fahrzeugen und Text. ASSISTENTEN: Google macht Gemini zum Standard-Assistenten auf Pixel 9 Smartphones. Er ersetzt auf diesen Geräten den bisherigen Google Assistant. Nutzer können bei Bedarf zur klassischen Version zurückkehren. Auf anderen Android-Geräten bleibt Gemini vorerst eine optionale Funktion, die Nutzer aktiv einschalten müssen. Google hatte sich bisher nicht festgelegt, ob Gemini den Assistant langfristig komplett ersetzen wird. PLATTFORMEN:
Die KI-Plattform Jenova vereint verschiedene KI-Modelle und -Werkzeuge in einer Anwendung. Das System wählt automatisch das am besten geeignete Modell für jede Anfrage aus, um optimale Antworten zu liefern. Zu den integrierten Modellen gehören Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3.1 405B und GPT-4o, die jeweils in bestimmten Bereichen besonders leistungsfähig sind. Jenova bietet zudem Funktionen wie Websuche, Dokumentenanalyse und Bildinterpretation. Die Plattform soll Probleme wie Wissenslücken über aktuelle KI-Entwicklungen und häufiges Wechseln zwischen verschiedenen Diensten lösen. Sie ist derzeit kostenlos nutzbar, ein kostenpflichtiges Abonnement ist geplant. Quelle: Reddit DEVELOPER:
Mistral AI hat mehrere Neuerungen für die Entwicklung von KI-Anwendungen vorgestellt. Das Unternehmen ermöglicht nun die Anpassung seiner Sprachmodelle, einschließlich Mistral Large 2 und Codestral, über verschiedene Methoden wie Basis-Prompts oder Feinabstimmung. Zudem wurde eine frühe Version der „Agents“ eingeführt, die Modelle mit zusätzlichem Kontext und Anweisungen versehen und komplexe Arbeitsabläufe erleichtern sollen. Mistral AI veröffentlichte außerdem Version 1.0 seiner Entwickler-Bibliothek „mistralai“ für Python und Typescript. Anthropic hat „Prompt Caching“ für seine API eingeführt. Mit dieser Funktion lassen sich häufig genutzte Kontexte in Sitzungen speichern, was sowohl Kosten als auch Zeit sparen soll. Die Funktion ist derzeit in der öffentlichen Beta-Phase für die Modelle Claude 3.5 Sonnet und Claude 3 Haiku verfügbar. OpenAI ermöglicht Entwicklern, GPT-4o für ihre Zwecke anzupassen. Dieses Fine-Tuning erlaubt es, die Tonalität, Genauigkeit und Leistung des Modells zu verbessern. Bis zum 23. September 2024 bietet OpenAI täglich bis zu 1 Million kostenlose Tokens für das Fine-Tuning an. Normalerweise kostet dieser Prozess 25 US-Dollar pro 1 Million Tokens. Das Start-up Ragie hat eine Plattform für Retrieval Augmented Generation (RAG) als Service entwickelt. Es verspricht eine einfach zu implementierende und zugleich leistungsstarke RAG-Lösung für Unternehmen. Mit ihr lassen sich etwa Unternehmensdaten aus Quellen wie Google Drive oder Confluence einbinden und für KI-Anwendungen optimieren. Ragie übernimmt den gesamten Prozess vom Datenimport über die Aufbereitung bis zur Indexierung und Abfrage. Entwickler können Ragie kostenlos testen, für den Produktiveinsatz starten die Preise bei 500 US-Dollar pro Monat. Anthropic und Caylent wollen gemeinsam die Einführung von KI-Lösungen in Unternehmen beschleunigen. Ziel ist es, die Implementierungszeit für KI-Systeme um die Hälfte zu reduzieren. Caylent bringt dabei die Cloud-Expertise ein, während Anthropic seine KI-Modelle beisteuert. Die Partnerschaft zielt besonders auf mittelständische Unternehmen ab, die so leichter Zugang zu KI-Technologien erhalten sollen. HARDWARE: Qualcomm hat die neue Snapdragon 7s Gen 3 Mobile Plattform vorgestellt, die On-Device Generative AI auf mehr Mittelklasse-Geräte bringen soll. Sie bietet laut Hersteller eine um 20% verbesserte CPU-Leistung, eine bis zu 40% schnellere GPU und über 30% bessere KI-Performance bei 12% geringerem Stromverbrauch. Sie unterstützt große Sprachmodelle und ermöglicht verbesserte Gaming- und Kamera-Funktionen. FORSCHUNG:
Forscher bei Meta FAIR haben eine neue Methode namens „Self-Taught Evaluator“ entwickelt, um große Sprachmodelle ohne menschliches Feedback zu bewerten. Es beginnt mit einem Ausgangsmodell und einer Sammlung unbeschrifteter Anweisungen. Daraus generiert es Antwortpaare und Bewertungsketten. In mehreren Durchläufen wird das Modell dann auf die selbst erstellten Trainingsdaten optimiert. Tests zeigten, dass der Self-Taught Evaluator die Genauigkeit des Basismodells deutlich verbessern konnte – von 75,4% auf 88,7% nach fünf Iterationen. Diese Leistung kommt der von Modellen nahe, die mit von Menschen kommentierten Daten trainiert wurden. Die Methode könnte Unternehmen helfen, eigene Modelle effizienter zu entwickeln, hat aber auch Einschränkungen wie die Abhängigkeit von einem guten Ausgangsmodell. Forscher des Imperial College London und von Google DeepMind haben eine neue Methode namens Diffusion Augmented Agents (DAAG) entwickelt, um „Embodied AI Agents“ effizienter zu trainieren. Diese Agents können mit der physischen Welt interagieren. DAAG kombiniert große Sprachmodelle, visuelle Sprachmodelle und Diffusionsmodelle, damit die Agenten aus weniger Daten lernen und Wissen zwischen Aufgaben übertragen können. Das System nutzt vergangene Erfahrungen und generiert synthetische Daten, um neue Aufgaben schneller zu erlernen. In Tests zeigte DAAG deutliche Verbesserungen gegenüber herkömmlichen Reinforcement-Learning-Systemen. Die Forscher sehen in DAAG einen vielversprechenden Ansatz, um das Problem der Datenknappheit beim Roboterlernen zu überwinden. TOOL-SAMMLUNGEN: HootSuite hat eine Übersicht mit 21 KI-Tools für Social Media und eine weitere mit 18 Werkzeugen für die KI-gestützte Inhaltserstellung veröffentlicht. In den Kommentaren zu einem Reddit-Post finden sich Empfehlungen für Video-KI-Angebote – vor allem kostenlose, aber auch kostenpflichtige.
|
|
News
Der Streit um Urheberrechte und KI-Trainingsdaten verschärft sich …
Künstler und Autoren gehen zunehmend gegen KI-Unternehmen vor. Ein US-Richter hat nun etwa entschieden, dass eine Klage von Künstlern gegen führende KI-Bildgeneratoren wie Midjourney und Stability AI fortgeführt werden kann. Die Kläger werfen den Unternehmen vor, urheberrechtlich geschützte Werke ohne Erlaubnis für das Training ihrer KI-Modelle verwendet zu haben. Auch in anderen Bereichen häufen sich die Klagen: YouTube-Creator verklagen Nvidia und OpenAI wegen der mutmaßlichen Nutzung ihrer Videos, während Autoren gegen Anthropic vorgehen, weil das Unternehmen angeblich Bücher zum Training seiner KI verwendet hat. Die Kläger argumentieren, dass die KI-Firmen ihre Inhalte unrechtmäßig genutzt haben, um ihre Technologien zu entwickeln. Eine aktuelle Umfrage zeigt unterdessen, dass 84% der befragten Führungskräfte in der Technologiebranche eine Überarbeitung der Urheberrechtsgesetze für das KI-Zeitalter befürworten. Zudem unterstützen 81% die Idee, dass Menschen für die Nutzung ihrer Werke zum KI-Training entschädigt werden sollten. Quellen: VentureBeat, Reuters, Legal Dive, Reuters, VentureBeat
|
|
… während KI-Unternehmen zunehmend Vereinbarungen schließen
Führende Technologie- und Medienunternehmen schließen zunehmend KI-Partnerschaften ab. OpenAI hat etwa einen mehrjährigen Vertrag mit dem Verlagshaus Condé Nast unterzeichnet, der dem KI-Unternehmen Zugang zu den Inhalten von Magazinen wie Vogue und New Yorker gewährt. Ähnliche Vereinbarungen bestehen bereits mit anderen großen Verlagen wie Axel Springer. Auch in der Unterhaltungsbranche gibt es ähnliche Entwicklungen: Die Schauspielergewerkschaft SAG-AFTRA hat beispielsweise mit dem Startup Narrativ eine Vereinbarung über die ethische Nutzung von KI-generierten Stimmenimitationen in der Werbung getroffen. Diese soll eine faire Vergütung und informierte Zustimmung der Künstler sicherstellen. Parallel dazu haben Universal Music Group und Meta ihre bestehende Partnerschaft erweitert, um u.a. neue Monetarisierungsmöglichkeiten für Künstler zu schaffen und unautorisierte KI-generierte Inhalte zu adressieren. Diese Entwicklungen markieren einen wichtigen Schritt in der Zusammenarbeit zwischen Technologie- und Medienunternehmen im KI-Zeitalter. Kritiker warnen zugleich, dass etwa Verlage durch solche Deals unbeabsichtigt potenzielle Konkurrenten trainieren könnten. Quellen: Variety, VentureBeat, Wired, Variety
|
|
App Procreate positioniert sich gegen KI und erntet dafür viel Lob
Die beliebte iPad-Illustrations-App Procreate hat sich klar gegen den Einsatz von generativer KI positioniert. CEO James Cuda erklärte in einem Video, dass das Unternehmen keine KI-Funktionen in seinen Produkten einführen werde. Diese Entscheidung stieß in der kreativen Community auf breite Zustimmung. Viele Künstler sehen in KI-Technologien eine Bedrohung für ihre Arbeit und kritisieren die Nutzung ihrer Werke zum Training von KI-Modellen ohne explizite Einwilligung. Procreate grenzt sich damit zugleich von Konkurrenten wie Adobe ab, die KI-Tools integrieren (wobei Adobe hier offenbar immerhin lizensiertes Trainingsmaterial nutzt). Procreate setze stattdessen auf „die Unterstützung menschlicher Kreativität“ und hält zudem an seinem Geschäftsmodell mit einmaligem Kaufpreis statt eines Abos fest.
|
|
Weitere News in aller Kürze
Laut einer Befragung der Unternehmensberatung Deloitte erhöhen 67% der Organisationen ihre Investitionen in generative KI aufgrund früher Erfolge. Allerdings haben 68% der Befragten erst weniger als 30% ihrer KI-Experimente in die Produktion überführt. Nur 23% fühlen sich gut auf KI-bezogene Risiken vorbereitet. 41% haben Schwierigkeiten, den genauen Nutzen ihrer KI-Projekte zu messen. Eine neue Umfrage von Google Cloud zeigt zugleich, dass 86% der Unternehmen, die generative KI einsetzen, ein Umsatzwachstum von mindestens 6% verzeichnen. 74% der Firmen, die KI für mindestens eine Anwendung nutzen, sahen innerhalb eines Jahres einen Return on Investment. Die Produktivität stieg demnach um 45%, vor allem in IT-Prozessen. Allerdings zeigen andere Studien, wie eine von Upwork, dass Mitarbeiter Schwierigkeiten haben, KI effektiv zu nutzen, oft aufgrund mangelnder Schulung. Experten empfehlen daher, Mitarbeiter in KI-Strategien einzubeziehen und umfassende Trainings anzubieten. Nebenbei bemerkt bieten wir bei UPLOAD individuelle KI-Schulungen für Teams an. Eine neue Umfrage von PwC zeigt ergänzend dazu, dass 73% der befragten US-Unternehmen generative KI nutzen oder planen zu nutzen. Allerdings haben nur 58% begonnen, die damit verbundenen Risiken zu bewerten. Jenn Kosar von PwC betont, dass es jetzt an der Zeit sei, verantwortungsvolle KI-Strategien zu entwickeln. Die Umfrage identifizierte elf wichtige Fähigkeiten für den verantwortungsvollen KI-Einsatz, darunter Weiterbildung, Datenschutz und Cybersicherheit. PwC empfiehlt Unternehmen, klare Verantwortlichkeiten für KI-Sicherheit zu schaffen. Forscher des MIT und anderer Institutionen haben dazu passend eine umfassende Datenbank namens „AI Risk Repository“ veröffentlicht, die über 700 dokumentierte Risiken von KI-Systemen enthält. Sie konsolidiert Informationen aus 43 bestehenden Sammlungen und kategorisiert Risiken nach Ursachen und sieben verschiedenen Domänen. Sie soll Entscheidungsträgern in Regierung, Forschung und Industrie helfen, KI-Risiken besser einzuschätzen. Das Repository ist öffentlich zugänglich und soll regelmäßig aktualisiert werden. Anthropic hat ein erweitertes Bug-Bounty-Programm gestartet. Es bietet Hackern bis zu 15.000 Dollar für das Aufdecken kritischer Schwachstellen in seinen KI-Systemen. Der Fokus liegt auf „Universal Jailbreak“-Angriffen, die KI-Sicherheitsvorkehrungen in Hochrisikobereichen umgehen könnten. Anthropic lädt ethische Hacker ein, sein neues Sicherheitssystem vor der öffentlichen Einführung zu testen. Das Programm startet zunächst auf Einladungsbasis in Zusammenarbeit mit der Plattform HackerOne. Es soll später breiter zugänglich gemacht werden. Etwa die Hälfte aller Jobsuchenden nutzt inzwischen KI-Tools, was offenbar zu einer Flut qualitativ minderwertiger Bewerbungen führt. Laut Umfragen und Schätzungen von Arbeitgebern und Recruitern verwenden bis zu 50 Prozent der Bewerber generative KI für Lebensläufe, Anschreiben und Assessments. Dies hat die Zahl der Bewerbungen pro Stelle mehr als verdoppelt, während gleichzeitig die Qualität gesunken ist. Viele große Arbeitgeber haben eine Null-Toleranz-Politik gegenüber KI-generierten Bewerbungen. Experten warnen, dass KI-erstellte Lebensläufe oft unpersönlich und generisch wirken. Zudem nutzen immer mehr Kandidaten KI, um bei Einstellungstests zu betrügen. Recruiter hoffen, dass ungeeignete Bewerber spätestens im persönlichen Vorstellungsgespräch auffliegen. Apple hat mit ToolSandbox einen neuen Benchmark zur Bewertung von KI-Assistenten vorgestellt. Dieser Test simuliert reale Szenarien, indem er zustandsabhängige Interaktionen, Gesprächsfähigkeiten und dynamische Auswertungen einbezieht. Die Forscher testeten verschiedene KI-Modelle und stellten dabei eine deutliche Leistungslücke zwischen proprietären und Open-Source-Modellen fest. Selbst fortschrittliche KI-Assistenten hatten Schwierigkeiten mit komplexen Aufgaben und Szenarien mit unzureichenden Informationen. Interessanterweise schnitten größere Modelle in bestimmten Szenarien schlechter ab als kleinere. Die KI-Plattform Hugging Face hat das Startup XetHub übernommen. Wie CEO Clem Delangue gegenüber Forbes erklärte, soll die Akquisition die Entwicklung von KI-Modellen beschleunigen und effizienter gestalten. XetHub, gegründet von ehemaligen Apple-Mitarbeitern, bietet eine Plattform für die Zusammenarbeit an großen Modellen und Datensätzen. Durch die Integration von XetHub plant Hugging Face, in den nächsten fünf Jahren Hunderte Millionen KI-Modelle und Datensätze zu hosten – deutlich mehr als die aktuellen 2,5 Millionen. Der Kaufpreis wurde nicht bekannt gegeben, es soll sich aber um Hugging Faces bisher größte Übernahme handeln. Die KI-Startup Goodfire hat 7 Millionen Dollar Startkapital eingesammelt. Das Unternehmen entwickelt Technologie, um die inneren Abläufe von generativen KI-Modellen besser zu verstehen und zu bearbeiten. Mit dem Kapital will Goodfire sein Ingenieur- und Forschungsteam ausbauen sowie die Kerntechnologie weiterentwickeln. Als Public Benefit Corporation möchte das Unternehmen nach eigenen Aussagen zu einem besseren Verständnis fortschrittlicher KI-Systeme beitragen. Neue Forschungsergebnisse zeigen, dass Large Language Models (LLMs) besonders gut bei Aufgaben sind, die ihren Trainingsdaten ähneln, aber Schwächen zeigen, wenn sie mit ungewohnten Problemen konfrontiert werden. Laut der Studie sind die Modelle hervorragend darin, Muster zu erkennen und Regeln aus Beispielen abzuleiten. Bei arithmetischen Aufgaben im Dezimalsystem schnitten sie ebenfalls gut ab. Jedoch hatten sie beispielsweise Schwierigkeiten, wenn sie ungewöhnliche Anweisungen befolgen sollten, wie etwa Berechnungen in anderen Zahlensystemen (Basis 11 oder 9). Die Ergebnisse zeigen, dass die Antworten der Modelle oft eher auf erlernten Mustern als auf echtem Verständnis basieren.
|
|
Lesetipps
Wie Betrüger Deepfakes für ihre Machenschaften einsetzen
In den letzten Monaten sind tausende gefälschte Videos im Internet aufgetaucht, in denen eine KI-generierte Version von Elon Musk für betrügerische Investmentangebote wirbt. Diese sogenannten Deepfakes sind täuschend echt und haben bereits zahlreiche Menschen um hohe Geldsummen gebracht, berichtet die New York Times. Experten schätzen, dass KI-gestützte Deepfakes jährlich zu Betrugsverlusten in Milliardenhöhe beitragen werden. Die Videos können für wenige Dollar in Minuten erstellt werden und verbreiten sich rasant über soziale Medien. Die Betrüger nutzen dafür oft echte Interviews oder Auftritte von Musk als Grundlage und ersetzen seine Stimme und Lippenbewegungen mittels KI. Viele Opfer, insbesondere ältere Menschen, fallen darauf herein, da die Fälschungen sehr überzeugend wirken. Plattformen wie Facebook und YouTube haben Schwierigkeiten, die Flut an Fake-Videos einzudämmen. Experten warnen, dass organisierte Kriminelle das Potenzial von KI-Betrug erkannt haben und die Angriffe in Zukunft noch zunehmen werden.
|
|
Weitere Lesetipps in aller Kürze
OpenAI warnt vor möglichen emotionalen Abhängigkeiten, die durch die neue Sprachfunktion seines ChatGPT-Assistenten entstehen könnten. In einer Sicherheitsanalyse räumt das Unternehmen ein, dass die menschenähnliche Stimme Nutzer dazu verleiten könnte, eine emotionale Bindung zum Chatbot aufzubauen. Die Analyse deckt ein breites Spektrum potenzieller Risiken ab, darunter die Verstärkung gesellschaftlicher Vorurteile und die Verbreitung von Fehlinformationen. OpenAI betont, dass es diese Risiken ernst nimmt und Maßnahmen zur Risikominderung ergreift. OpenAI hat in den letzten Monaten zudem einen Exodus von Mitgliedern seines Gründungsteams erlebt. Von den ursprünglich elf Gründern sind nur noch zwei aktiv im Unternehmen tätig, wie die Financial Times berichtet. Drei Mitbegründer haben allein in diesem Jahr das Unternehmen verlassen, darunter John Schulman, der kürzlich zum Konkurrenten Anthropic wechselte. Auch Präsident Greg Brockman kündigte eine längere Auszeit an. Microsoft hat seine KI-Strategie in den letzten Monaten erweitert, um die Abhängigkeit von OpenAI zu verringern. Nach der Führungskrise bei OpenAI im November 2023 investierte der Softwareriese in andere KI-Startups wie Mistral und Inflection und entwickelte eigene, kleinere KI-Modelle. Trotz der weiterhin engen Partnerschaft mit OpenAI gibt es zunehmend Spannungen und Konkurrenz zwischen den Unternehmen, berichtet die Financial Times. KI-Unternehmen stehen vor fünf großen Herausforderungen bei der Entwicklung von Produkten, schreibt Arvind Narayanan: Kosten, Zuverlässigkeit, Datenschutz, Sicherheit und Benutzeroberfläche. Besonders die Zuverlässigkeit sei kritisch, da Nutzer von KI-Produkten ein deterministisches Verhalten wie bei herkömmlicher Software erwarten. Auch Datenschutz- und Sicherheitsbedenken spielen eine wichtige Rolle. Narayanan prognostiziert, dass die Lösung dieser Herausforderungen und die Integration von KI in bestehende Produkte und Arbeitsabläufe eher Jahrzehnte als nur wenige Jahre in Anspruch nehmen werde. Die Fortschritte bei großen Sprachmodellen (LLMs) verlangsamen sich, was weitreichende Folgen für die KI-Entwicklung haben könnte. Laut Cai GoGwilt von Ironclad zeigt sich bei führenden Modellen wie GPT-4 und Claude 3 eine Konvergenz in Geschwindigkeit und Leistung. Diese Verlangsamung könnte zu mehr Spezialisierung bei KI-Anwendungen, neuen Benutzeroberflächen jenseits von Chatbots und einem Aufholen von Open-Source-Modellen führen. Zudem könnte sich der Wettbewerb um Trainingsdaten intensivieren und das Interesse an alternativen KI-Architekturen wachsen. GoGwilt spekuliert, dass LLMs in Zukunft ähnlich wie Datenbanken oder Cloud-Dienste zu austauschbaren Produkten werden könnten, die sich hauptsächlich durch Funktionen und Benutzerfreundlichkeit unterscheiden. Die Transformer-Architektur steht vor neuen Herausforderungen und möglichen Weiterentwicklungen im Bereich der generativen KI, schreibt Ashish Kakran von Thomvest Ventures. Zwar dominiere diese Architektur derzeit die gängigsten KI-Modelle, stoße aber bei langen Sequenzen an ihre Grenzen. Forscher arbeiten an neuen Lösungen, um die Leistung zu verbessern. Alternativ werden State Space Models wie Mamba entwickelt (siehe oben). Neue Modellveröffentlichungen wie DBRX von Databricks und Samba CoE von SambaNova Systems zeigen vielversprechende Ansätze. Trotz des Potenzials sehen sich Unternehmen bei der Einführung dieser Technologien mit Herausforderungen wie fehlenden Enterprise-Funktionen, Sicherheitsbedenken und der Abwägung zwischen RAG und Fine-Tuning konfrontiert. Zwei Jahre nach Einführung von ChatGPT haben viele Hochschulen noch keinen klaren Plan, wie sie mit KI umgehen sollen, schreibt The Atlantic. Lehrende sind frustriert über weitverbreiteten Betrug und fühlen sich überfordert. Technische Lösungen zur Erkennung von KI-generiertem Text erweisen sich als unzureichend (siehe Smart Content Report #13). Einige Dozenten experimentieren mit neuen Lehrmethoden, bei denen KI aktiv in den Unterricht einbezogen wird. Experten empfehlen, Aufgabenstellungen zu überdenken und kürzere, spezifischere Schreibaufträge zu geben. Insgesamt scheint eine grundlegende Anpassung der Lehrmethoden nötig, um die Herausforderungen durch KI zu bewältigen.
|
|
Fundstück
Reimagine Reality
|
|
„Reimagine“ ist eine neue Funktion in der Photos-App auf Googles neuesten Pixel-Smartphones. Du markierst einen Bereich in einem Foto und beschreibst, was dort erscheinen soll. Wie Chris Welch auf Threads zeigt, sind die Ergebnisse erstaunlich realistisch und innerhalb von Sekunden erzielt. Googles KI versteht es offenbar gut, das neue Element nahtlos einzufügen – inklusive Schattenwurf und anderer Details. Zugleich gibt es offenbar keinen Hinweis, weder offensichtlich noch versteckt, dass ein Foto auf diese Weise bearbeitet wurde. Chris Welch fragt sich aus meiner Sicht zu Recht: Sind wir bereit für eine Ära, in der jede Person, ohne spezielle Kenntnisse und Ausrüstung, in Sekunden gefälschte Bilder erstellen kann, die sich kaum noch entlarven lassen?
|
|
Was bedeutet …
Kontextfenster
Im Bereich der künstlichen Intelligenz und insbesondere bei Large Language Models (LLMs) bezeichnet das Kontextfenster die Menge an Text oder Informationen, die das KI-Modell gleichzeitig verarbeiten und berücksichtigen kann. Es ist sozusagen die Aufmerksamkeitsspanne des Modells. Wenn ein Nutzer mit einem KI-System interagiert, kann dieses deshalb nur auf die Informationen innerhalb des Kontextfensters zugreifen, um Antworten zu generieren oder Aufgaben zu bearbeiten. Die Größe des Kontextfensters variiert je nach Modell und wird oft in der Anzahl der Tokens gemessen. Ein größeres Kontextfenster ermöglicht es dem KI-Modell, mehr Zusammenhänge zu erfassen und auf einen breiteren Kontext zu reagieren, was besonders bei komplexen kreativen Aufgaben von Vorteil sein kann. Allerdings kann ein zu großes Kontextfenster auch zu Verarbeitungsverzögerungen und erhöhtem Ressourcenverbrauch führen.
|
|
Wir über uns
Gefällt dir dieser Newsletter? Dann empfiehl ihn doch weiter! Verweise dazu am besten auf https://upload-magazin.de/smart-content-report/ Wir haben zwei weitere Newsletter, die für dich relevant sind:
Das Content-Briefing liefert dir immer im Wechsel mit dem Smart Content Report einen praktischen Tipp für deine Content-Arbeit sowie Lesetipps andernorts. Ansehen …
Mit dem Update am Montag wiederum erfährst du einmal pro Woche, welche neuen Inhalte und Angebote du beim UPLOAD Magazin findest. Ansehen …
|
|
|