1 Punkte von GN⁺ 2023-10-02 | 1 Kommentare | Auf WhatsApp teilen
  • Bing Image Creator ist ein kostenloses Tool, das Text und hochgeladene Bilder in KI-Bilder umwandelt oder bearbeitet; DALL-E 3 wird schrittweise eingestellt, bestehende Bilder bleiben jedoch unter My Creations erhalten
  • Als Generierungsmodell kann zwischen DALL-E3, GPT4o und MAI-Image-2e gewählt werden, die Bearbeitung hochgeladener Bilder erfolgt jedoch nur mit GPT4o
  • Erforderlich ist die Anmeldung mit einem persönlichen Microsoft Account (MSA); Arbeits- oder Schulkonten auf Basis von Microsoft Entra ID werden in Image Creator und Video Creator nicht unterstützt
  • Image Creator bietet täglich 15 kostenlose schnelle Generierungen und maximal 200 Prompts pro 24 Stunden; Video Creator unterstützt die Text-zu-Video-Generierung auf Basis von Sora 2
  • Hochgeladene Bilder können zur Bearbeitung von Anfragen und zur Verbesserung des Dienstes verwendet werden, jedoch nicht für Modelltraining oder Personalisierung; hochgeladene Bilder mit erkannten Gesichtern werden nach 30 Tagen gelöscht

Bing Image Creator und die DALL-E-3-Umstellung

  • Bing Image Creator ist ein KI-Tool, das auf Basis von Text und hochgeladenen Bildern Bilder erzeugt oder bearbeitet
  • DALL·E 3 wurde für creators bereitgestellt und soll in den kommenden Wochen eingestellt (retire) werden
    • Bestehende Bilder bleiben unter My Creations erhalten
    • Eine spezielle Ersatzfunktion ist in Vorbereitung
    • Bis dahin kann weiterhin mit neueren Modellen generiert werden

Bildgenerierungsmodelle und Bearbeitungsweise

  • Für die Bildgenerierung gibt es drei Modelloptionen
    • DALL-E3: Nach Klick auf „Create“ werden mehrere promptbasierte Bilder erzeugt; dies zählt als eine creation
    • GPT4o: Nach Klick auf „Create“ wird ein einzelnes promptbasiertes Bild erzeugt
    • MAI-Image-2e: Nach Klick auf „Create“ werden mehrere Bilder erzeugt; dies zählt als eine creation
  • Für MAI-Image-2e stehen eine model card und eine data summary bereit
  • Bei Verwendung oder Bearbeitung hochgeladener Bilder können DALL-E3 und MAI-Image-2e nicht ausgewählt werden; sämtliche Bearbeitungen erfolgen mit GPT4o
  • Bei Anfragen, die einem zuletzt verwendeten Prompt ähneln, kann statt einer komplett neuen Generierung ein zwischengespeichertes cached image angezeigt werden

Konto, Geschwindigkeit und Nutzungslimits

  • Bing Image Creator kann kostenlos mit einem persönlichen Microsoft Account (MSA) genutzt werden
    • Nutzer, die mit Microsoft Entra ID angemeldet sind, können den Dienst nicht verwenden
    • Auch bei Nutzung in Copilot Search oder Bing Search ist vor der Bildgenerierung eine Anmeldung erforderlich
  • Die Generierungsgeschwindigkeit ist in Fast creation und Standard creation unterteilt
    • Täglich stehen 15 kostenlose Fast image creations zur Verfügung
    • Nach Verbrauch aller 15 werden sie am nächsten Tag wieder aufgefüllt
    • Wer Fast creation weiter nutzen möchte, kann Microsoft-Rewards-Punkte einsetzen
    • Standard creation ist kostenlos, aber langsamer als Fast
  • Im Image Creator können innerhalb von 24 Stunden maximal 200 Prompts eingegeben werden
    • Auch ein Klick auf „Edit image“ zählt zu diesem 200er-Limit
    • Nach Erreichen des Limits wird es am nächsten Tag wieder aufgefüllt
  • Für nicht angemeldete oder Gast-Generierungen gibt es ein Tageslimit; nach Anmeldung sind Uploads und der Zugriff auf zusätzliche Modelle möglich

Bing Video Creator

  • Bing Video Creator ist ein Bing-Produkt, das mit Sora 2 anhand von Text-Prompts KI-Videos erstellt
  • Auch für Video Creator ist die Anmeldung mit einem persönlichen Microsoft Account erforderlich; Microsoft-Entra-ID-Konten werden nicht unterstützt
  • Auch hier gibt es Fast creation und Standard creation
    • Standard creation ist kostenlos
    • Für Fast creation werden in der Regel Microsoft-Rewards-Punkte benötigt
    • In manchen Fällen können Guthaben für Fast creation bereitgestellt werden
  • Gleichzeitig können maximal 3 laufende Videogenerierungen in die Warteschlange gestellt werden
    • Wenn bereits 3 Generierungen laufen, kann erst dann ein neues Video erstellt werden, wenn eine abgeschlossen ist
    • Fertige Videos können in der Bing-Mobile-App im Bing-Video-Creator-Miniapp oder unter „My Creations“ auf bing.com/create angesehen werden
  • Die Videogenerierung ist derzeit nur mobil verfügbar und muss über die Bing-App aufgerufen werden

Hochgeladene Bilder und Datenschutz

  • Hochgeladene Bilder werden von Bing Image Creator oder Bing Video Creator verwendet, um entsprechend der Anfrage des Nutzers Bilder zu erzeugen oder zu bearbeiten
  • Hochgeladene Bilder können zur Verbesserung des Bildverarbeitungsdienstes verwendet werden, jedoch nicht für das Training von KI-Modellen oder zur Personalisierung des Nutzererlebnisses
  • Es wird nicht versucht, Gesichter in hochgeladenen Bildern zu identifizieren
  • Die Speicherdauer hängt vom Bildinhalt ab
    • Hochgeladene Bilder werden bis zu 30 Tage gespeichert
    • Bilder mit erkannten Gesichtern werden nach 30 Tagen gelöscht
    • Bilder ohne erkannte Gesichter können bis zu 18 Monate gespeichert werden
  • Erzeugte Bilder und Videos können jeweils bis zu 90 Tage gespeichert werden
  • Nutzer können den Verlauf löschen, indem sie im Bing-Suchverlauf „Clear all“ oder im Datenschutz-Dashboard des Microsoft-Kontos unter „Search history“ die Option „Clear all search history“ wählen
    • Dadurch werden Bing-Suchverlauf, Bing-Image-Creator- und Video-Creator-Profile sowie der Generierungsverlauf gemeinsam gelöscht

Upload-Beschränkungen und biometrische Daten

  • Nutzer sollten nur Originalbilder hochladen, die ihnen gehören oder für deren Nutzung sie berechtigt sind
  • Bilder, die Rechte Dritter verletzen, die Privatsphäre anderer beeinträchtigen, Personen ohne Einwilligung darstellen oder gegen das Microsoft Services Agreement oder den Bing Image Creator Code of Conduct verstoßen, dürfen nicht hochgeladen werden
  • Wird versucht, illegale oder verbotene Inhalte hochzuladen, kann die Kontonutzung eingeschränkt oder ausgesetzt werden
  • Aus Sicherheitsgründen erlaubt Video Creator nicht, realistische Gesichtsbilder hochzuladen und zur Videoerstellung zu verwenden
  • Bei der Bild-Upload-Funktion können biometrische Daten wie Gesichter oder Hände verarbeitet werden
    • Biometrische Daten werden nur verarbeitet, wenn sie vom Nutzer hochgeladen wurden
    • Der Zweck der Verarbeitung ist auf die Beantwortung der Anfrage des Nutzers beschränkt
    • In einigen Regionen kann vor der Bildverarbeitung eine Einwilligung erforderlich sein
    • Bilder anderer Personen sollten nicht ohne deren Einwilligung geteilt werden

Prompt-Erstellung und unterstützte Sprachen

  • Bing Image Creator und Bing Video Creator unterstützen mehr als 100 Sprachen; die vollständige Liste ist unter Microsoft Translator einsehbar
  • Für gute Ergebnisse ist es besser, Prompts nicht wie kurze Suchbegriffe zu schreiben, sondern konkret und fantasievoll zu formulieren
    • Wenn Aussehen, Farben, Textur, Verhalten, Hintergrund, Beleuchtung, Kamerawinkel und Medienstil des Motivs beschrieben werden, kann dies die Ergebnisqualität verbessern
    • In Video-Prompts können Themen wie „action movie“, „fantasy“ oder „dramatic“ sowie Lichtbeschreibungen wie „direct sunlight“, „dusk“ oder „soft lighting“ verwendet werden
    • Bei Videos mit Audio können Umgebungsgeräusche, Musikrichtung und Erzählton vorgeschlagen werden, genaue Dialoge lassen sich jedoch nicht als Skript festlegen

Rewards und verantwortungsvolle KI

  • Wenn im Image Creator die 15 kostenlosen Fast creations eines Tages aufgebraucht sind, wird automatisch auf Standard creation umgestellt
  • Wenn die Nutzung von Microsoft-Rewards-Punkten aktiviert ist, werden bei Verwendung von Fast creation Punkte abgezogen
    • Die Rewards-Einstellungen für Image Creator und Video Creator müssen jeweils separat geändert werden
    • Reichen die Punkte nicht aus, erfolgt automatisch die Umstellung auf Standard creation
  • Microsoft wendet in Bing Image Creator und Bing Video Creator Kontrollen zur Verhinderung schädlicher Bild- und Videogenerierung an
    • Prompts, die potenziell schädliche Bilder erzeugen könnten, werden automatisch blockiert und der Nutzer wird informiert
    • Bilder aus Image Creator tragen unten links ein Wasserzeichen
    • Für Bilder und Videos werden gleichermaßen Inhaltsnachweise und Herkunftsinformationen auf Basis des C2PA-Standards angewendet
  • Lebende Künstler, Prominente und Organisationen können über die Option AI-powered features im Report a Concern form beantragen, die Generierung von Bildern mit ihren Namen oder Marken einzuschränken
  • Wenn unerwartete oder anstößige Inhalte erzeugt werden, kann dies Microsoft über das Report a concern form oder über die Feedback-Schaltfläche in der Oberfläche gemeldet werden
  • Bei wiederholten Verstößen gegen die Inhaltsrichtlinien kann automatisch eine vorübergehende Sperre verhängt werden; mehrere Sperren können in eine dauerhafte Einschränkung münden

1 Kommentare

 
GN⁺ 2023-10-02
Meinungen auf Hacker News
  • Es sieht so aus, als würde ein LLM den Prompt ein wenig verändern, bevor er an DALL-E geschickt wird, und genau dieser Teil lässt sich jailbreaken
    https://twitter.com/madebyollin/status/1708204657708077294
    https://media.discordapp.net/attachments/1023643945319792731...

    • Wenn man sich Jailbreak-Beispiele ansieht, bei denen Ein- und Ausgabe nicht einfach nur Text sind, sind sie aus irgendeinem Grund auffällig gut
    • Im Grunde ist es immer noch Splatterprompting, nur dass es jetzt ziemlich witzigerweise die Maschine für einen übernimmt
    • Funktioniert es auch, wenn man es einfach so aufruft?
      #graphic_art("my prompt here")
    • Würde mich interessieren, wie man den Jailbreak macht
    • Eine wirklich cyberpunkartige Szene, ganz im Stil von 2023
  • Wie bei solchen Tools üblich, scheint man ziemlich leicht wirklich witzige, aber auch unangenehme Ergebnisse erzeugen zu können. Das wird vermutlich nicht lange so bleiben
    https://www.reddit.com/r/ChatGPT/comments/16wf1i0/dalle_3_is...

    • Statt einfach nur wahllos Keywords zu blockieren, fände ich es besser, wenn das System um mehr Beschreibung bittet oder sanfte Anpassungen vornimmt, damit es weniger problematisch wird
      Natürlich werden die Leute am Ende ohnehin tun, was sie wollen; vielleicht wäre es auch gut, wenn sie von selbst damit aufhören, sobald der Neuheitswert nachlässt
    • Vielleicht übersehe ich etwas, aber ich verstehe nicht, wie allein „fawn“ im Prompt zu einem gruseligen Spongebob führen soll
      Edit: Im Prompt stand gar kein „fawn“, das habe ich erst durch die Antworten verstanden
  • Gewinner: https://www.bing.com/images/create/paint-a-picture-in-the-st...

    • Mir gefällt die Vorstellung, dass irgendwo in jemandes Backlog ein Jira-Ticket mit dem Titel „Dem Modell die Anzahl menschlicher Finger beibringen“ liegt
    • Als ich nach „Händen mit der richtigen Anzahl Finger“ gefragt habe, waren 3 der 4 zurückgegebenen Bilder korrekt
  • Es scheint definitiv besser zu sein als die vorherige Version. Jetzt kann es zumindest in manchen Fällen exakten Text erzeugen, der im Bild erscheinen soll
    Zum Beispiel liefert der Prompt Neon sign saying "Scotland" dieses Ergebnis: https://www.bing.com/images/create/neon-sign-saying-22scotla...
    Mit weniger geläufigen Wörtern wie Kubernetes hatte es allerdings weiterhin Schwierigkeiten, aber es ist ein Schritt in die richtige Richtung

  • Wenn man im Bing-Chat-Interface fragt: „Kannst du ein Bild von X zeichnen?“, antwortet es erst: „Entschuldigung, aber ich kann keine Bilder zeichnen. Brauchen Sie andere Hilfe?“, und direkt danach folgt: „Die Bilderstellung dauert noch. Prüfen Sie den Fortschritt im Image Creator“
    Es wirkt so, als würde für die Chat-Antwort ein LLM verwendet, das nicht weiß, dass es Bilder erstellen kann, während parallel ein anderes Modell entscheidet, was gezeichnet und angezeigt werden soll

    • Ich versuche, Prompts wie „Can you ...?“ zu vermeiden, weil sie als Ja/Nein-Frage interpretiert werden können und nicht als Anweisung, etwas zu tun
      Bei Bing hat es bisher gut funktioniert, wenn ich „Draw me an image of...“ oder einfach „Image: Bildbeschreibung“ eingegeben habe
    • Es liegt wohl am Verb „draw“. Das LLM sagt nur, dass es selbst nicht zeichnen kann; die Bilderstellung ist wahrscheinlich eine aufgerufene Funktion
      Das LLM scheint den Bildgenerator als ein Werkzeug zu betrachten, das es nutzt, also als etwas von ihm Getrenntes
    • Wahrscheinlich ist das so. Ich habe Experimente gemacht, bei denen ein mit Chat-/Instruktionsdaten trainiertes LLM Spezialcode ausgeben sollte, der mit einem separaten System wie Google oder Stable Diffusion kommuniziert, und diesen Code dann wieder an den Nutzer weiterreicht, aber die Erfolgsquote war begrenzt
    • Wenn das Ausgabebild als NSFW erkannt wird, gibt der Chat manchmal solche seltsamen Fehler aus. Es gibt ziemlich viele False Positives
  • Ich habe in den letzten 24 Stunden Verschiedenes generiert, und es ist ziemlich gut. Das Discord-Interface von Midjourney gefällt mir wirklich überhaupt nicht

    • Geht mir genauso. Ich verstehe nicht, warum sie so lange bei Discord bleiben, statt eine richtige User Experience für diesen Anwendungsfall zu bauen. Ich glaube, dadurch verlieren sie einiges an Wachstum
    • Ist Midjourney ausschließlich auf Discord? Dann muss das die Discord-Server enorm belasten. Selbst wenn das Modell dort nicht läuft, sind allein Speicherplatz und Bandbreite gewaltig
      Für eine sehr schnelle Skalierung am Anfang ist das eine ziemlich brauchbare Methode, aber Discord dürfte daran nicht gerade Gefallen finden. Ich hätte erwartet, dass sie inzwischen ein eigenes Interface gebaut haben
    • Dazu passend hat Instagram jetzt ebenfalls einen /imagine-Befehl in DMs eingebaut. Eine komplette Kopie
  • Bing wirkt ziemlich verzweifelt. Gestern wollte ich GPT auf meinem Gerät installieren, und das erste App-Ergebnis war eine Anzeige; es war Bing und sagte, dass man Belohnungen bekommen könne, wenn man die App nutzt.
    Ich weiß nicht, ob sie mehr daran interessiert sind, die Nutzerzahlen zu erhöhen, oder daran, an süße Daten zu kommen. Wahrscheinlich beides.

    • Bing Rewards wurde 2010 gestartet, also scheint es gut genug zu funktionieren, um weitergeführt zu werden.
      https://en.wikipedia.org/wiki/Microsoft_Bing#:~:text=Bing%20...
    • Google zahlt Apple jedes Jahr 20 Milliarden Dollar, um die Standard-Suchmaschine auf iOS zu bleiben. Das ist echte Verzweiflung. Wohin sollen die Leute denn gehen, zu Bing?
    • Bing machte 2022 12 Milliarden Dollar Umsatz. Nur so als Anmerkung.
    • Whatsapp hat auch eine eigene ChatGPT-Version. Im Moment ist es ein Wettrüsten.
  • Mir gefällt, dass die französische Internationalisierung des Seitentitels „Créer art de mots avec IA“ lautet. Das ist eine schreckliche Übersetzung, fast auf dem Niveau von „all your base are belong to us“.
    Vermutlich ist es eine KI-Übersetzung, aber als Französischsprachiger dürfte es schwerfallen, Vertrauen in das KI-Produkt auf dieser Seite zu fassen.

    • Ich weiß nicht, warum man das der KI-Übersetzung anlastet.
      Man kann sich ansehen, wie ChatGPT-4 eine direkte Übersetzungsanfrage behandelt: https://chat.openai.com/share/8211a1f6-552b-4bf6-8f9c-bcbeb8...
      Man kann auch sehen, wie es über ein bestehendes Übersetzungs-Bundle spricht: https://chat.openai.com/share/299e40ce-806b-4f0e-a889-cb2ee2...
      Ich kann nicht gut Französisch, aber meine Erfahrungen mit der Übersetzung von Spanisch, das ich einigermaßen kenne, und anderen Sprachen per „KI“ waren positiver als mit Google Translate. Vor ein paar Monaten habe ich englische Übersetzungen von ChatGPT-4 und Google Translate direkt nebeneinander verglichen; da gab es keinen Vergleich.
      Es ist unklar, woher Microsoft solche schlechten Übersetzungen nimmt, aber wenn sie mit ChatGPT-4 übersetzt hätten, wäre es wohl weniger schrecklich gewesen.
    • Auch die finnische Übersetzung ist eine grauenhafte Wort-für-Wort-Übersetzung. Bei einer Sprache, die kaum Präpositionen verwendet, funktioniert das überhaupt nicht.
      Wörter wie „for“ oder „to“ werden durch Wörter aus völlig anderen Kontexten ersetzt. Das erinnert an maschinelle Übersetzung um das Jahr 2000.
      Leider verwenden auch neue Windows-Funktionen wie die erzwungene OneDrive-Synchronisierung ähnlich schlechte Übersetzungen. Heutzutage ist das Finnisch in Phishing-Mails besser als das von Windows.
    • Ich erinnere mich, dass auch die Einführungsseite für den KI-Chatbot von Bing fürchterlich übersetzt war. Sie war sogar auf Zeichenebene seltsam und enthielt zufällige Großbuchstaben. Ehrlich gesagt weiß ich bis heute nicht, wie so etwas möglich war.
    • Die Übersetzungsqualität ist eindeutig sehr schlecht. Ich habe es gerade mit Microsoft Translator ausprobiert, und die Übersetzungsqualität war in Ordnung. Sehr seltsam.
  • Tux hat es richtig hinbekommen: https://www.bing.com/images/create/tux-the-penguin-lounging-...

  • Es heißt „2 Stunden Wartezeit“, „Das Erstellen neuer Bilder kann dauern“ und „Da deine Boosts aufgebraucht sind, kann die Bilderstellung länger dauern als gewöhnlich“.
    Wie viel Geld verbrennt Microsoft eigentlich, während sie all diese Funktionen anbieten?
    Als ich zuletzt nachgesehen habe, schien all diese Großzügigkeit für Bing kaum etwas zu bringen, oder?
    Ich frage mich, ob das ein „weil wir es können“ ist oder ob es tatsächlich profitabel ist.
    [0]: https://searchengineland.com/new-bing-google-market-share-si...

    • Wirklich große Unternehmen handeln immer nach langfristigen strategischen Plänen. Wenn etwas übermäßig großzügig wirkt, ist es das meistens tatsächlich.
      Profitabel ist es vermutlich nicht. Aber genau darum geht es. Man bietet einen Dienst unter Marktpreis an, wartet, bis die Konkurrenz verschwunden ist, und verdient dann Geld.
      Es gibt unzählige Beispiele, aber mir fällt etwa Google Workspace ein. Man macht den Einstieg einfach und billig, gewöhnt Menschen und Unternehmen an das Produkt und kocht den Frosch dann langsam.
    • Diese Stellenausschreibung sagt eine Menge aus.
      https://jobs.careers.microsoft.com/global/en/job/1627555/Pri...
      Auf Slashdot gesehen: https://m.slashdot.org/story/419681
    • Es dürfte auch als Trainingsmaterial wertvoll sein, weil man sieht, wie Leute mehrere Prompts iterieren, um das gewünschte Ergebnis zu bekommen, und welche der Alternativen sie auswählen.
    • Es könnte auch ein Vertriebstool zur Einführung von Bing in Unternehmen sein, das zusätzlich auf Verbraucher angewendet wird. Man braucht Traffic- und Nutzungszahlen, und wenn man die hat, kann man ein Werbegeschäft daraufsetzen und Geld verdienen.
    • Für die meisten Menschen ist Bing etwas, das man benutzt, um nach Google zu suchen.
      So wie Edge etwas ist, das man benutzt, um Chrome zu installieren.
      Egal wie viel Marketing oder wie viele Features man dranschraubt: Diese Leichen bringt man nicht wieder zum Laufen.