4 Punkte von GN⁺ 2023-10-05 | 2 Kommentare | Auf WhatsApp teilen
  • Aufbau eines generativen Machine-Learning-(ML)-Modells namens FontoGen zur Erstellung von Schriftarten
  • Das Modell nimmt eine Beschreibung der Schriftart als Eingabe und gibt eine Font-Datei als Ausgabe aus
  • Der Autor ließ sich vom Aufstieg der KI im Jahr 2023 inspirieren, die Erzeugung von SVG aus Text zu erforschen, und kam dadurch auf die Idee der Schriftgenerierung
  • Das Modell wurde unter Bezug auf das Paper IconShop2 aufgebaut, und es zeigte sich, dass Schriftgenerierung ähnlich wie SVG-Erzeugung möglich ist
  • Das Modell ist ein Sequence-to-Sequence-Modell, das auf einer Sequenz trainiert wurde, in der auf Text-Embeddings Font-Embeddings folgen
  • Die Text-Embeddings wurden mit einem vortrainierten BERT-Encoder-Modell erzeugt, die Font-Embeddings durch Umwandlung von Schriftarten in Token-Sequenzen
  • Das Modell ist ein autoregressiver, nur aus Encodern bestehender Transformer mit 16 Layern und 8 Blöcken und verfügt insgesamt über 73,7 Millionen Parameter
  • Der Autor verwendete BigBird3-Aufmerksamkeit, um sich auf den initialen Prompt zu konzentrieren und die N vorherigen Token zu betrachten, um den Stil mehrerer vorheriger Glyphen zu erfassen
  • Das Modell wurde auf einem einzigartigen Font-Datensatz mit 71k Einträgen trainiert, bei dem GPT-3.5 verwendet wurde, um verschiedene Arten von Beschreibungen in einige Schlüsselwörter zusammenzufassen
  • Der Trainingsprozess dauerte 127 Stunden und wurde beendet, als sich der Validierungsverlust kaum noch verbesserte
  • Der Autor steigerte die Performance um das Dreifache, indem er so viel wie möglich in die Vorverarbeitung des Datensatzes verlagerte
  • Als mögliche künftige Anwendung schlägt der Autor vor, das Modell in bestehende Font-Editoren zu integrieren, um auf Basis einer einzelnen vom Designer erstellten Glyphe alle anderen Glyphen zu generieren

2 Kommentare

 
dbgus2028 2023-10-06

Erstelle mir eine niedliche Schriftart

 
GN⁺ 2023-10-05
Hacker-News-Meinungen
  • Der Code Interpreter von GPT-4 kann schwarz-weiße PNGs von Glyphen in SVGs umwandeln, was sich in Kombination mit Bildgenerierungsmodellen zur Erstellung von Schriftarten nutzen lässt.
  • Douglas Hofstader, der Autor von Gödel, Escher, Bach, glaubte, dass die Erzeugung von Schriftarten ohne allgemeine KI nicht möglich sei.
  • Das Projekt Letter Spirit zielt darauf ab, künstlerische Kreativität zu modellieren, indem es stilistisch einheitliche Schriftarten namens „gridfonts“ entwirft, die auf ein Raster beschränkt sind.
  • Es gibt Bedenken hinsichtlich der Präzision von von ML-Modellen erzeugten Schriftarten; Probleme sind etwa, dass Linien nicht perfekt parallel verlaufen und Ecken nicht exakt 90 Grad betragen.
  • Der Ansatz, Pixel als 150x150 eigene Bins darzustellen, gilt als nicht ideal; stattdessen wird vorgeschlagen, ein ConvNet zu verwenden und den Output nachzuverfolgen.
  • Mit diesem Ansatz könnte die Erzeugung neuer Schriftarten, insbesondere stark stilisierter Fonts, deutlich praktikabler werden.
  • Das Modell liegt als ckpt und nicht als safetensor vor, was beeinflussen könnte, ob einige Nutzer es ausprobieren.
  • Obwohl Diffusionsmodelle oft Schwierigkeiten damit haben, Text zu zeichnen, funktioniert diese Methode für diese Anwendung gut.