OpenAI rechnet pro Minute ab – also Audio beschleunigen, um Zeit zu sparen

(george.mand.is)

16 Punkte von GN⁺ 2025-06-26 | 2 Kommentare | Auf WhatsApp teilen

Die Preise für OpenAIs Audiotranskription werden anhand der Länge des eingegebenen Audios berechnet
Wenn man Audio mit Tools wie ffmpeg auf die 2- bis 3-fache Geschwindigkeit umwandelt und dann hochlädt, lassen sich Verarbeitungszeit und Kosten senken, ohne dass die Transkriptionsqualität spürbar leidet
Bei einem realen 40-Minuten-Audio konnten durch Umwandlung auf die 2- bzw. 3-fache Geschwindigkeit 23–33 % Kosten eingespart werden
Das Modell gpt-4o-transcribe unterstützt nur Audio unter 25 Minuten, daher ist das Beschleunigen ein nützlicher Workaround
Bis zum 2- bis 3-fachen bleibt die Ergebnisqualität erhalten, bei 4-facher Geschwindigkeit bricht die Transkriptionsgenauigkeit jedoch stark ein

Kurzüberblick

Eine einfache Methode, um OpenAIs Preisstruktur für Transkription und Audio effizienter zu nutzen
Die Strategie besteht darin, die Audiogeschwindigkeit zu erhöhen, damit derselbe Inhalt in kürzerer Zeit verarbeitet wird und so sowohl Gebühren als auch Zeit gespart werden
Wenn man Audiodateien mit Open-Source-Tools wie ffmpeg auf die 2- bis 3-fache Geschwindigkeit bringt und anschließend an die OpenAI API hochlädt, lassen sich Preis und Laufzeit ohne Qualitätsverlust reduzieren
Besonders wirksam ist diese Methode bei längeren Audios, vor allem wegen der Eingabelängenbegrenzung des Modells gpt-4o-transcribe auf 25 Minuten

Der Kerntrick zum Sparen bei Transkriptionszeit und -kosten

OpenAIs Audiotranskriptionsdienst berechnet Gebühren auf Basis der Länge des angenommenen Audios
Wenn man daher Sprachdateien vor dem Upload mit ffmpeg oder ähnlichen Tools auf die 2- bis 3-fache Geschwindigkeit beschleunigt, sinkt die Zahl der Eingabetokens deutlich, und auch die Verarbeitungszeit der Transkription verkürzt sich
In der Praxis spart man bei einem 40-Minuten-Audio mehr als 33 % der Kosten für Eingabetokens (bei 3x $0.07, bei 2x $0.09)
Die Kosten für Ausgabetokens bleiben nahezu gleich, unabhängig von der Audiogeschwindigkeit (da sie anhand der Länge der erzeugten Zusammenfassung automatisch zugewiesen werden)
Bei 2x und 3x bleibt die Transkriptionsgenauigkeit stabil, doch bei 4x stößt das Modell an Grenzen und erkennt den Inhalt nicht mehr zuverlässig

Beispiel für ein verwendetes Skript

Erforderlich ist die Nutzung der folgenden Open-Source-Tools:

yt-dlp : Audio aus YouTube usw. extrahieren
ffmpeg : Audio umwandeln und Geschwindigkeit anpassen
llm : Textzusammenfassungen automatisieren

Beispielhafter Gesamt-Workflow:

Audio mit yt-dlp extrahieren, dann
mit ffmpeg auf 2- bis 3-fache Geschwindigkeit umwandeln und als mp3 speichern
mp3 per OpenAI API (gpt-4o-transcribe) hochladen und den Transkriptionstext erhalten
den resultierenden Text an llm übergeben, um automatisch die gewünschte Zusammenfassung zu erzeugen

Praxiserfahrungen und Stolpersteine

Ursprünglich sollte die automatische YouTube-Transkription genutzt werden, doch mit einer älteren yt-dlp-Version (2025.04.03) kam es zu Downloadfehlern
Nach einem Programm-Update funktionierte es zwar wieder normal, aber in der Zwischenzeit wurde der Ansatz ausprobiert, manuell zu extrahieren, per ffmpeg zu beschleunigen und dann über die OpenAI API zu verarbeiten
Beim lokalen Einsatz von Whisper auf einem M3 MacBook Air traten Probleme bei Akkulast und Ausführungsgeschwindigkeit auf; das Auslagern in die Cloud (OpenAI API) war schneller und effizienter

Transkriptionsqualität und Eigenschaften des Algorithmus

Selbst wenn die Audiogeschwindigkeit auf das 2- bis 3-fache erhöht wird, kann das KI-Modell die wesentlichen Informationen fast ebenso erfassen, wie Menschen das Original in schneller Wiedergabe verstehen können
Ähnlich wie bei der Optimierung von Bilddateigrößen (verlustbehaftete/verlustfreie Formate) schadet ein teilweiser Verlust von Hörinformationen — etwa gelegentlich fehlende Wörter bei hoher Geschwindigkeit — dem Verständnis und der Zusammenfassung kaum
So wie das Gehirn auch falsch geschriebene oder teilweise ausgelassene Wörter ergänzt, kann der Transkriptionsalgorithmus die wichtigsten Informationen meist auch aus beschleunigtem Audio noch gut extrahieren

Reale Preisvergleiche und Einsparpotenzial

Für OpenAIs gpt-4o-transcribe ergeben sich je nach Audiogeschwindigkeit folgende Kosten
- 2-fache Geschwindigkeit (1.186 Sekunden): $0.09
- 3-fache Geschwindigkeit (791 Sekunden): $0.07
- Bei langen Eingabeaudios (z. B. 2.372 Sekunden Original) ist eine Verarbeitung aufgrund der Modellanforderungen nicht möglich
- Beim Modell Whisper-1 beträgt der Preis $0.006/Minute; mit dieser Methode sind dadurch insgesamt Einsparungen von bis zu rund 67 % möglich
Die Kosten für Ausgabetokens bleiben nahezu identisch, unabhängig von der Eingabegeschwindigkeit (bedingt durch das Kontextfenster des Modells und die Art der Zusammenfassung)
Bei 4-facher Geschwindigkeit verschlechtert sich die Ausgabe stark, etwa durch wiederholte Sätze

Empfehlungen und Fazit

Wer OpenAIs Sprachtranskription schnell und günstig nutzen möchte, fährt mit einer Audiobeschleunigung auf das 2- bis 3-fache am besten
Zu hohe Geschwindigkeiten (4x) führen zu Genauigkeitsproblemen
Die Methode ist einfach und leicht umsetzbar und bietet sowohl bei Qualitätserhalt als auch bei Kostensenkung Vorteile
Für Startups und IT-Praktiker, die lange Sprachdaten wie Business-Audio oder Sitzungsprotokolle verarbeiten müssen, ist das ein direkt nutzbarer Hebel zur Senkung von Zeit- und Kostenaufwand

Zusammenfassung (TL;DR)

OpenAI rechnet nach Audiolänge oder anhand von Ein-/Ausgabetokens ab
Wenn man Sprache mit ffmpeg auf die 2- bis 3-fache Geschwindigkeit bringt und dann einspeist, spart man sowohl Zeit als auch Kosten
Durch weniger Eingabetokens (oder kürzere Laufzeit) sinken die Gebühren
2x und 3x sind die optimalen Geschwindigkeiten; ab 4x nimmt die Transkriptionsqualität ab

2 Kommentare

mbsahg 2025-06-27

Kann man gpt-4o-transcribe verwenden?
Ich habe gestern bei OpenAI nachgefragt, und man sagte mir, dass nur das Whisper-Modell mit dem API-Schlüssel aufgerufen werden kann.
Ich überlege, Whisper mit einer schnelleren Einstellung auszuprobieren, um zu sehen, ob die Qualität trotzdem erhalten bleibt.

GN⁺ 2025-06-26

Hacker-News-Kommentare

Das Tempo von Andrejs Vortrag ist von Haus aus ein natürliches Sprechtempo, das mindestens 1,5x schneller ist als bei normalen Leuten, sodass man das Gefühl hat, zur Nachverfolgung die YouTube-Wiedergabegeschwindigkeit unbedingt auf 1x senken zu müssen. Wenn man OpenAI-Minuten effizienter machen will, wird vorgeschlagen, Stillephasen komplett zu entfernen und nur den Rest zu verarbeiten.
Mit einem ffmpeg-Befehlsbeispiel, das jede Stille unter -50dB von mehr als 20 ms durch 20 ms Pause ersetzt, ließ sich ein Video von 39 Minuten 31 Sekunden offenbar auf 31 Minuten 34 Sekunden verkürzen. Entsprechend der Absicht des Hauptbeitrags wurde nur die Länge gemessen, um den Effekt zu bewerten; die Qualität der verkürzten Version wurde nicht gesondert geprüft.
- Ich schaue grundsätzlich alle Videos mit 2x, und auch Andrejs Vorträge fühlen sich für mich bei 2x natürlich an. Andererseits sagen Leute in meinem Umfeld oft, meine eigenen Videos seien so schnell, dass man sie bei 0,75x anschauen müsse. Aus meiner Sicht fühlt sich alles unter 2x zu langsam an. Zur Einordnung: Selbst John Carmacks Sprechtempo wirkt auf mich bei 2x noch völlig natürlich. Falls jemand neugierig auf meine neueren Videos ist: hier. Ich habe mehr als 250–300 davon gemacht, meist improvisiert, nur mit einem groben Thema vor der Aufnahme. Mich würde interessieren, ob andere meine Videos als übertrieben schnell empfinden oder als völlig normales Tempo.
- Wenn die Qualität ohnehin nicht geprüft wurde, hätte man die Ergebnisse der beiden Versionen auch einfach mit so etwas wie diffchecker vergleichen können.
- Ich wünschte, es gäbe für normale Leute eine YouTube-Geschwindigkeit von 2,25x. Ich nutze ständig die Tastenkürzel und höre 90 % der Dinge auf 2x, aber nur Andrejs Vorträge lassen sich kaum schneller als 1,25x abspielen.
- Dass Andrej mehr als 1,5x schneller spricht als normale Leute, macht die Bemerkung nachvollziehbar, man müsse die YouTube-Geschwindigkeit wieder auf normal stellen. Ich frage mich, ob es eine Möglichkeit gibt, die Sprechgeschwindigkeit einer Person automatisch zu erkennen. Geschwindigkeit ist subjektiv und bei jedem anders, aber es wäre interessant, wenn man zumindest erkennen könnte, wann der Ansatz des OP scheitert. (Zum Beispiel so, als wäre bei x4 die Qualität völlig kaputtgegangen.)
- Ich freue mich bei dem Gedanken, noch mehr ffmpeg-Magie zu nutzen. Danke für die Idee, das will ich später unbedingt ausprobieren.
Gedanken zum Unterschied zwischen flüchtigem Überfliegen und sich Zeit nehmen, um etwas wirklich gründlich zu lesen.
Als ich nur das Transcript und die Zusammenfassung von Andrejs Vortrag gelesen hatte, wirkte alles recht gewöhnlich und ich bin einfach weitergegangen. Als ich dann aber das komplette Video auf YouTube sah, führte das zu einer Erfahrung, aus der sich unglaublich viele Ideen, Gedanken und Entscheidungen ergaben. Das erlebe ich auch bei anderen Themen oft. Wenn man persönlich an einer Konferenz teilnimmt und zuhört, ist das viel nützlicher als ein Online-Vortrag. Selbst online zuzuschauen ist weit wertvoller, als nur eine Zusammenfassung zu lesen. Sogar im Vergleich zu zehn Minuten oberflächlichem Nachdenken ist ein Spaziergang mit tieferem Nachdenken viel besser. Fürs Denken ist Langsamkeit normalerweise hilfreicher.
- Das fühlt sich wirklich seltsam an. Als Entwickler, der es in der Schule gehasst hat, wenn Wissen in standardisierter Form hingeworfen wird, finde ich es merkwürdig, dass ich heute freiwillig sogar Geld für genau solche Erfahrungen bezahle. Lesen an sich macht Freude, und auch das Gefühl, dass sich beim Zuschauen eines Vortrags Gedanken zusammenfügen, ist großartig. Ich finde, dass es etwas zutiefst Menschliches ist, selbst über die Bedeutung der Welt nachzudenken. Umso weniger kann ich nachvollziehen, wie dieser Trend ausgerechnet alle dümmer machen soll.
- Stimme dem sehr zu. Der Wert eines Vortrags liegt meiner Meinung nach weniger in den öffentlich verfügbaren Fakten oder Ideen selbst als vielmehr in der Vielzahl zusätzlicher Inspirationen, die dadurch entstehen. Es gibt unendlich viele Informationen auf der Welt, und Kontext ist alles. Wenn ich ein wenig mehr konkreten Kontext gehabt hätte, hätte ich mir vielleicht die Zeit genommen, es anzuschauen; aber wenn ich nur einen Link ohne Kontext bekomme, versuche ich eher, nur schnell den „Kern“ zu erfassen und entsprechend zu reagieren. Jetzt bin ich dadurch jedenfalls neugierig geworden und sehe es mir vielleicht doch noch an. Und „langsam zu denken ist meist besser“ unterschreibe ich noch einmal.
- Langsames Denken ist wichtig, aber vielleicht ist es auch ziemlich nützlich, einen Vortrag erst einmal teilweise zu hören und ihn später noch einmal anzuschauen, um gründlicher darüber nachzudenken.
- Die Frage ist, ob wirklich die Geschwindigkeit des Videos wichtig war oder eher die Zusatzinformationen, die Video und Audio liefern. Bei guten Rednern habe ich oft das Gefühl, dass dieselbe Botschaft über Audio/Video viel besser vermittelt wird. Audio kann bestimmte Stellen betonen, und Video kann die Aussage zusätzlich durch Gestik und Mimik verstärken.
- Wenn ich Leute sehe, die Podcasts oder Hörbücher mit 2–3x hören, empfinde ich bei mir eher das Gegenteil: Bei 0,8x kann ich mich besser konzentrieren und habe mehr Zeit zum Nachdenken. Ich frage mich, ob ich damit ein Sonderfall bin.
Ich habe versucht, einen 40-minütigen Vortrag über die Transcription API von OpenAI zusammenzufassen, aber er war zu lang, also habe ich ihn mit ffmpeg auf 3x beschleunigt, damit er innerhalb des 25-Minuten-Limits verarbeitet werden konnte. Das hat tatsächlich funktioniert, und weil es sowohl Kosten als auch Zeit gespart hat, habe ich den Ansatz geteilt. Einschließlich des kompletten Skripts und der Kostenaufschlüsselung.
- Als Scherz: Man hätte so einen Trick still für sich nutzen und sogar ein günstigeres Transcription-Business als OpenAI starten können.
„Wie steht’s mit der Genauigkeit?“ – „Keine Ahnung, genau darum ging’s ursprünglich.“ Einerseits wirkt das wie cool gemachte Arbeit ganz im Ton des Originalautors, andererseits fühlt sich diese Zukunft irgendwie beunruhigend an.
- Auch von Menschen erstellte Transkripte waren nie garantiert exakt. In solchen Umwandlungsprozessen gab es immer Fehler, und das wird auch künftig Teil der Erwartungen sein. Noch besorgniserregender ist eher, wenn generative KI Dinge als Tatsachen interpretiert oder wenn sich gesellschaftlich die Vorstellung festsetzt, „KI sei vertrauenswürdiger“. Auch die verbreitete Annahme, KI sei verlässlicher oder fairer als Menschen, Fachleute oder Journalisten, ist gefährlich.
Vor Gemini 2.0 gab es eine Version, bei der für ein einzelnes Bild pauschal 258 Tokens berechnet wurden; damit gab es auch den Trick, möglichst viel Text in ein Bild zu quetschen und ihn auf diese Weise billiger verarbeiten zu lassen.
Ich habe eine Chrome-Erweiterung gebaut, die in huggingface/transformers.js ein OpenAI-Whisper-Modell über WebGPU laufen lässt, sodass Audio direkt im Browser in Text umgewandelt werden kann. Siehe die Beispielliste. Zum Beispiel will man sich die Videos in den sozialen Medien des Präsidenten weder anhören noch ansehen, muss aber schnell erkennen, wenn dort wieder eine ökonomisch relevante Entgleisung auftaucht. Deshalb wird alle 1 Minute ein neuer Post gecrawlt, OCR und Audio-Transkription lokal automatisch verarbeitet und anschließend Textanalyse ausgeführt; benachrichtigt wird nur dann, wenn es wirtschaftlich wichtig ist. Projektlink
- Beeindruckende Umsetzung.
Statt der OpenAI-Whisper-API wird auch Groq empfohlen (günstig: distil-large-v3 für $0.02/Stunde, whisper-large-v3-turbo für $0.04, OpenAI bei $0.36/hr). Intern werden offenbar automatisch Transkriptionen mit Groq, Replicate, Deepgram usw. erzeugt, sobald Sitzungen des Stadtrats auf YouTube hochgeladen werden.
- Tipp: Mit der Inference API von Hugging Face kann man bequem zwischen mehreren API-Anbietern wechseln. Ein Beispiel gibt es hier.
- Bei einem Preis von $0.02–$0.04 pro Stunde braucht man wohl kaum noch besondere Optimierungen, aber die Frage bleibt, ob sich die Kosten durch schneller abgespieltes Audio noch weiter senken lassen. Dazu kommt die Frage, ob YouTube nicht ohnehin meist innerhalb eines Tages automatische Untertitel bereitstellt.
- Für Nutzer aktueller MacBooks der Hinweis, dass sich Whisper-Modelle komplett kostenlos lokal ausführen lassen. Viele unterschätzen offenbar, wie günstig die Rechenleistung der bereits vorhandenen eigenen Hardware tatsächlich ist.
- Auch bei cloudflare workers ai gibt es eine Option, das Modell whisper-large-v3-turbo für rund $0.03 pro Stunde zu nutzen (Link).
Hervorgehoben wird außerdem, dass Google AI Studio automatisch ein Transkript mit Sprecherlabels und sogar visuellen Hinweisen erzeugt, wenn man einfach einen YouTube-Link hineingibt. Erwähnt wird auch multimodale Unterstützung für Videos.
Ich arbeite bei OpenAI an API-bezogenen Themen und bin überrascht, wie gut die Ergebnisse selbst bei 2–3x Geschwindigkeit noch sind. Tatsächlich nutzen wir für Telefonkanäle 8-kHz-Audio, das auf 24 kHz hochgesampelt wird, und das funktioniert gut. Allerdings nimmt die Genauigkeit klar ab, je weiter man sich von 1x entfernt, und langfristig braucht es Unterstützung für längere Datei-Uploads.
- Feedback dazu: Es wäre gut, intern solche Geschwindigkeitsoptimierungen zu erforschen und Vielfache zu finden, bei denen der Genauigkeitsverlust minimal bleibt. Das deutet auch an, dass einfache Vorverarbeitung die API-Preise faktisch senken könnte.
Mir gefällt der Schreibstil, der direkt zur Sache kommt. Viele Texte werden unnötig langatmig, deshalb wirkt dieser Ansatz erfrischend. Vielleicht würden dann auch die Hälfte aller Autoren merken, dass sie im Grunde gar keine eigentliche Kernbotschaft haben.