ArtifactNet: Ein leichtgewichtiges forensisches Framework zur Erkennung von KI-generierter Musik mit Codec-Physik

(arxiv.org)

7 Punkte von unohee 10 일 전 | 2 Kommentare | Auf WhatsApp teilen

Alle kommerziellen KI-Musikgeneratoren wie Suno, Udio, MusicGen und Stable Audio teilen eine unvermeidliche physikalische Einschränkung: Das erzeugte Audio muss zwingend durch Residual Vector Quantization (RVQ) laufen.

RVQ bildet kontinuierliche Audiorepräsentationen auf diskrete Codebook-Vektoren ab. Die dabei entstehenden Quantisierungslücken sind irreversibel. Wenn ein Quellentrennungsmodell, das nur mit menschlicher Musik trainiert wurde, KI-generiertes Audio verarbeitet, erscheinen diese Lücken als ungewöhnlich große und strukturierte Rekonstruktionsresiduen. Das ist das forensische Signal.

Bestehende Detektoren (CLAM, SpecTTTra) funktionieren innerhalb der Trainingsverteilung gut, brechen aber bei neuen Generatoren zusammen. ArtifactNet erkennt nicht, wie KI-Musik klingt, sondern warum sie sich physikalisch unterscheidet.

Pipeline (insgesamt 4.0M Parameter):

ArtifactUNet (3.6M) — ein bounded-mask UNet, das eine Multiplikationsmaske auf der STFT-Magnitude vorhersagt, begrenzt auf [0, 0.5]. Trainiert per zweistufiger Knowledge Distillation mit Demucs-v4-Residuen als Teacher.
7-Kanal-HPSS-Forensik-Features — Zerlegung der Residuen in harmonische/perkussive Komponenten, anschließend kombiniert mit zeitlicher Ableitung und Spectral Flux.
Leichtgewichtiges CNN (0.4M) — verarbeitet 4-Sekunden-Segmente, Median-Entscheidung auf Song-Ebene.

Physikalische Evidenz: Messung der effektiven Bandbreite von Quellentrennungsresiduen (n=94):

Menschliche Musik: Mittelwert 1.996 Hz
KI-Mittelwert (22 Generatoren): 291 Hz
Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

Unabhängig von der Architektur konzentrieren sich alle KI-Generatoren um etwa 200 Hz.

ArtifactBench-Ergebnisse (6.183 Tracks, 22 Generatoren, keine Überschneidung zwischen Training und Test):

Modell	Parameter	F1	FPR
ArtifactNet	4M	0.983	1.5%
CLAM	194M	0.758	69.3%
SpecTTTra	19M	0.771	19.4%

Bei CLAM liegt die Rate, mit der echte Musik fälschlich als KI erkannt wird, bei 69.3 % und ist damit als Klassifikator praktisch bedeutungslos. Die SONICS/MoM-Benchmarks veröffentlichen das Real-Set nur über YouTube-IDs; viele davon wurden gelöscht oder auf privat gesetzt, sodass ein F1-Vergleich auf Basis der Originaldaten unmöglich ist. ArtifactBench vergleicht die drei Modelle unter identischen Bedingungen mit einer selbst erhobenen und verifizierten Real-Partition.

Einschränkungen: 44.1-kHz-Eingabe erforderlich; bei MP3 mit niedriger Bitrate FPR ~8 %; bei einem Single-Pass-Demucs-Washing-Angriff sinkt die TPR auf 94 %; bei aktuellem Udio TPR = 87 %.

Demo (~5 Sekunden): https://demo.intrect.io/
Paper: https://arxiv.org/abs/2604.16254
Modell + Benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
Patent angemeldet (KR + PCT)

2 Kommentare

unsure4000 10 일 전

Es scheint Ihr eigenes Paper zu sein, oder?

chisquare88 9 일 전

69 Prozent sind immer noch fast Zufall, also kaum besser als Münzwurf. Es wirkt eher so, als würde man den Musikgenerierungs-KIs zusätzliche Unit-Tests verpassen wollen.

ArtifactNet: Ein leichtgewichtiges forensisches Framework zur Erkennung von KI-generierter Musik mit Codec-Physik

Verwandte Beiträge

2 Kommentare