Identitätswahrung beim AI Face Swap: ArcFace vs. AdaFace Benchmarks (2026)

Identitätserhaltung: ArcFace vs. AdaFace

Die Wahrung der Identität ist die wichtigste Qualitätsdimension beim Gesichtstausch. Das Netzwerk zur Gesichtseinbettung teilt dem Generator mit: „Dies ist die Person, die wir übertragen.“ Zwei Einbettungen dominieren die Produktionsstapel für 2026: ArcFace und AdaFace. Wir haben beide anhand einer Produktions-Face-Swap-Pipeline verglichen.

Wofür jede Einbettung optimiert wird

ArcFace führte 2018 den additiven Winkelrandverlust ein und dominierte jahrelang die Gesichtserkennungs-Benchmarks. Seine Einbettungen sind pro Identität eng geclustert – hervorragend für die Verifizierung, stark für die Swap-Time-Identitätsübertragung.

AdaFace (2022) hat einen qualitätsadaptiven Spielraum hinzugefügt: Es gewichtet Bilder mit geringer Qualität während des Trainings unterschiedlich, was zu Einbettungen führt, die robuster gegenüber Unschärfe, niedriger Auflösung und schwieriger Beleuchtung sind.

Benchmark-Setup

Testsatz: 1.000 Gesichtspaare aus einem bereitgestellten Bewertungssatz, der verschiedene Winkel, Beleuchtung und Bildqualität abdeckt.
Pipeline: Gleicher Wan 2.2-Face-Swap-Generator, nur das Einbettungsnetzwerk wurde ausgetauscht.
Metriken: ArcFace-Kosinusähnlichkeit (ja, wird unabhängig von der Generationseinbettung als Bewertung verwendet – unabhängige Bewertung), menschliche Präferenzbewertung, Artefaktdichte.
Hardware: H100 80 GB.

Ergebnisse – Hochwertige Quellbilder

Metrik	ArcFace	AdaFace
Identitätsähnlichkeit (Mittelwert)	0,79	0,78
Identitätsähnlichkeit (p10)	0,71	0,72
Menschliche Präferenz	52 %	48 %
Wanduhr pro Swap	1,0× Basislinie	1,05× Basislinie

Bei sauberen, qualitativ hochwertigen Quellen sind die beiden Einbettungen statistisch nicht unterscheidbar. Wählen Sie nach einfacher Integration.

Ergebnisse – Quellbilder von geringer Qualität

Metrik	ArcFace	AdaFace
Identitätsähnlichkeit (Mittelwert)	0,62	0,71
Identitätsähnlichkeit (p10)	0,48	0,61
Menschliche Präferenz	34 %	66 %

Bei verschwommenen, niedrig aufgelösten oder schlecht beleuchteten Quellen glänzt der qualitätsadaptive Spielraum von AdaFace. Die Lücke im p10-Fall (Eingaben im schlechtesten Dezil) ist groß genug, um im Maßstab eine Rolle zu spielen.

Ergebnisse – Quelle außerhalb des Winkels

Beide Einbettungen haben Mühe, eine Kopfdrehung von ca. 45° zu überwinden. Beides ist nicht sinnvoll besser. Die Lösung hierfür liegt auf der Generatorseite und nicht auf der Einbettungsseite: bessere Quellbildführung und Posen-bewusste Generierungsnetzwerke.

Ergebnisse – Demografische Leistung

Wir haben den Testsatz nach demografischer Quellgruppe aufgeteilt (Best Practice für Gesichtserkennungs-Benchmarking). AdaFace hat die demografische Leistungslücke, die bei älteren ArcFace-Bereitstellungen aufgetreten ist, verringert, aber nicht beseitigt. Die grundlegende Lösung hier ist die Zusammensetzung der Trainingsdaten; Beide Netzwerke verbessern sich, wenn sie auf demografisch ausgewogenen Daten trainiert werden.

Leitfaden zur Produktionsentscheidung

Konsumenten-Gesichtstausch mit selbst hochgeladenen Fotos: AdaFace ist die bessere Standardeinstellung. Von Benutzern hochgeladene Fotos variieren stark in der Qualität.
Workflow in Studioqualität mit kuratierten hochwertigen Quellen: ArcFace ist in Ordnung; Der Qualitätsgewinn durch AdaFace ist hier marginal.
API für gemischte Kundengruppen: AdaFace ist der sicherere Standard – der Worst-Case ist viel besser und der Best-Case ist statistisch gleich.
Latenzkritische Echtzeit: Die etwas schnellere Inferenz von ArcFace kann am Rande von Bedeutung sein. Testen Sie auf Ihrer Hardware.

Hybride Ansätze

Einige Produktions-Stacks aus dem Jahr 2026 kombinieren beides: ArcFace für den primären Identitätsvektor und AdaFace als qualitätsbewussten Fallback, wenn der Qualitätsfaktor des Quellbilds unter dem Schwellenwert liegt. Das Ensemble erhöht die Latenzzeit um ca. 5 % und sorgt so für ein um 10–15 % besseres Worst-Case-Verhalten. Es lohnt sich für Verbraucherprodukte für das allgemeine Publikum.

Jenseits von ArcFace und AdaFace

Neuere Einbettungen (CosFace 2.0, MagFace v2, mehrere proprietäre Netzwerke) sind in Veröffentlichungen aus dem Jahr 2025 erschienen. Bisher hat noch keiner ArcFace/AdaFace als Produktionsstandard verdrängt – typischerweise, weil der marginale Gewinn die Integrationskosten in etablierte Pipelines nicht rechtfertigt. Sehen Sie sich die NeurIPS- und CVPR-Verfahren 2026 für Kandidaten an, die das könnten.

Bewertung Ehrlichkeit

Eine Falle: Bewerten Sie die Identitätserhaltung nicht mithilfe desselben Einbettungsnetzwerks, das die Generierung vorangetrieben hat. Das Modell wurde effektiv für den Identitätsbegriff dieser Einbettung optimiert, sodass die Punktzahl überhöht ist. Bewerten Sie immer mit einer unabhängigen Einbettung (wir haben ein separat trainiertes ArcFace sowohl für ArcFace-gesteuerte als auch für AdaFace-gesteuerte Generationen verwendet).

Was DeepSwapAI verwendet

Die Produktionspipeline von DeepSwapAI verwendet einen Hybrid: AdaFace als primäre Identitätseinbettung mit ArcFace als Verifizierungsprüfung während der Qualitätsbewertung. Dies bietet Robustheit im Verbrauchersegment mit Verifizierung auf Studioniveau. Dokumentiert auf der Seite zur Forschungsmethodik.

Fazit

Für Verbraucherszenarien oder Eingabeszenarien mit gemischter Qualität ist AdaFace im Jahr 2026 die bessere Einbettung. Für kuratierte Eingaben in Studioqualität sind beide gleichwertig. Hybrid-Ensembles erzielen die Worst-Case-Verbesserung bei moderaten Kosten. Der größere Hebel zur Identitätserhaltung ist die Architektur auf der Generatorseite und die Ausgewogenheit der Trainingsdaten – die Einbettung von Wahlmöglichkeiten ist sinnvoll, aber nicht dominant.