Identitätswahrung beim AI Face Swap: ArcFace vs. AdaFace Benchmarks (2026)

Identitätserhaltung: ArcFace vs. AdaFace
Die Wahrung der Identität ist die wichtigste Qualitätsdimension beim Gesichtstausch. Das Netzwerk zur Gesichtseinbettung teilt dem Generator mit: „Dies ist die Person, die wir übertragen.“ Zwei Einbettungen dominieren die Produktionsstapel für 2026: ArcFace und AdaFace. Wir haben beide anhand einer Produktions-Face-Swap-Pipeline verglichen.
Wofür jede Einbettung optimiert wird
ArcFace führte 2018 den additiven Winkelrandverlust ein und dominierte jahrelang die Gesichtserkennungs-Benchmarks. Seine Einbettungen sind pro Identität eng geclustert – hervorragend für die Verifizierung, stark für die Swap-Time-Identitätsübertragung.
AdaFace (2022) hat einen qualitätsadaptiven Spielraum hinzugefügt: Es gewichtet Bilder mit geringer Qualität während des Trainings unterschiedlich, was zu Einbettungen führt, die robuster gegenüber Unschärfe, niedriger Auflösung und schwieriger Beleuchtung sind.
Benchmark-Setup
- Testsatz: 1.000 Gesichtspaare aus einem bereitgestellten Bewertungssatz, der verschiedene Winkel, Beleuchtung und Bildqualität abdeckt.
- Pipeline: Gleicher Wan 2.2-Face-Swap-Generator, nur das Einbettungsnetzwerk wurde ausgetauscht.
- Metriken: ArcFace-Kosinusähnlichkeit (ja, wird unabhängig von der Generationseinbettung als Bewertung verwendet – unabhängige Bewertung), menschliche Präferenzbewertung, Artefaktdichte.
- Hardware: H100 80 GB.
Ergebnisse – Hochwertige Quellbilder
| Metrik | ArcFace | AdaFace |
|---|---|---|
| Identitätsähnlichkeit (Mittelwert) | 0,79 | 0,78 |
| Identitätsähnlichkeit (p10) | 0,71 | 0,72 |
| Menschliche Präferenz | 52 % | 48 % |
| Wanduhr pro Swap | 1,0× Basislinie | 1,05× Basislinie |
Bei sauberen, qualitativ hochwertigen Quellen sind die beiden Einbettungen statistisch nicht unterscheidbar. Wählen Sie nach einfacher Integration.
Ergebnisse – Quellbilder von geringer Qualität
| Metrik | ArcFace | AdaFace |
|---|---|---|
| Identitätsähnlichkeit (Mittelwert) | 0,62 | 0,71 |
| Identitätsähnlichkeit (p10) | 0,48 | 0,61 |
| Menschliche Präferenz | 34 % | 66 % |
Bei verschwommenen, niedrig aufgelösten oder schlecht beleuchteten Quellen glänzt der qualitätsadaptive Spielraum von AdaFace. Die Lücke im p10-Fall (Eingaben im schlechtesten Dezil) ist groß genug, um im Maßstab eine Rolle zu spielen.
Ergebnisse – Quelle außerhalb des Winkels
Beide Einbettungen haben Mühe, eine Kopfdrehung von ca. 45° zu überwinden. Beides ist nicht sinnvoll besser. Die Lösung hierfür liegt auf der Generatorseite und nicht auf der Einbettungsseite: bessere Quellbildführung und Posen-bewusste Generierungsnetzwerke.
Ergebnisse – Demografische Leistung
Wir haben den Testsatz nach demografischer Quellgruppe aufgeteilt (Best Practice für Gesichtserkennungs-Benchmarking). AdaFace hat die demografische Leistungslücke, die bei älteren ArcFace-Bereitstellungen aufgetreten ist, verringert, aber nicht beseitigt. Die grundlegende Lösung hier ist die Zusammensetzung der Trainingsdaten; Beide Netzwerke verbessern sich, wenn sie auf demografisch ausgewogenen Daten trainiert werden.
Leitfaden zur Produktionsentscheidung
- Konsumenten-Gesichtstausch mit selbst hochgeladenen Fotos: AdaFace ist die bessere Standardeinstellung. Von Benutzern hochgeladene Fotos variieren stark in der Qualität.
- Workflow in Studioqualität mit kuratierten hochwertigen Quellen: ArcFace ist in Ordnung; Der Qualitätsgewinn durch AdaFace ist hier marginal.
- API für gemischte Kundengruppen: AdaFace ist der sicherere Standard – der Worst-Case ist viel besser und der Best-Case ist statistisch gleich.
- Latenzkritische Echtzeit: Die etwas schnellere Inferenz von ArcFace kann am Rande von Bedeutung sein. Testen Sie auf Ihrer Hardware.
Hybride Ansätze
Einige Produktions-Stacks aus dem Jahr 2026 kombinieren beides: ArcFace für den primären Identitätsvektor und AdaFace als qualitätsbewussten Fallback, wenn der Qualitätsfaktor des Quellbilds unter dem Schwellenwert liegt. Das Ensemble erhöht die Latenzzeit um ca. 5 % und sorgt so für ein um 10–15 % besseres Worst-Case-Verhalten. Es lohnt sich für Verbraucherprodukte für das allgemeine Publikum.
Jenseits von ArcFace und AdaFace
Neuere Einbettungen (CosFace 2.0, MagFace v2, mehrere proprietäre Netzwerke) sind in Veröffentlichungen aus dem Jahr 2025 erschienen. Bisher hat noch keiner ArcFace/AdaFace als Produktionsstandard verdrängt – typischerweise, weil der marginale Gewinn die Integrationskosten in etablierte Pipelines nicht rechtfertigt. Sehen Sie sich die NeurIPS- und CVPR-Verfahren 2026 für Kandidaten an, die das könnten.
Bewertung Ehrlichkeit
Eine Falle: Bewerten Sie die Identitätserhaltung nicht mithilfe desselben Einbettungsnetzwerks, das die Generierung vorangetrieben hat. Das Modell wurde effektiv für den Identitätsbegriff dieser Einbettung optimiert, sodass die Punktzahl überhöht ist. Bewerten Sie immer mit einer unabhängigen Einbettung (wir haben ein separat trainiertes ArcFace sowohl für ArcFace-gesteuerte als auch für AdaFace-gesteuerte Generationen verwendet).
Was DeepSwapAI verwendet
Die Produktionspipeline von DeepSwapAI verwendet einen Hybrid: AdaFace als primäre Identitätseinbettung mit ArcFace als Verifizierungsprüfung während der Qualitätsbewertung. Dies bietet Robustheit im Verbrauchersegment mit Verifizierung auf Studioniveau. Dokumentiert auf der Seite zur Forschungsmethodik.
Fazit
Für Verbraucherszenarien oder Eingabeszenarien mit gemischter Qualität ist AdaFace im Jahr 2026 die bessere Einbettung. Für kuratierte Eingaben in Studioqualität sind beide gleichwertig. Hybrid-Ensembles erzielen die Worst-Case-Verbesserung bei moderaten Kosten. Der größere Hebel zur Identitätserhaltung ist die Architektur auf der Generatorseite und die Ausgewogenheit der Trainingsdaten – die Einbettung von Wahlmöglichkeiten ist sinnvoll, aber nicht dominant.