Przełom Homsh: ViT+ArcFace
Dokładność rozpoznawania tęczówki osiąga światowy poziom
Ze współczynnikiem błędów równych (EER) wynoszącym zaledwie 0,29% i wartością ROC AUC zbliżoną do teoretycznej granicy —
Zmieniliśmy granice rozpoznawania tęczówki dzięki Vision Transformer
▲ Vision Transformer redefiniuje podstawowy paradygmat ekstrakcji cech tęczówki
I. Tym razem to nie tylko postęp — to zmiana paradygmatu
Gdybyś zapytał inżyniera, który od dwóch dekad pracuje w dziedzinie rozpoznawania tęczówki: „Jaki jest najtrudniejszy problem, z jakim kiedykolwiek się zmierzyłeś?”
Prawdopodobnie zawahałby się przez chwilę, a potem powiedziałby: „Rozwijanie gumowej płachty”.
Od czasu, gdy John Daugman zaproponował algorytm IrisCode w 1993 roku, proces „rozwijania gumowej płachty” był jak zaklęcie wpisane w DNA systemów rozpoznawania tęczówki na całym świecie. Rozwijanie okrągłej tęczówki w prostokątny obraz, a następnie ekstrakcja tekstur za pomocą filtrów Gabora... ten przepływ pracy jest stosowany od trzech dekad i nikt go nie kwestionował.
Aż do momentu, gdy postanowiliśmy go odrzucić.
II. Dlaczego gumowa płachta przestała działać?
Vision Transformer (w skrócie ViT) jest jednym z najbardziej olśniewających przełomów technologicznych w dziedzinie głębokiego uczenia się w ciągu ostatnich trzech lat. Dzieli obraz na szereg „łatek” o rozmiarze 16x16, wykorzystuje mechanizm samo-uwagi modeli językowych do zrozumienia globalnej struktury obrazu i przewyższa sieci neuronowe konwolucyjne (CNN), które dominowały przez lata w wielu czołowych zadaniach wizualnych.
Kiedy po raz pierwszy spróbowaliśmy zastosować ViT do rozpoznawania tęczówki, początkowe wyniki były rozczarowujące: współczynnik błędów równych (EER) wynosił aż 4,65%, znacznie poniżej oczekiwań.
Zespół szybko zidentyfikował przyczynę: „gumowa płachta” „spłaszcza” pierścieniową tęczówkę o wymiarach 64x512 pikseli do prostokąta, który następnie jest skalowany do wejścia 224x224 wymaganego przez ViT — 3,5-krotne rozciągnięcie w pionie i 2,3-krotne ściśnięcie w poziomie. Naturalna radialna/obwodowa struktura tekstury tęczówki została poważnie zniekształcona, co uniemożliwiło mechanizmowi uwagi łatek ViT percepcję semantyki wewnątrz.
Innymi słowy: podawaliśmy najmądrzejszemu modelowi dane w niewłaściwy sposób.
Rozwiązanie brzmi prosto, a jednak wymagało odwagi do przełamania konwencji — porzucenia „gumowej płachty” i przejścia na przycinanie okrągłego ROI (Region of Interest): z centrum tęczówki jako punktu początkowego, przycinamy kwadratowy obszar (2,5-krotność promienia), aby zachować naturalną symetrię przestrzenną tęczówki, a następnie bezpośrednio skalujemy go do 224x224 i podajemy do ViT. W ten sposób każda łatka 16x16 może postrzegać autentyczną, nie zniekształconą teksturę tęczówki.
III. Kluczowe metryki: EER = 0,29%, ROC AUC = 0,9999
Zmiana tego pojedynczego kroku wstępnego przetwarzania przyniosła ogromną różnicę:
| Rozwiązanie |
EER |
Uwagi |
| Runda 1: ViT + gumowa płachta |
4,65% |
Tradycyjny przepływ pracy |
| Runda 2: CNN + gumowa płachta |
2,80% |
Wymiana rdzenia z ograniczoną poprawą |
| Runda 3: ViT + przycinanie ROI |
~0,12%* |
Krytyczny przełom |
| Wersja końcowa: ViT-S/16 + ROI + regularyzacja |
0,29% |
Rozwiązanie klasy produkcyjnej |
*Wyniki rundy 3 nie podlegają rygorystycznemu weryfikacji statystycznej i zawierają optymistyczne obciążenie.
Ostatecznie wdrożony system wykorzystuje ViT-S/16 (22,1 mln parametrów) + stratę kątową ArcFace, wytrenowany na połączeniu 8 publicznych zbiorów danych (łącznie 4480 tożsamości / 67 704 obrazów). Po rygorystycznej weryfikacji statystycznej wyniki są następujące:
● EER = 0,29% (Equal Error Rate)
● Przedział ufności 95%: [0,21%, 0,40%] (200 rund próbkowania bootstrap)
● ROC AUC = 0,9999 (wynik prawie doskonały)
● Średnie podobieństwo par prawdziwych: 0,8742 (wysoka spójność dla tej samej osoby)
● Średnie podobieństwo par fałszywych: 0,0450 (całkowite rozdzielenie cech dla różnych osób)
● Przy FRR=1%, FAR = 0,00% (zero fałszywych rozpoznań przy punktach pracy o wysokim poziomie bezpieczeństwa)
▲ Krzywa ROC (AUC=0,9999) i rozkład wyników prawdziwych/fałszywych — dwa szczyty całkowicie rozdzielone
IV. Dane treningowe: Nie tylko duże, ale i zróżnicowane
W tym badaniu połączono 8 publicznych zbiorów danych, w tym dwa najbardziej wymagające scenariusze w branży:
Dane bliźniąt (CASIA-Iris-Twins)
Dane tęczówki od 200 par bliźniąt — nawet przy prawie identycznych genach, tekstury tęczówki są całkowicie różne. Jest to „ostateczny test” weryfikujący moc dyskryminacyjną algorytmu.
Scenariusze nieograniczone w świetle widzialnym (UBIRIS.v2)
518 tożsamości z ponad 11 000 obrazów, przechwyconych w naturalnym oświetleniu z rozmyciem ruchu, zniekształceniem poza ostrością i zmiennością oświetlenia — jest to zbiór danych najbliższy rzeczywistym scenariuszom wdrożeniowym.
Trening został zakończony na Apple Silicon M2 Ultra (Mac Studio) w około 12,3 godziny (90 epok treningowych), z maksymalnym opóźnieniem wnioskowania wynoszącym zaledwie ~35 ms (w tym przycinanie ROI i ekstrakcja cech).
V. Porównanie poziome z czołowymi pracami branżowymi
| Metoda |
Rdzeń |
Przetwarzanie wstępne |
EER |
| Daugman IrisCode |
Gabor |
Gumowa płachta |
~0,10% (Środowisko kontrolowane) |
| UniqueNet (2016) |
Siamese CNN |
Gumowa płachta |
0,18% |
| IrisFormer (2023) |
ViT-B/16 |
Gumowa płachta |
0,22% |
| PolyIRIS (2021) |
CNN wieloskalowy |
Gumowa płachta |
(Pojedynczy zbiór danych) |
| Homsh ViT+ArcFace (Ta wersja) |
ViT-S/16 |
Przycinanie ROI |
0,29% (8 zbiorów danych) |
▲ Od 4,65% do 0,29% EER: Ścieżka ewolucji technologicznej czterech rund iteracji
VI. Następne kroki
1. Niezależna ocena między zbiorami danych
Testy ślepe na zbiorze danych IIT Delhi, nieobjętym treningiem, w celu weryfikacji zdolności generalizacji w świecie rzeczywistym.
2. Integracja detekcji żywotności
Połączenie odpowiedzi błyskowej wieloklatkowej lub analizy tekstury w celu obrony przed atakami odtwarzania zdjęć i zbudowania kompletnego systemu zapobiegającego oszustwom.
3. Rozpoznawanie tęczówki na średnie i długie dystanse
Wprowadzenie danych na średnie dystanse (3 m) w celu rozszerzenia na scenariusze z większymi odległościami przechwytywania — następny niebieski ocean dla komercyjnego wdrożenia.
4. Lekkość i wdrożenie po stronie krawędzi
Destylacja modelu ViT-S/16 do <5 mln parametrów w celu dostosowania do urządzeń brzegowych o ograniczonych zasobach (NPU/FPGA).
Wniosek: Trzydziestoletnia konwencja zasługuje na ponowne rozpatrzenie
Gumowa płachta Daugmana była optymalnym rozwiązaniem swojej epoki. Ale esencją technologii jest to: gdy pojawią się lepsze narzędzia, stary paradygmat powinien ustąpić.
Vision Transformer zmienił podstawową logikę rozpoznawania obrazów. Dzięki czterem rundom eksperymentów i czterem miesiącom eksploracji znaleźliśmy właściwy sposób, aby ViT naprawdę uwolnił swój potencjał w rozpoznawaniu tęczówki — nie po to, aby ViT dostosował się do starego przepływu pracy, ale aby zaprojektować nowy paradygmat przetwarzania wstępnego dostosowany do ViT.
EER na poziomie 0,29% to tylko liczba, ale także deklaracja:
Rozpoznawanie tęczówki wkroczyło w erę Transformerów, a Homsh jest na linii startu.
O Homsh
WuHan Homsh Technology Co., Ltd. (HOMSH), założona w 2011 roku, jest jednym z niewielu przedsiębiorstw high-tech na świecie posiadających niezależne prawa własności intelektualnej do kluczowych algorytmów i chipów rozpoznawania tęczówki. Jej kluczowy algorytm Phaselirs™ i inteligentne chipy FPGA/ASIC z serii Qianxin do rozpoznawania tęczówki są szeroko stosowane w finansowaniu, odprawach celnych, wydawaniu dokumentów rządowych, bezpieczeństwie wojskowym i innych dziedzinach.