Aktualności

Do domu > Aktualności >

Wiadomości firmowe nt Przełomowy przełom firmy Homsh: ViT+ArcFace osiąga 0,29% EER w rozpoznawaniu tęczy

Wydarzenia

Sprawy

Kontakty

Kontakty: Mr. Kelvin Yi

Tel.: 65-80381900

Skontaktuj się teraz

Wyślij nam wiadomość.

Przełomowy przełom firmy Homsh: ViT+ArcFace osiąga 0,29% EER w rozpoznawaniu tęczy

2026-04-01

Przełom Homsh: ViT+ArcFace

Dokładność rozpoznawania tęczówki osiąga światowy poziom
Ze współczynnikiem błędów równych (EER) wynoszącym zaledwie 0,29% i wartością ROC AUC zbliżoną do teoretycznej granicy —
Zmieniliśmy granice rozpoznawania tęczówki dzięki Vision Transformer

▲ Vision Transformer redefiniuje podstawowy paradygmat ekstrakcji cech tęczówki

I. Tym razem to nie tylko postęp — to zmiana paradygmatu

Gdybyś zapytał inżyniera, który od dwóch dekad pracuje w dziedzinie rozpoznawania tęczówki: „Jaki jest najtrudniejszy problem, z jakim kiedykolwiek się zmierzyłeś?”

Prawdopodobnie zawahałby się przez chwilę, a potem powiedziałby: „Rozwijanie gumowej płachty”.

Od czasu, gdy John Daugman zaproponował algorytm IrisCode w 1993 roku, proces „rozwijania gumowej płachty” był jak zaklęcie wpisane w DNA systemów rozpoznawania tęczówki na całym świecie. Rozwijanie okrągłej tęczówki w prostokątny obraz, a następnie ekstrakcja tekstur za pomocą filtrów Gabora... ten przepływ pracy jest stosowany od trzech dekad i nikt go nie kwestionował.

Aż do momentu, gdy postanowiliśmy go odrzucić.

II. Dlaczego gumowa płachta przestała działać?

Vision Transformer (w skrócie ViT) jest jednym z najbardziej olśniewających przełomów technologicznych w dziedzinie głębokiego uczenia się w ciągu ostatnich trzech lat. Dzieli obraz na szereg „łatek” o rozmiarze 16x16, wykorzystuje mechanizm samo-uwagi modeli językowych do zrozumienia globalnej struktury obrazu i przewyższa sieci neuronowe konwolucyjne (CNN), które dominowały przez lata w wielu czołowych zadaniach wizualnych.

Kiedy po raz pierwszy spróbowaliśmy zastosować ViT do rozpoznawania tęczówki, początkowe wyniki były rozczarowujące: współczynnik błędów równych (EER) wynosił aż 4,65%, znacznie poniżej oczekiwań.

Zespół szybko zidentyfikował przyczynę: „gumowa płachta” „spłaszcza” pierścieniową tęczówkę o wymiarach 64x512 pikseli do prostokąta, który następnie jest skalowany do wejścia 224x224 wymaganego przez ViT — 3,5-krotne rozciągnięcie w pionie i 2,3-krotne ściśnięcie w poziomie. Naturalna radialna/obwodowa struktura tekstury tęczówki została poważnie zniekształcona, co uniemożliwiło mechanizmowi uwagi łatek ViT percepcję semantyki wewnątrz.

Innymi słowy: podawaliśmy najmądrzejszemu modelowi dane w niewłaściwy sposób.

Rozwiązanie brzmi prosto, a jednak wymagało odwagi do przełamania konwencji — porzucenia „gumowej płachty” i przejścia na przycinanie okrągłego ROI (Region of Interest): z centrum tęczówki jako punktu początkowego, przycinamy kwadratowy obszar (2,5-krotność promienia), aby zachować naturalną symetrię przestrzenną tęczówki, a następnie bezpośrednio skalujemy go do 224x224 i podajemy do ViT. W ten sposób każda łatka 16x16 może postrzegać autentyczną, nie zniekształconą teksturę tęczówki.

III. Kluczowe metryki: EER = 0,29%, ROC AUC = 0,9999

Zmiana tego pojedynczego kroku wstępnego przetwarzania przyniosła ogromną różnicę:

Rozwiązanie	EER	Uwagi
Runda 1: ViT + gumowa płachta	4,65%	Tradycyjny przepływ pracy
Runda 2: CNN + gumowa płachta	2,80%	Wymiana rdzenia z ograniczoną poprawą
Runda 3: ViT + przycinanie ROI	~0,12%*	Krytyczny przełom
Wersja końcowa: ViT-S/16 + ROI + regularyzacja	0,29%	Rozwiązanie klasy produkcyjnej

*Wyniki rundy 3 nie podlegają rygorystycznemu weryfikacji statystycznej i zawierają optymistyczne obciążenie.

Ostatecznie wdrożony system wykorzystuje ViT-S/16 (22,1 mln parametrów) + stratę kątową ArcFace, wytrenowany na połączeniu 8 publicznych zbiorów danych (łącznie 4480 tożsamości / 67 704 obrazów). Po rygorystycznej weryfikacji statystycznej wyniki są następujące:

● EER = 0,29% (Equal Error Rate)

● Przedział ufności 95%: [0,21%, 0,40%] (200 rund próbkowania bootstrap)

● ROC AUC = 0,9999 (wynik prawie doskonały)

● Średnie podobieństwo par prawdziwych: 0,8742 (wysoka spójność dla tej samej osoby)

● Średnie podobieństwo par fałszywych: 0,0450 (całkowite rozdzielenie cech dla różnych osób)

● Przy FRR=1%, FAR = 0,00% (zero fałszywych rozpoznań przy punktach pracy o wysokim poziomie bezpieczeństwa)

▲ Krzywa ROC (AUC=0,9999) i rozkład wyników prawdziwych/fałszywych — dwa szczyty całkowicie rozdzielone

IV. Dane treningowe: Nie tylko duże, ale i zróżnicowane

W tym badaniu połączono 8 publicznych zbiorów danych, w tym dwa najbardziej wymagające scenariusze w branży:

Dane bliźniąt (CASIA-Iris-Twins)

Dane tęczówki od 200 par bliźniąt — nawet przy prawie identycznych genach, tekstury tęczówki są całkowicie różne. Jest to „ostateczny test” weryfikujący moc dyskryminacyjną algorytmu.

Scenariusze nieograniczone w świetle widzialnym (UBIRIS.v2)

518 tożsamości z ponad 11 000 obrazów, przechwyconych w naturalnym oświetleniu z rozmyciem ruchu, zniekształceniem poza ostrością i zmiennością oświetlenia — jest to zbiór danych najbliższy rzeczywistym scenariuszom wdrożeniowym.

Trening został zakończony na Apple Silicon M2 Ultra (Mac Studio) w około 12,3 godziny (90 epok treningowych), z maksymalnym opóźnieniem wnioskowania wynoszącym zaledwie ~35 ms (w tym przycinanie ROI i ekstrakcja cech).

V. Porównanie poziome z czołowymi pracami branżowymi

Metoda	Rdzeń	Przetwarzanie wstępne	EER
Daugman IrisCode	Gabor	Gumowa płachta	~0,10% (Środowisko kontrolowane)
UniqueNet (2016)	Siamese CNN	Gumowa płachta	0,18%
IrisFormer (2023)	ViT-B/16	Gumowa płachta	0,22%
PolyIRIS (2021)	CNN wieloskalowy	Gumowa płachta	(Pojedynczy zbiór danych)
Homsh ViT+ArcFace (Ta wersja)	ViT-S/16	Przycinanie ROI	0,29% (8 zbiorów danych)

▲ Od 4,65% do 0,29% EER: Ścieżka ewolucji technologicznej czterech rund iteracji

VI. Następne kroki

1. Niezależna ocena między zbiorami danych

Testy ślepe na zbiorze danych IIT Delhi, nieobjętym treningiem, w celu weryfikacji zdolności generalizacji w świecie rzeczywistym.

2. Integracja detekcji żywotności

Połączenie odpowiedzi błyskowej wieloklatkowej lub analizy tekstury w celu obrony przed atakami odtwarzania zdjęć i zbudowania kompletnego systemu zapobiegającego oszustwom.

3. Rozpoznawanie tęczówki na średnie i długie dystanse
Wprowadzenie danych na średnie dystanse (3 m) w celu rozszerzenia na scenariusze z większymi odległościami przechwytywania — następny niebieski ocean dla komercyjnego wdrożenia.

4. Lekkość i wdrożenie po stronie krawędzi
Destylacja modelu ViT-S/16 do <5 mln parametrów w celu dostosowania do urządzeń brzegowych o ograniczonych zasobach (NPU/FPGA).

Wniosek: Trzydziestoletnia konwencja zasługuje na ponowne rozpatrzenie

Gumowa płachta Daugmana była optymalnym rozwiązaniem swojej epoki. Ale esencją technologii jest to: gdy pojawią się lepsze narzędzia, stary paradygmat powinien ustąpić.

Vision Transformer zmienił podstawową logikę rozpoznawania obrazów. Dzięki czterem rundom eksperymentów i czterem miesiącom eksploracji znaleźliśmy właściwy sposób, aby ViT naprawdę uwolnił swój potencjał w rozpoznawaniu tęczówki — nie po to, aby ViT dostosował się do starego przepływu pracy, ale aby zaprojektować nowy paradygmat przetwarzania wstępnego dostosowany do ViT.

EER na poziomie 0,29% to tylko liczba, ale także deklaracja:

Rozpoznawanie tęczówki wkroczyło w erę Transformerów, a Homsh jest na linii startu.

O Homsh

WuHan Homsh Technology Co., Ltd. (HOMSH), założona w 2011 roku, jest jednym z niewielu przedsiębiorstw high-tech na świecie posiadających niezależne prawa własności intelektualnej do kluczowych algorytmów i chipów rozpoznawania tęczówki. Jej kluczowy algorytm Phaselirs™ i inteligentne chipy FPGA/ASIC z serii Qianxin do rozpoznawania tęczówki są szeroko stosowane w finansowaniu, odprawach celnych, wydawaniu dokumentów rządowych, bezpieczeństwie wojskowym i innych dziedzinach.

Aktualności

Sprawy

Przełomowy przełom firmy Homsh: ViT+ArcFace osiąga 0,29% EER w rozpoznawaniu tęczy

I. Tym razem to nie tylko postęp — to zmiana paradygmatu

II. Dlaczego gumowa płachta przestała działać?

III. Kluczowe metryki: EER = 0,29%, ROC AUC = 0,9999

IV. Dane treningowe: Nie tylko duże, ale i zróżnicowane

V. Porównanie poziome z czołowymi pracami branżowymi

VI. Następne kroki

Wniosek: Trzydziestoletnia konwencja zasługuje na ponowne rozpatrzenie

O Homsh

Moduł rozpoznawania tęczówki

Moduł skanera tęczówki

Moduł kamery irysowej

Urządzenie do przechwytywania tęczówki

Kontrola dostępu Iris

Kontrola graniczna

Blokada drzwi skanera tęczówki oka