logo
Wyślij wiadomość
Wuhan Homsh Technology Co.,Ltd.
produkty
Aktualności
Do domu > Aktualności >
Wiadomości firmowe nt Przełomowy przełom firmy Homsh: ViT+ArcFace osiąga 0,29% EER w rozpoznawaniu tęczy
Wydarzenia
Kontakty
Kontakty: Mr. Kelvin Yi
Skontaktuj się teraz
Wyślij nam wiadomość.

Przełomowy przełom firmy Homsh: ViT+ArcFace osiąga 0,29% EER w rozpoznawaniu tęczy

2026-04-01
Latest company news about Przełomowy przełom firmy Homsh: ViT+ArcFace osiąga 0,29% EER w rozpoznawaniu tęczy

      Przełom Homsh: ViT+ArcFace

      Dokładność rozpoznawania tęczówki osiąga światowy poziom
      Ze współczynnikiem błędów równych (EER) wynoszącym zaledwie 0,29% i wartością ROC AUC zbliżoną do teoretycznej granicy —
      Zmieniliśmy granice rozpoznawania tęczówki dzięki Vision Transformer
najnowsze wiadomości o firmie Przełomowy przełom firmy Homsh: ViT+ArcFace osiąga 0,29% EER w rozpoznawaniu tęczy  0
▲ Vision Transformer redefiniuje podstawowy paradygmat ekstrakcji cech tęczówki

I. Tym razem to nie tylko postęp — to zmiana paradygmatu

      Gdybyś zapytał inżyniera, który od dwóch dekad pracuje w dziedzinie rozpoznawania tęczówki: „Jaki jest najtrudniejszy problem, z jakim kiedykolwiek się zmierzyłeś?”
      Prawdopodobnie zawahałby się przez chwilę, a potem powiedziałby: „Rozwijanie gumowej płachty”.
      Od czasu, gdy John Daugman zaproponował algorytm IrisCode w 1993 roku, proces „rozwijania gumowej płachty” był jak zaklęcie wpisane w DNA systemów rozpoznawania tęczówki na całym świecie. Rozwijanie okrągłej tęczówki w prostokątny obraz, a następnie ekstrakcja tekstur za pomocą filtrów Gabora... ten przepływ pracy jest stosowany od trzech dekad i nikt go nie kwestionował.
      Aż do momentu, gdy postanowiliśmy go odrzucić.

II. Dlaczego gumowa płachta przestała działać?

      Vision Transformer (w skrócie ViT) jest jednym z najbardziej olśniewających przełomów technologicznych w dziedzinie głębokiego uczenia się w ciągu ostatnich trzech lat. Dzieli obraz na szereg „łatek” o rozmiarze 16x16, wykorzystuje mechanizm samo-uwagi modeli językowych do zrozumienia globalnej struktury obrazu i przewyższa sieci neuronowe konwolucyjne (CNN), które dominowały przez lata w wielu czołowych zadaniach wizualnych.
      Kiedy po raz pierwszy spróbowaliśmy zastosować ViT do rozpoznawania tęczówki, początkowe wyniki były rozczarowujące: współczynnik błędów równych (EER) wynosił aż 4,65%, znacznie poniżej oczekiwań.
      Zespół szybko zidentyfikował przyczynę: „gumowa płachta” „spłaszcza” pierścieniową tęczówkę o wymiarach 64x512 pikseli do prostokąta, który następnie jest skalowany do wejścia 224x224 wymaganego przez ViT — 3,5-krotne rozciągnięcie w pionie i 2,3-krotne ściśnięcie w poziomie. Naturalna radialna/obwodowa struktura tekstury tęczówki została poważnie zniekształcona, co uniemożliwiło mechanizmowi uwagi łatek ViT percepcję semantyki wewnątrz.
      Innymi słowy: podawaliśmy najmądrzejszemu modelowi dane w niewłaściwy sposób.
      Rozwiązanie brzmi prosto, a jednak wymagało odwagi do przełamania konwencji — porzucenia „gumowej płachty” i przejścia na przycinanie okrągłego ROI (Region of Interest): z centrum tęczówki jako punktu początkowego, przycinamy kwadratowy obszar (2,5-krotność promienia), aby zachować naturalną symetrię przestrzenną tęczówki, a następnie bezpośrednio skalujemy go do 224x224 i podajemy do ViT. W ten sposób każda łatka 16x16 może postrzegać autentyczną, nie zniekształconą teksturę tęczówki.

III. Kluczowe metryki: EER = 0,29%, ROC AUC = 0,9999

Zmiana tego pojedynczego kroku wstępnego przetwarzania przyniosła ogromną różnicę:
Rozwiązanie EER Uwagi
Runda 1: ViT + gumowa płachta 4,65% Tradycyjny przepływ pracy
Runda 2: CNN + gumowa płachta 2,80% Wymiana rdzenia z ograniczoną poprawą
Runda 3: ViT + przycinanie ROI ~0,12%* Krytyczny przełom
Wersja końcowa: ViT-S/16 + ROI + regularyzacja 0,29% Rozwiązanie klasy produkcyjnej

*Wyniki rundy 3 nie podlegają rygorystycznemu weryfikacji statystycznej i zawierają optymistyczne obciążenie.

      Ostatecznie wdrożony system wykorzystuje ViT-S/16 (22,1 mln parametrów) + stratę kątową ArcFace, wytrenowany na połączeniu 8 publicznych zbiorów danych (łącznie 4480 tożsamości / 67 704 obrazów). Po rygorystycznej weryfikacji statystycznej wyniki są następujące:

      EER = 0,29% (Equal Error Rate)

      ● Przedział ufności 95%: [0,21%, 0,40%] (200 rund próbkowania bootstrap)

      ● ROC AUC = 0,9999 (wynik prawie doskonały)

      ● Średnie podobieństwo par prawdziwych: 0,8742 (wysoka spójność dla tej samej osoby)

      ● Średnie podobieństwo par fałszywych: 0,0450 (całkowite rozdzielenie cech dla różnych osób)

      ● Przy FRR=1%, FAR = 0,00% (zero fałszywych rozpoznań przy punktach pracy o wysokim poziomie bezpieczeństwa)

najnowsze wiadomości o firmie Przełomowy przełom firmy Homsh: ViT+ArcFace osiąga 0,29% EER w rozpoznawaniu tęczy  1
▲ Krzywa ROC (AUC=0,9999) i rozkład wyników prawdziwych/fałszywych — dwa szczyty całkowicie rozdzielone

IV. Dane treningowe: Nie tylko duże, ale i zróżnicowane

W tym badaniu połączono 8 publicznych zbiorów danych, w tym dwa najbardziej wymagające scenariusze w branży:

Dane bliźniąt (CASIA-Iris-Twins)

      Dane tęczówki od 200 par bliźniąt — nawet przy prawie identycznych genach, tekstury tęczówki są całkowicie różne. Jest to „ostateczny test” weryfikujący moc dyskryminacyjną algorytmu.

Scenariusze nieograniczone w świetle widzialnym (UBIRIS.v2)

      518 tożsamości z ponad 11 000 obrazów, przechwyconych w naturalnym oświetleniu z rozmyciem ruchu, zniekształceniem poza ostrością i zmiennością oświetlenia — jest to zbiór danych najbliższy rzeczywistym scenariuszom wdrożeniowym.
      Trening został zakończony na Apple Silicon M2 Ultra (Mac Studio) w około 12,3 godziny (90 epok treningowych), z maksymalnym opóźnieniem wnioskowania wynoszącym zaledwie ~35 ms (w tym przycinanie ROI i ekstrakcja cech).

V. Porównanie poziome z czołowymi pracami branżowymi

Metoda Rdzeń Przetwarzanie wstępne EER
Daugman IrisCode Gabor Gumowa płachta ~0,10% (Środowisko kontrolowane)
UniqueNet (2016) Siamese CNN Gumowa płachta 0,18%
IrisFormer (2023) ViT-B/16 Gumowa płachta 0,22%
PolyIRIS (2021) CNN wieloskalowy Gumowa płachta (Pojedynczy zbiór danych)
Homsh ViT+ArcFace (Ta wersja) ViT-S/16 Przycinanie ROI 0,29% (8 zbiorów danych)

najnowsze wiadomości o firmie Przełomowy przełom firmy Homsh: ViT+ArcFace osiąga 0,29% EER w rozpoznawaniu tęczy  2
▲ Od 4,65% do 0,29% EER: Ścieżka ewolucji technologicznej czterech rund iteracji

VI. Następne kroki

1. Niezależna ocena między zbiorami danych
      Testy ślepe na zbiorze danych IIT Delhi, nieobjętym treningiem, w celu weryfikacji zdolności generalizacji w świecie rzeczywistym.
2. Integracja detekcji żywotności
      Połączenie odpowiedzi błyskowej wieloklatkowej lub analizy tekstury w celu obrony przed atakami odtwarzania zdjęć i zbudowania kompletnego systemu zapobiegającego oszustwom.
3. Rozpoznawanie tęczówki na średnie i długie dystanse
      Wprowadzenie danych na średnie dystanse (3 m) w celu rozszerzenia na scenariusze z większymi odległościami przechwytywania — następny niebieski ocean dla komercyjnego wdrożenia.
4. Lekkość i wdrożenie po stronie krawędzi
      Destylacja modelu ViT-S/16 do <5 mln parametrów w celu dostosowania do urządzeń brzegowych o ograniczonych zasobach (NPU/FPGA).

Wniosek: Trzydziestoletnia konwencja zasługuje na ponowne rozpatrzenie

      Gumowa płachta Daugmana była optymalnym rozwiązaniem swojej epoki. Ale esencją technologii jest to: gdy pojawią się lepsze narzędzia, stary paradygmat powinien ustąpić.
      Vision Transformer zmienił podstawową logikę rozpoznawania obrazów. Dzięki czterem rundom eksperymentów i czterem miesiącom eksploracji znaleźliśmy właściwy sposób, aby ViT naprawdę uwolnił swój potencjał w rozpoznawaniu tęczówki — nie po to, aby ViT dostosował się do starego przepływu pracy, ale aby zaprojektować nowy paradygmat przetwarzania wstępnego dostosowany do ViT.
      EER na poziomie 0,29% to tylko liczba, ale także deklaracja:
      Rozpoznawanie tęczówki wkroczyło w erę Transformerów, a Homsh jest na linii startu.

O Homsh

      WuHan Homsh Technology Co., Ltd. (HOMSH), założona w 2011 roku, jest jednym z niewielu przedsiębiorstw high-tech na świecie posiadających niezależne prawa własności intelektualnej do kluczowych algorytmów i chipów rozpoznawania tęczówki. Jej kluczowy algorytm Phaselirs™ i inteligentne chipy FPGA/ASIC z serii Qianxin do rozpoznawania tęczówki są szeroko stosowane w finansowaniu, odprawach celnych, wydawaniu dokumentów rządowych, bezpieczeństwie wojskowym i innych dziedzinach.