Wstęp

Metody analizy obrazów i dźwięków oparte są na zrozumieniu jak działają ludzkie zmysły. Ponieważ mózg człowieka dobrze radzi sobie z rozpoznawaniem obiektów, które widzimy i słyszymy głównym celem badań w tej dziedzinie jest odtworzenie mechanizmów zachodzących w ludzkim układzie nerwowym. Dzięki temu większość metod jest bardzo intuicyjna i można łatwo zrozumieć mechanizmy stojące za różnymi metodami analizy obrazu i dźwięku.

Czy analiza obrazów jest naprawdę taka prosta?

Chociaż wydaje się, że odszukiwanie elementów na obrazie (co codziennie robimy) jest proste dla nas (naszego mózgu), w rzeczywistości może być skomplikowane. Dla przykładu przyjrzyjmy się poniższej ilustracji:

Dla komputera obraz jest macierzą (tablicą) liczb. Ludzki system widzenia jest wstanie odczytać (zinterpretować) tą macierz, ale wtedy wyglądałaby ona jak zestaw kwadratów jednobarwnych (patrz obraz w odcieniach szarości, prawy górny róg), a nie obraz, do którego jesteśmy przyzwyczajeni (obraz dolny prawy róg). W przyszłości pokażemy jak powstaje obraz cyfrowy na podstawie obrazu analogowego.

Dodatkową komplikacją jest wielkość obrazów (aby być w stanie dostać zbliżoną rozdzielczość dla ludzkiego oka, kamera musiałaby mieć około 127 milionów elementów/pikseli). Ponadto każda z wartości jest reprezentowana przez trzy wartości w formacie RGB (widzenie obrazów kolorowych). Należy też wspomnieć, że docelowo chcielibyśmy analizować filmy, które składają się z ogromnej ilości zdjęć.

Ludzkie zmysły

Gdybyśmy mogli skopiować (zbudować/zaprogramować) system zbliżony do ludzkiego oka, problem analizy obrazów by zniknął. Więc dlaczego nie możemy? Odpowiedź jest prosta. Nadal nie wiemy, co ludzki mózg i inne organy, jak oko czy ucho robią przez większość czasu. Ciągle rozwijają się badania nad poznaniem mechanizmów rządzących ludzkimi zmysłami. Podstawowe informacje na ten temat umieszczone są w dwóch następnych podrozdziałach Jak słyszy człowiekJak widzi człowiek.

Praktyczne problemy związane z analizą obrazu

Analiza obrazu ma wiele zastosowań w przemyśle, gdzie używana jest do automatycznego sprawdzania jakości produktów czy wyodrębniania uszkodzonych. Techniki te używane są na przykład:

  • przy produkcji obwodów (płyt drukowanych), aby sprawdzać poprawność ułożenia elementów,
  • sprawdzania jakości nadrukowywanych elementów (np dat),
  • sprawdzania butelek pod kątem tego czy są napełnione.

W fabrykach, gdzie produkty poruszają się po taśmie, a warunki są dokładnie takie same podczas każdego eksperymentu, proces jest ułatwiony. 

Algorytmy rozpoznawania obiektów można spotkać również po za fabrykami, na przykład:

  • automatyczne rozpoznawanie tablic rejestracyjnych, np przy przejeżdżaniu przez bramki,
  • podczas wydarzeń sportowych można liczyć statystyki poszczególnych graczy,
  • rozpoznawanie człowieka po oczach, liniach papilarnych itd.,
  • wspomaganie kierowców przez ich ostrzeżenie, gdy zjeżdżają z pasa,
  • tworzenie modeli zniszczonych budynków ze starych zdjęć.

 

'