Понеделник наутро, 7:45, во кола на пат накај работа, се надеваш ќе најдеш паркинг во близина. Гледаш семафор, свети црвено и нормално, инстинктивна човечка реакција е да се сопре возилото.
Едноставно, нели? Не би рекол… всушност, станува збор за еден од најкомплексните феномени што некогаш сме пробале да ги разбереме, а тоа е човечкиот вид. Навидум тривијално – реакција на визуелен стимул е тоа што нè прави луѓе и нема место за прашања. Но тоа не е случај кога во прашање е доведено разбирањето на овој процес. Кога би сакале да ја реплицираме способноста за вид кај човекот, би требало да креираме ретина до која може да допре фокусиран сноп од светлина, потоа да го пратиме сигналот до визуелниот кортекс на мозокот. Таму се врши детална анализа на сигналот, пред да почне размена на сигнали меѓу милиони неврони што класифицираат објекти и димензии, бои и текстури, интензитети и дистанци. Откако ќе се дојде до солидна репрезентацијата на визуелниот стимул низ матрици од електрични сигнали, останува само да се интерпретира. Интерпретацијата подразбира споредба со сите информации од иста природа што постојат во мемориските банки на човечкиот мозок т.е. милиони пресметки. Импресивно совршен тек на настани. Но фасцинантниот дел се состои во фактот дека сето ова се случува во интервал од ~0.25 секунди. Овој пост не е соодветно место за курс по визуелна невроанатомија, но важно е да се нагласи дека голем дел од човечкиот мозок се развил со оваа способност на ум дури до клеточно ниво. Ова е многу грубо објаснување на способноста на луѓето да гледаат и неговата поента е нè воведе во истата парадигма во дигитална форма. Машинска (компјутерска) визија е поле од компјутерските науки, што се занимава со дигиталниот модалитет на видот како способност. Дигиталниот еквивалент на визуелниот стимул во овој случај е дигитална слика што постои на некој хард-диск, ретината кај човекот се заменува со рецептивно поле на некој компјутерски модел, а делот за процесирање на сигналот со некоја невронска мрежа или друг со тип структура способна за интерпретирање дигитални сигнали. Можеби комично, но тие едноставни нешта што ние како луѓе не ги евалуираме ни за момент, во оваа наука се дефинирани како проблеми. Проблем е препознавање едноставни објекти, препознавање бои и контури, проблем е распознавање пишани бројки и букви. Проблем е одлучување на редоследот на објекти во видното поле, што е напред, а што е одзади. Научниците што работат во ова поле се соочуваат со прашања од типот:
Што ги прави кравите – крави?
Што е над, а што под?
Дали ако видиме слон среде Амстердам, ќе сме исто сигурни дека е слон како кога би го виделе во џунгла?
Добрата вест во оваа земја на лажно едноставни проблеми е што клучните прашања се поставени одамна. Некои се делумно одговорени, некои можеби целосно, некои што не можеме да замислиме како би почнале да ги одговараме и некои прашања лебдат во лимбо категорија. Прашањето што го разбуди мојот интерес е токму во таа лимбо категорија, а тоа е: Дали уметноста може да се квантизира и со тоа да се анализира од машина? Клучниот збор во моето прашање е квантизира. Пред да разбудам класично романтични одбранбени ставови дека човечкиот субјективен фактор никогаш нема да биде заменет од машина, сакам да потенцирам дека квантизација и разбирање се различни концепти. Сега со слонот надвор од собава и назад во џунглата каде што припаѓа, може да продолжиме. Каков било проблем од некој домен за да биде моделиран дигитално, потребна е дигитална форма на податоците што го опишуваат. Во мојот случај, за анализа на уметност ми беа потребни фотографски репродукции на уметнички дела ширум светот. Од соработката со „Ријксмузеум“ добив пристап до холандската колекција фотографски репродукции, која содржи грубо 223.567 стандардизирани репродукции. Навидум голем број фотографии, но во ерата на длабоко учење (нешто што ќе го дефинираме во некој нареден текст), за вистинска чисто уметничка квантизација е потребен значително поголем сет од податоци. Накратко, таа реализација дека ова не е доволно, ме доведе до креирање систем за агрегација на уметнички дела за потребите на истражувања во машинска визија и машинско учење што го нареков OmniArt. OmniArt во моментов е најголем plug’n’play податочен сет во уметничкиот домен во светот, со повеќе од 2,5 милиони фотографски репродукции на уметнички дела. Со цел да го промовира истражувањето во овој домен на машинското учење и визија, податочниот сет е отворен за јавна употреба и веќе е предмет на истражување во повеќе универзитетски групи ширум светот. Во структурата на метаподатоци се наоѓаат информации како палета на бои, доминантни пигменти, објекти и нивни локации, уметници, уметнички школи, стилови, жанрови, колекции, региони на внимание, сегментација на ниво на објект и концепт итн. Најстарото уметничко дело што постои во сетот е статуетка од Египет од колекцијата на „The Met“ во Њујорк и се проценува дека е креирано околу 2030 години пр.н.е. (+/- 50 години). Во контраст на статуетката најновото уметничко дело е уметничка слика стара еден месец, т.е. од 7.3.2018.
Во ред, фактот што постои ваква колекција слики на светот е супер, но што значи тоа за нас?
Што ако некаде постои купче слики и некои научници си играат „на буквата, на буквата“ со нив?
Добро прашање! Ваква колекција слики значи дека сега е возможно дигитално да ја моделираме човечката креативност. Да согледаме нешта што не се возможни од топлата човечка перспектива, а се очигледни во ладното објективно око на машината. Луѓето умеат да ценат приказна, умеат да доживеат сентимент и да базираат резонирање врз емоции. Луѓето умеат да искусат и да ценат уметничко дело, да ја доживеат придружната приказна на артистот и да се поврзат со неа. Машините, од друга страна, умеат да го распарчат делото до последниот пигмент и да го извлечат најмалиот квант на информација во секој пиксел од нивното дигитално видно поле. На тој начин во 2017 година откривме грешка во историските податоци за делата на Јан и на Каспар Лајкен (холандски илустратори). Одреден период твореле, како татко и син со делата атрибуирани на таткото и покрај тоа што одредени дела се целосна креација на синот. Суптилната разлика во стилот на илустрација е невидлива за човечкото око. Но во очите на компјутерскиот модел, кој ги знае индивидуалните стилови, се појавува конфизија меѓу делата на таткото и делата на синот во периодот кога твореле заедно. Дела за кои сме сметале дека припаѓаат на таткото, всушност се креација на синот. По детална визуелна инспекција од историчар на уметност специјализиран во таа област, утврдено е дека делата се навистина креација на синот. Пробај да ја најдеш конфузијата во сликата. 🙂
Овој тип ладна перспектива е потребен во области како визуелна уметност, поради апстракцијата на субјективни мотиви во инаку објективна потрага по факти. Кога станува збор за материјална, хемиска, мултиспектрална или каква било квантитативна анализа, нема место за емоции и доживувања. Со тоа би може да заклучиме дека поентата на овој тип истражување не е да се замени човекот и неговиот придонес кон полето. Целта е да се подобри процесот на добивање точни информации и да се намали когнитивниот стрес што произлегува од извршување ваков тип детални анализи.
Ѓорѓи Стрезоски е докторанд на Институтот за информатика при Универзитетот на Амстердам