Фотограф создает цифровую фотографию с помощью камеры и компьютера, а фотография оценивается автором и зрителем с помощью глаз и мозга. Знание деталей каждого из процессов этой цепочки не только интересно, но и полезно. В частности, обрабатывая снимок на компьютере, хочется не только знать, что нужно сделать для улучшения изображения, но и понимать почему.
В этой главе я собрал информацию о том, как человек воспринимает изображение. Точнее, о том, как человек получает и обрабатывает информацию об изображении. Ограничиваясь только сведениями, которые могут быть интересны фотографу. Я не биолог, поэтому почерпнул все эти сведения из литературы, приведенной в конце книжки, и, конечно, из интернета.
Что происходит, когда человек рассматривает реальный 3D-пейзаж? Световые лучи от источников света и отраженный от предметов свет попадают в глаз, преобразуются сетчаткой в нервные импульсы, которые передаются в мозг, обрабатываются там и, наконец, появляется осознание того, что же мы видим в данный момент. Рассмотрим этот процесс подробнее, но только с точки зрения обработки информации, не очень углубляясь в биологические детали.
Поле зрения одного глаза приблизительно характеризуется следующими углами (отсчитываются от оси глаза, когда он смотрит прямо перед собой):
• 90° – по горизонтали, в сторону, противоположную носу;
• 60° – по горизонтали, к носу;
• 60° – вверх;
• 65° – вниз.
Эти углы будут меньше, если учитывать не простую индикацию света, а способность различать трехмерность, или, тем более, цвет. Самое большое поле зрения для синего цвета, а самое маленькое – для зеленого. У некоторых птиц поле зрения по горизонтали достигает почти 360°. Для сравнения: угол поля зрения объектива: 9° и менее – сверхдлиннофокусный, от 40° до 60° – нормальный объектив, более 80° – сверхширокоугольный.
Когда то, что видно в поле зрения одного глаза, проецируется на сетчатку, наиболее резко воспринимается только та часть картинки, которая попадает на центральную ямку сетчатки (фовеа). Менее резко – та часть, которая попадает на желтое пятно (макула), в центре которого находится фовеа. И совсем нерезко и почти бесцветно – остальная часть. Если сравнить размеры перечисленных областей сетчатки (соответственно, 0.4 мм, 5 мм, 22 мм) (или в углах: 1° 40', 18° 20', 135° по горизонтали), то становится понятно, что, несмотря на такое широкое поле зрения, в каждый момент времени каждый глаз резко воспринимает только очень небольшой кусочек всей картинки.
Мы этого обычно не замечаем, потому что глаза сканируют пейзаж скачкообразно, совершая быстрые движения (саккады, от двух до нескольких десятков угловых минут) примерно три-четыре раза в секунду, перемещаясь от одной привлекающей внимание детали к другой. В первую очередь привлекают внимание движущиеся или сильноконтрастные детали, а также участки, которые мозг по какой-то причине считает важными (например, исходя из своего предыдущего опыта). Какие-то другие части пейзажа могут остаться непросканированными. Что именно сканируется и в каком порядке – зависит еще и от целевой установки смотрящего (что ему важно увидеть или не пропустить). Благодаря саккадам самая важная часть изображения рассматривается с большим разрешением с помощью проектирования на фовеа по частям.
В начале рассматривания нового пейзажа саккадические прыжки длинные, а периоды фиксации взгляда – короткие. Затем периоды фиксации удлиняются, а прыжки укорачиваются. С возрастом периоды фиксации укорачиваются, а прыжки удлиняются. Полагают, что это происходит благодаря накопленному опыту наблюдения.
Между саккадами в момент фиксации взора происходит дрейф – медленное и плавное смещение взора (от 3 до 30 угловых минут). Периоды дрейфа прерываются быстрыми движениями небольшой амплитуды (менее 1 ÷ 2 угловых минут) и случайного направления (микросаккады). Микросаккады обычно возникают во время длительной фиксации (несколько секунд). И на все это накладывается еще и тремор – дрожание глаза с амплитудой 20–40 угловых секунд и с частотой 30–250 герц (измерение спектра частот тремора используется в диагностике состояния мозга, в частности, при проведении анестезии).
Роль микросаккад до конца невыяснена, но предполагают, что они нужны для компенсации смещения глаза из-за дрейфа и для поддержания изображения на сетчатке в движении (благодаря микросаккадам нейроны поддерживаются в активном состоянии из-за того, что неподвижные детали картинки перемещаются по их рецептивным полям, подробнее см. в следующем параграфе). Как показали эксперименты, если бы не было мелких движений глаз, мы бы видели только движущиеся предметы (как, например, видят лягушки). В этом случае при просмотре неподвижной сцены после начала каждой фиксации взгляда примерно через несколько секунд изображение бы полностью исчезало, а после перевода взгляда на другую точку новая картинка снова бы появлялась на несколько секунд.
Продолжительность фиксации взгляда примерно равна одной четверти секунды, но может быть разной, в зависимости от того, сколько времени нужно мозгу для завершения анализа соответствующей мгновенной картинки («кадра»). Интересно, что эти времена приблизительно кратны одной четверти секунды. Возможно, четверть секунды – это как раз именно то время, которое необходимо для выполнения алгоритма обработки глазом и мозгом одного «кадра». Поскольку во время выполнения саккадического прыжка информация от рецепторов сетчатки в мозг не передается, то нейроны мозга для обработки предыдущего «кадра» имеют дополнительное время. Еще один источник дополнительного времени – мигание.
Свет, попадающий в глаз, проходит сквозь роговицу и хрусталик. Роговица и хрусталик играют роль двухлинзового объектива, причем линза-хрусталик имеет изменяемую кривизну и неравномерный коэффициент преломления, максимальный в центре и минимальный на периферии. Преломление света в роговице больше, чем в хрусталике, потому что коэффициенты преломления воздуха и роговицы различаются сильнее, чем коэффициенты преломления роговицы и хрусталика.
Изображение, сфокусированное роговицей и хрусталиком, попадает на сетчатку. Сетчатка занимает примерно две трети внутренней поверхности глазного яблока, а ее толщина – около 0.3 мм. Изображение на сетчатке глаза воспринимается рецепторами: палочками и тремя видами колбочек: L-колбочки, M-колбочки, S-колбочки (от Long, Middle, Short wavelength). В сетчатке одного глаза находится до 125 миллионов палочек и до 7 миллионов колбочек (распределение по типам L: M:S – 32:16:1). Размер наружной части рецептора, содержащей светочувствительный пигмент, равен 1 ÷ 2 микрон для палочки или 1 ÷ 5 микрон для колбочки.
Плотность рецепторов в центральной части сетчатки: 60000–150000 на мм2. Чувствительность: 5–14 фотонов для палочки и в 100–1000 раз больше для колбочки.
Максимум спектральной чувствительности палочек – 510 нм. Три вида колбочек имеют максимумы спектральной чувствительности 570 нм. (L), 544 нм. (M) и 443 нм. (S), то есть, приблизительно в области красных, зеленых и синих цветов.
Под слоем рецепторов находится слой клеток, содержащий черный пигмент меланин, поглощающий прошедший сквозь слои сетчатки и уже не нужный свет. Кроме того, эти клетки играют важную роль в процессе восстановления обесцвеченного светочувствительного пигмента палочек и колбочек.
Интересно, что у животных, ведущих ночной образ жизни, этот слой клеток, наоборот, имеет высокий коэффициент отражения, что повышает чувствительность сетчатки к свету (отраженный свет снова проходит через слой рецепторов в обратном направлении), но, разумеется, за счет ухудшения качества изображения. Именно поэтому глаза таких животных светятся в темноте (отраженным светом, конечно).
Под действием света в палочках обесцвечивается пигмент родопсин (зрительный пурпур), а в колбочках – пигмент йодопсин (точнее, хлоролаб, эритролаб, цианолаб в зависимости от вида колбочки). Причем количество прореагировавшего пигмента зависит от яркости приблизительно логарифмически (закон Вебера – Фехнера), или, точнее, как степенная функция (закон Стивенса).
Пигмент находится в элементах рецепторов, называемых дисками для палочек и полудисками для колбочек. В каждом рецепторе таких (полу)дисков около тысячи. Диски и полудиски с обесцветившимся пигментом рассасываются, и в рецепторе возникают новые с восстановленным пигментом. Полная замена дисков и полудисков одного рецептора осуществляется примерно за 10 дней. Интересно, что обновление колбочек происходит после захода солнца, а палочек – на восходе.
Когда рецептор не освещен, он активен и постоянно выделяет нейротрансмиттер глутамат (химическое вещество, в других слоях сетчатки используются и другие нейромедиаторы, например, глицин). А соседний нейрон сетчатки, получающий этот нейротрансмиттер, постоянно выдает импульс за импульсом, которые передаются далее по аксону. После поглощения фотона количество выделяемого вещества уменьшается, то есть, свет фактически выключает рецептор. Плавное изменение освещенности рецептора вызывает постепенное изменение количества выделяемого вещества в рецепторе и, соответственно, частоты импульсов соседнего нейрона.
В отличие от сенсоров цифровых камер свойства разных участков сетчатки неодинаковы. Эта неоднородность заключается в следующем.
Во-первых, рецепторы в сетчатке распределены неравномерно. В центре фовеа палочек нет совсем. По мере удаления от центра фовеа плотность палочек возрастает и достигает максимума (около 150000 на мм2) примерно при угле 25°, а затем снова падает до 40000 на мм2 на периферии. Плотность колбочек максимальна (около 150000 на мм2) в центре фовеа (за исключением S-колбочек, которых тут нет), затем резко падает и при углах, больших 25°, становится меньше 5000 на мм2.
Во-вторых, часть сетчатки, а именно, макула, покрыта желтым фильтром (клетки содержат пигменты лютеин и зеаксантин), что изменяет в этом месте спектральную чувствительность колбочек (фильтр поглощает избыток синего и ультрафиолетового света).
В-третьих, фоторецепторы в центре сетчатки и на ее периферии по-разному соединены с нейронами сетчатки, о чем ниже.
Края сетчатки не дают даже черно-белого зрительного ощущения, а только служат датчиком движения, который вызывает рефлекторный поворот глаз к движущемуся объекту.
Эти факты объясняют, почему при достаточно ярком освещении разрешающая способность глаза максимальна в фовеа и падает по мере приближения к периферии. Если же яркость объекта настолько мала, что чувствительность колбочек оказывается недостаточной и работают только палочки, разрешающая способность, наоборот, минимальна в фовеа и достигает максимума при угле около 25°. При такой низкой яркости цвета уже не различаются. Таким образом, для того чтобы рассмотреть слабый источник света в условиях низкой освещенности, нужно смотреть не прямо на источник, а на 25° в сторону.
Поскольку в центре фовеа S-колбочек почти нет, то синие цвета в этом месте сетчатки определяются плохо. Вдобавок, коротковолновая часть света еще и ослабляется желтым пигментом, присутствующим в клетках макулы. С другой стороны, синяя компонента изображения в центре фовеа обычно и так находится не в фокусе из-за продольных хроматических аберраций. Поэтому потери информации из-за отсутствия центре фовеа S-колбочек немного.
В 1991 году был обнаружен еще один тип фоторецепторов сетчатки глаза: светочувствительные ганглионарные клетки типа ipRGC (intrinsically photosensitive retinal ganglion cells), или mRGC (melanopsin-containing retinal ganglion cells), содержащие светочувствительный пигмент меланопсин. Подробнее об этом – в следующем параграфе.
Интересно, что почти у всех млекопитающих, кроме приматов, типов колбочек только два, а не три. Так что собаки и кошки видят цвета совсем по-другому, чем мы. Еще интереснее, какие цвета видят сумчатые и некоторые птицы, у которых четыре типа колбочек, включая колбочки, реагирующие на ультрафиолет! Даже у некоторых людей, в основном у женщин, редко, но встречается четвертый вид колбочек.
В сетчатке кошек вместо центральной ямки имеется зрительная полоска. А вот у ястреба центральных ямок – две. Я где-то читал, что если добыча, сбитая соколом в воздухе, падает на землю, то он ее не подбирает. Я думал, что он такой гордый или брезгливый. Теперь я думаю, что он ее просто не видит или не воспринимает как съедобное – она неподвижна. Над моим дачным участком часто охотится пустельга. Один раз я, и правда, нашел на земле сбитого им дрозда со сломанной шеей. Но, с другой стороны, сороки воруют блестящие предметы, значит, они их видят.
Сигналы от рецепторов поступают в нейроны, несколько слоев которых располагаются в сетчатке над слоем с рецепторами. То есть, свет, попадающий на рецепторы, сначала проходит сквозь тонкий слой нейронов. Функции этих нейронов и связи между ними очень интересны, но из нескольких десятков типов нейронов сетчатки я упомяну только один, а именно, ганглиозные клетки. Аксоны ганглиозных (или ганглионарных) клеток образуют зрительный нерв и уходят глубоко в мозг (бо́льшая часть – в наружное коленчатое тело (часть таламуса)). По этим аксонам в мозг передается информация о том, что спроецировалось на сетчатку.
В отличие от плавного изменения выходного сигнала рецептора (концентрации нейротрансмиттера), выходной сигнал нейрона представляет собой импульс. Если входной сигнал меньше порогового значения, нейрон молчит. Если входной сигнал превысит порог, нейрон выдает импульс. После импульса нейрон некоторое время не способен генерировать импульсы. Таким образом, аналоговая информация, содержащаяся во входном сигнале нейрона, кодируется в частоту выходных импульсов.
Один рецептор сетчатки через промежуточные нейроны может быть связан с десятками ганглиозных клеток. А каждая ганглиозная клетка получает сигналы только от одной колбочки, если та находится в фовеа, или же от нескольких тысяч рецепторов, находящихся на периферии. Это снова приводит к тому, что в фовеа разрешение выше, чем на периферии, но чувствительность к свету в фовеа меньше.
Информация от приблизительно 130 миллионов фоторецепторов преобразуется в серии нервных импульсов, передающихся в мозг по зрительному нерву, состоящему из примерно 1 миллиона волокон (аксонов ганглиозных клеток сетчатки). То есть, информация, содержащаяся в (амплитудно-модулированной) степени освещенности фоторецепторов, сжимается приблизительно в 130 раз и преобразуется в частотно-модулированный сигнал, поступающий в мозг. Передаваемая информация может заключаться не только в частоте импульсов, но и в величине задержки между появлением стимула и первым импульсом, и в величине фазового сдвига между первым импульсом и фоновыми осцилляциями головного мозга.
Участок сетчатки, с которого ганглиозная клетка сетчатки собирает информацию, называется ее рецептивным полем. Это примерно 1 мм2. Ученые, обнаружившие рецептивные поля, получили Нобелевскую премию по физиологии/медицине в 1981 году (David H. Hubel, Torsten N. Wiesel).
Ганглиозные клетки бывают разных типов. Пространственно оппонентные ганглиозные клетки ведут себя так. Если рецептивное поле равномерно освещено, то такая ганглиозная клетка не возбуждается. А вот если яркость в центре рецептивного поля и на его периферии различается более чем на 2 % (приблизительно), то клетка выдает серию импульсов.
Аналогично, спектрально оппонентная «красно-зеленая» ганглиозная клетка возбуждается только тогда, когда на ее рецептивном поле сигналы от красных в центре и зеленых на периферии колбочек различаются.
Таким образом, в мозг уходит не «попиксельная» информация об изображении на сетчатке, а данные о наличии яркостных и цветовых границ и, возможно, что-то еще.
Нейрон, возбудившийся в результате соответствующего стимула в его рецептивном поле, не только передает сигнал в мозг, но и увеличивает пороги возбуждения соседних нейронов. Это приводит к подчеркиванию границ и усилению контраста (знакомые слова для фотографов!).
В отличие от других нейронов сетчатки, светочувствительные ганглиозные клетки реагируют на свет непосредственно, без помощи палочек и колбочек. И не на границы, а на среднюю освещенность. Полагают, что сигналы от этих клеток используются мозгом для управления сужением зрачка и в качестве сигналов, помогающих понять, день или ночь сейчас.
При рассмотрении природной сцены при каждом саккадическом прыжке может происходить значительное изменение яркости и контраста. Адаптация к яркости осуществляется главным образом в сетчатке. При этом изменения в яркости, происходящие во время перехода от одного участка сцены к другому, эффективно устраняются. Адаптация к контрасту начинается в сетчатке и продолжается в зрительной коре. Чувствительность к контрасту максимальна для низко контрастных областей и минимальна для высоко контрастных.
Преобразованное описанным выше способом изображение поступает в мозг, причем большинство (70 %) волокон зрительного нерва заканчивается в наружном коленчатом теле, которое служит первичным зрительным центром. В каждом полушарии мозга находится свое НКТ (по 1.8 миллионов нейронов). НКТ имеет слоистую структуру, состоящую из 6 слоев. Нервные импульсы от одного глаза поступают в четные слои НКТ, а от другого глаза – в нечетные. При этом проекции одной (любой) точки зрительного поля находятся в слоях НКТ строго одна под другой. А соседние точки зрительного поля проецируются на соседние точки НКТ в каждом слое. Таким образом, изображение на сетчатке проецируется на слои нейронов НКТ. При этом область фовеа занимает непропорционально большую площадь.
В свою очередь, НКТ соединяется с первичной зрительной корой головного мозга нервными волокнами, которые образуют зрительную лучистость.
Раньше считали, что НКТ служит всего лишь передаточным звеном между нейронами сетчатки и зрительной корой. Однако обнаружилось, что НКТ получает информацию не только от сетчатки, но и от слоя VI зрительной коры (25–30 %) и от мозгового ствола (brainstem), который, в частности, управляет вниманием и движением глаз. Особенно интересно наличие обратной связи: результат обработки изображения несколькими слоями зрительной коры снова передается на участок первичной обработки картинки, которым является НКТ (не считая нейронов сетчатки).
Таким образом, функционирование НКТ управляется высшими отделами мозга с помощью нервных волокон, идущих во все слои НКТ из коры головного мозга, что явно было бы не нужно для простой ретрансляции сигнала. И действительно, обнаружилось, что если рецептивные поля нейронов сетчатки постоянны, то рецептивные поля нейронов НКТ изменяются в соответствии с данными, поступающими в НКТ из зрительной коры головного мозга.
Если сравнить нейроны сетчатки и нейроны НКТ, то получим следующее. Сетчатка дает множественные картинки окружающего мира, полученные эффективно и с хорошей чувствительностью. НКТ использует контекст (уже обнаруженные свойства изображения в целом) для повышения информативности данных, передаваемых в зрительную кору. Активность обратной связи возрастает, например, когда текстура изображения вне рецептивного поля отличается от структуры внутри.
Нейроны НКТ значительно различаются между собой по времени задержки реакции на входной сигнал. Гораздо сильнее, чем нейроны сетчатки. Благодаря этому осуществляется обнаружение изменений картинки во времени. Нейрон сетчатки осуществляет выделение пространственных границ в кусочке изображения, попавшего в его рецептивное поле, а нейрон НКТ обнаруживает изменение картинки в своем рецептивном поле, происходящее с течением времени. Таким образом, в зрительную кору поступает информация о пространственно-временной структуре изображения на сетчатке. Это позволяет не передавать в мозг малосущественную часть данных.
Активность нейронов НКТ возрастает с повышением внимания и возбуждением, чего не наблюдается в сетчатке. НКТ помогает зрительной системе направлять внимание на наиболее важный объект (например, по информации от слуховой системы). И наоборот, активность НКТ меняется при переносе внимания от одной части сцены к другой.
Исходя из структуры НКТ, можно предположить, что именно здесь начинают анализироваться различия в изображениях, полученных правым и левым глазами, то есть, связанные с бинокулярностью зрения. Информация об этих различиях используется для следующего:
• управления сведением глаз при рассматривании близко расположенного предмета,
• определения расстояния до предмета,
• управления фокусированием глаз по «вычисленному» расстоянию до предмета,
Функции НКТ, связанные с управлением движением глаз:
• подавление передачи зрительной информации во время саккад,
• различение движения среды от самодвижения,
• переход от системы координат, связанной с сетчаткой, к системе координат, связанной с головой.
Подавление сигнала от сетчатки начинается примерно за 100 мс до начала саккады. То, что подавление начинается до начала саккады, говорит о том, что этим процессом не могут управлять ни сетчатка, ни сигналы от мышц глаза.
Во время микросаккад происходит повышение активности НКТ, что может говорить о том, что в это время осуществляется уточнение и обогащение информации, повышение резкости границ.
Кроме того, полагают, что НКТ осуществляют что-то, похожее на разложение изображения по пространственным частотам. Происходит это с помощью управления размерами рецептивных полей нейронов НКТ. Сразу же после саккадического прыжка НКТ передает в первичную зрительную кору изображение, полученное с помощью больших рецептивных полей (низкие пространственные частоты, грубая картинка). Затем рецептивные поля постепенно уменьшаются и в мозг передаются изображения, состоящие из более высоких пространственных частот (детали). И так до тех пор, пока рецептивные поля не уменьшатся до минимума. После этого передача информации от НКТ в зрительную кору прекращается до следующего саккадического прыжка.
Несмотря на массу данных о строении НКТ на уровне нейронов, остается много непонятного, например, почему объем и структура НКТ мало изменились с течением эволюции, по сравнению со зрительной корой? Почему мало изменились слои нейронов сетчатки – предположить можно. Потому что они находятся перед рецепторами, и если бы их стало больше, зрение ухудшилось бы.
Зрительная кора, занимающая затылочную часть головного мозга, имеет толщину около 2 мм и состоит из 140 миллионов нейронов в каждом полушарии. Зрительная кора разделяется на первичную (V1, стриарную, то есть, полосатую, так как под микроскопом видны полоски, идущие параллельно поверхности) и экстрастриарную зрительную кору. Последняя состоит из более чем 20 зон, обозначаемых V2. V3, V4, V5, IT (inferior temporal cortex), MT (middle-temporal cortex), MST (medial superior temporal cortex), PIT, AIT и других. Первая зона экстрастриарной коры называется вторичной зрительной корой (V2). Общая поверхность первичной коры у человека – 30000 мм2.
Типов нейронов зрительной коры насчитывается несколько сотен. Зоны V1 и V2 содержат около 70 % всех нейронов зрительной коры. Все зрительные зоны, как и другие зоны коры головного мозга в целом, содержат по шесть слоев нейронов, а основной вход в зону происходит в нейроны четвертого слоя.
Количество связей между первичной зрительной корой и последующими слоями в 25 раз больше количества волокон зрительной лучистости. Таким образом, нейроны следующего слоя могут формировать свои рецептивные поля из комбинаций рецептивных полей нейронов предыдущего слоя.
Также как и в НКТ, соседние участки поля зрения «проецируются» на соседние же участки первичной зрительной коры, причем сигналы от небольшого участка поля зрения поступают в небольшой участок зрительной коры. Центральная ямка сетчатки глаза проецируется на пространство коры в сотни раз большее, чем периферия сетчатки. Кроме того, сигналы от соседних участков сетчатки обрабатываются мозгом более или менее независимо (по крайней мере, на начальных стадиях обработки).
Если ганглиозные клетки сетчатки реагировали на наличие границы, то нейроны в слоях зрительной коры реагируют на более сложные виды картинок в своих рецептивных полях. Чем дальше расположен нейрон от сетчатки по пути, по которому идет визуальная информация, тем выше его избирательность. Так в зоне V1 существуют нейроны, реагирующие только на границу, идущую в определенном направлении, и не реагирующие на границы, идущие в других направлениях. То же самое для движения в определенном направлении. Также найдены клетки коры, возбуждающиеся только при поступлении информации о конце границы (линии).
По мере перехода к более глубоким слоям нейронов вид картинок, на которые нейроны реагируют, усложняется, а избирательность увеличивается. Есть нейроны, реагирующие только на определенные пространственные частоты. В более глубоких слоях зрительной коры существуют нейроны, возбуждающиеся только тогда, когда в их рецептивных полях находится изображение лица (может быть даже только определенного лица).
Зрительная кора, как и другие регионы коры головного мозга, состоит из миллионов вертикальных колонок нервных клеток по нескольку сотен нейронов в колонке. Диаметр колонок – 30–50 микрон. Между колонок первичной зрительной коры размещаются шарообразные области диаметром около полмиллиметра (цветовые шарики). Если двигаться параллельно поверхности V1, то будут чередоваться колонки, получающие информацию от левого и от правого глаза. То есть, изображения левого и правого зрительных полей не объединяются, а обрабатываются параллельно. Если двигаться перпендикулярно к поверхности V1, то направление, к которому чувствительны нейроны, будет плавно меняться от горизонтального к вертикальному и обратно.
Первичная зрительная кора служит своеобразной «линзой», с помощью которой остальные зрительные зоны получают визуальную информацию об окружающем мире, и свойства которой (линзы) они могут менять в широких пределах. Если первые зоны зрительной системы человека (НКТ, V1) занимаются выделением локальных деталей изображения, то остальные зоны ответственны за различение форм и узнавание объектов. В зоне V2 анализируются границы и форма поверхностей. В зонах V4 и MT осуществляется анализ признаков глубины и отделение объектов от фона.
Еще раз подчеркну, что деятельность первых зон в значительной степени зависит от результатов обработки картинки высшими зрительными зонами, задачей, которую ставит перед собой человек, и его личным опытом наблюдения подобных изображений.
С другой стороны, благодаря наличию прямых связей первичных зон с высшими (в обход промежуточных зон) информация о локальных деталях может поступать в высшие зоны зрительной коры непосредственно из первых зон.
Рецептивные поля нейронов зон V4 и MT примерно в четыре раза больше рецептивных полей нейронов зоны V1. Рецептивное поле нейрона зоны IT занимает уже бо́льшую часть всего поля зрения.
Обработка изображения происходит параллельно по трем взаимодействующим каналам.
• Первый канал (канал «Что») состоит из нейронов-детекторов деталей изображения. Эти нейроны хорошо различают мелкие детали, но имеют низкую чувствительность к контрасту и к изменениям во времени. По мере перехода от слоя к слою избирательность нейронов увеличивается. Нейроны зоны IT реагируют на очень сложные элементы картинки, например, на изображения лица, независимо от их размера и положения на сетчатке.
• Второй канал (канал «Где») состоит из нейронов-детекторов контраста и движения. Эти нейроны имеют высокую чувствительность к контрасту и к изменениям во времени, но низкое пространственное разрешение. Одни нейроны MST реагируют на небольшие движущиеся объекты, а другие – на движение краев больших объектов. С помощью этого канала быстро обнаруживаются новые или изменившиеся объекты.
• Третий канал состоит из нейронов, имеющих отношение к восприятию цвета.
Интересно, что полученное человеком образование влияет на размеры зон коры головного мозга. Так обнаружено, что у музыкантов, зона, ответственная за чтение партитур, увеличена за счет уменьшения соседних зон.
Каждый нейрон может иметь до 15000 соединений с соседними нейронами. Те соединения, которые оканчиваются на дендритном дереве, возбуждают нейрон, а те, которые соединяются с телом нейрона – тормозят. Каждую секунду нейрон может получать тысячи возбуждающих и тормозящих импульсов от своих соседей. Как это все работает – уму непостижимо!
А как все это выросло из одной клетки! Конечно, в ДНК закодирована не схема соединения нейронов, а правила ее построения. Типа «аксон нейрона ищет ближайший нейрон, использующий такой же нейромедиатор, и соединяется с ним; если не находит, то нейрон этого аксона отмирает».
Когда-нибудь докопаются и до детальных исходных текстов этой программы.
Придумана красивая математическая модель, которая удивительным образом объясняет, для чего могло бы понадобиться создать такую систему рецептивных полей нейронов коры головного мозга и как это могло быть сделано. Идею можно объяснить следующим образом.
Пусть мы имеем много фотоснимков разных пейзажей. Поставим такую задачу: найти такой набор кусочков изображений, из которых можно было бы составить (как пазл) любую из этих фотографий. Пусть таких кусочков будет много, лишь бы каждый снимок состоял из небольшого их числа. Эта задача имеет тривиальное решение: разрезаем каждый снимок на кусочки и все вместе они и дадут искомый набор.
Потребуем теперь, чтобы количество кусочков было гораздо меньше, чем получились в этом наборе. Это можно было бы сделать, например, рассортировав этот набор на группы похожих кусочков, и каждую группу заменить на один «усредненный» кусочек.
Оказывается, что такая задача может быть решена не разрезанием изображений на части и сортировкой кусочков, а математически строго. То есть, для заданного множества изображений можно построить набор наилучших картинок, из которых может быть составлено каждое изображение из этого множества. «Наилучших» в том смысле, что составленное из этих картинок изображение будет отличаться от исходного минимальным образом. И при важном условии, что каждое изображение составляется из небольшого количества картинок.
Основная цель решения этой задачи не в том, чтобы получить составные изображения, близкие к исходным, а в том, чтобы найти элементарные компоненты изображений данного класса, позволяющие экономным образом закодировать их структуру.
Когда такой алгоритм (sparse coding, разреженное кодирование) обработал около полумиллиона кусочков изображений пейзажей и других сцен окружающего нас мира, то полученные элементарные картинки оказались невероятно похожи на картинки, на которые настроены рецептивные поля некоторых из нейронов первичных зрительных зон головного мозга!
Если составление изображений из кусочков сравнить с составлением слов из букв, то получается, что полученный алфавит (набор элементарных картинок) содержит много букв, но каждое изображение представляет собой короткое слово. В этом и состоит «разреженность». Получается что-то вроде китайской азбуки, но вид иероглифов не придуман людьми, а вычислен оптимальным образом для заданного набора понятий, которые должны быть описаны этим языком.
Если это все действительно так, то вырисовывается следующая схема.
1. Каждый «пиксель» изображения на сетчатке представлен в высших разделах зрительной коры головного мозга в виде возбуждения только тех нейронов, для которых картинка в окрестности этого пикселя «совпала» с той, на которую настроены их рецептивные поля. Нейронов, в рецептивных полях которых находится окрестность данного пикселя – много, может быть, сотни тысяч и больше, но для конкретного изображения (одного из тех, которые могут встретиться в природе), всегда сработает только небольшое их количество, возможно, единицы или десятки (в этом и проявляется разреженность!).
2. Картинки в рецептивных полях, на которые реагируют нейроны зрительной коры, формируются в процессе самообучения в раннем возрасте, а может быть, и в течение всей жизни. Когда младенец с удивлением рассматривает яркую игрушку, может быть, в это время это и происходит. Получающиеся картинки различаются рисунком, ориентацией и полосой пространственных частот этого рисунка.
Если верно, что наружное коленчатое тело преобразует изображение на сетчатке в последовательность изображений с разными интервалами пространственных частот, то тем самым дается шанс нейронам, настроенным на разные частоты, «опознать» свой рисунок.
Полагают, что разреженное кодирование является общим принципом кодирования сенсорной информации в нервной системе и используется, в частности, для кодирования природных звуков или запахов.
Благодаря представлению информации, полученной от сенсоров, в виде разреженного кода:
• выявляется структура сложных входных данных, что упрощает их анализ на последующих уровнях;
• повышается емкость ассоциативной памяти, т. к. повышается различимость сходных состояний;
• экономится энергия (а подсчитано, что в коре головного мозга энергии хватает только для одновременной активации не более чем 2 % всех нейронов коры).
По мере перехода к последующим слоям нейронов их рецептивные поля все усложняются и для моделирования их структуры, если такое окажется возможным, уже нужно будет учитывать степень значимости для организма элементарного изображения (какое типичное поведение оно вызывает: опасность это, или добыча, или что-то другое жизненно важное).
На заключительных стадиях обработки зрительной информации, о которых на клеточном уровне мало что известно, осуществляется следующее:
• отсутствующие, например, из-за наличия на сетчатке слепого пятна, части изображения восстанавливаются, видимо, с помощью интерполяции и сведений, хранящихся в памяти;
• информация, которая была отсечена на этапе структуризации изображения, домысливается (если она требуется), снова с помощью интерполяции и памяти;
• мозг «улучшает» поступившую картинку с помощью ранее полученных знаний об изображенных предметах и, в частности, о законах перспективы;
• конечный результат мысленной реконструкции изображения мозгом помещается в долговременную память человека.
Деятельность мозга по улучшению картинки нужно описать подробнее. Еще Декарт заметил, что часто мы визуально воспринимаем вещи правильнее, чем это можно было бы сделать, основываясь только на том, как они видны в реальности. Это явление называется константностью зрительного восприятия.
Существует множество видов константности восприятия: константность восприятия размеров, формы, яркости, цвета и другие.
Так, в изображении на сетчатке размеры предметов подчиняются законам передачи перспективы. Но благодаря механизму константности размеров мы воспринимаем размер очень близких предметов уменьшенным по сравнению с тем размером, который получился на сетчатке. А размер удаленных предметов воспринимается немного увеличенным. То есть, мозг частично исправляет перспективные искажения размеров предметов. Коррекция восприятия осуществляется на основе сведений об условиях просмотра (в том числе, с учетом признаков глубины) и хранящихся в памяти знаний о свойствах предметов, которые мы видим.
Включив лампу накаливания, мы обнаруживаем, что белая бумага стала восприниматься немного желтоватой. Однако через небольшой промежуток времени бумага снова станет восприниматься белой. Произошла адаптация к цвету источника освещения. Влияние цвета источника освещения на воспринимаемый цвет ослабляется свойством зрительной системы человека, которое называется хроматическая адаптация.
Видя нарисованный на картинке эллипс, мы часто можем легко определить по остальным деталям картинки, что на самом деле это – круг, видимый сбоку. Сработала константность формы.
Наличие механизмов константности зрительного восприятия объясняется тем, что человеку важнее выделить в изображении реальные знакомые объекты, чем определить фотометрический уровень освещенности или, к примеру, цвет источника освещения.
Разумеется, мозг корректирует (с помощью накопленных знаний) информацию, получаемую не только от органов зрения, но и от других органов чувств.
Обнаружено, что степень такой коррекции (коэффициент константности), обычно составляет 10–70 %. Константность восприятия наблюдается уже у трехлетних детей, и ее развитие продолжается до 10–12 лет.
Мы можем не только видеть предметы или пейзажи, но и вспоминать их и даже мысленно конструировать их. Различают следующие основные виды визуальной памяти.
• Сенсорная (иконическая) память – это, например, изображение, остающееся в памяти после срабатывании вспышки в темной комнате. Длится около полусекунды, но содержит многие детали. Объясняется продолжающейся активностью фоторецепторов и тех нейронов, которые находятся в сетчатке и, возможно, в первичной зрительной коре.
• Кратковременная память хранит последовательные менее детальные визуальные образы и в более структурированном виде, но не более 30 секунд. Также объясняется продолжающейся деятельностью нейронов, но уже, возможно, той, которая обеспечивается обратными связями между ними.
• Долговременная память может хранить картинки (фрагменты картинок) годами и даже всю жизнь. Объясняется возникшими при запоминании изменениями в структуре связей между нейронами и в свойствах синаптических переходов. Долговременная память ассоциативна. Чтобы вспомнить какой-либо пейзаж, часто бывает нужно сначала вспомнить ту поездку, во время которой он был увиден, или какие-то обстоятельства, с ним связанные. Картинки, хранящиеся в такой памяти, сильно перемешиваются с воспоминаниями других типов (звуки, запахи, эмоции и другие). Запомненные картинки, похоже, с течением времени постепенно деградируют.
Процесс восприятия изображения сложным образом переплетен с деятельностью визуальной памяти:
• восприятие картинки непрерывно корректируется с помощью информации, хранящейся в визуальной памяти;
• воспринимаемые картинки непрерывно поступают в память;
• видимая картинка содержит больше деталей, чем находится в памяти.
Говорят, что встречается фотографическая память (эйдетическая). Это когда человек может взглянуть на лист бумаги с каким-то незнакомым ему текстом, закрыть глаза и по памяти зачитывать этот текст хоть слева направо, хоть наоборот, а хоть и снизу вверх. И даже правильно отвечать на неожиданные вопросы, например, если соединить заданные три слова линиями, то получится острый угол или тупой. Вместо текста может быть взята картинка. Однако, похоже, научным образом этот феномен никогда не исследовался, и существует ли он на самом деле, неизвестно.
Попробуем сравнить процессы обработки изображения (в нашем случае пейзажа) фотокамерой и зрительной системой человека.
Сначала сравним «угол зрения» объектива с углом зрения глаза.
Нормальная острота зрения у человека – это когда не сливаются в одну точку две точки, разделенные углом в 1 дуговую минуту, что соответствует 60 пикселям на градус (пнг). Средняя острота зрения примерно равна 85 пнг, а для пилотов морской авиации США – 150 пнг.
Для человека с остротой зрения 85 пнг и полем зрения 180° × 125° получаем, что полное изображение состоит из 15300 × 10625 пикселей, то есть, около 163 мегапикселей.
Для одного «кадра» поле зрения приблизительно равно 1° 40' × 1° 40', и часть изображения, спроецированного на фовеа, состоит из 142 × 142 пикселей, то есть, около 0.02 мегапикселей.
Для 100-миллиметрового объектива (углы зрения по горизонтали 20° и по вертикали 14°) и камеры с сенсором 5472 × 3648 пикселей получаем «остроту зрения» этой пары в 273 пнг по горизонтали и 243 пнг по вертикали.
Теперь сравним рецепторы сетчатки с пикселями сенсора камеры.
Размер наружной части рецептора, содержащей светочувствительный пигмент, равен 1 ÷ 2 микрон для палочки или 1 ÷ 5 микрон для колбочки. Размер пикселя сенсора равен 2.5 ÷ 8 микрон, размер зерна фотопленки: 0.05 ÷ 3 микрон.
Плотность палочек: 40–150 тысяч на мм2, колбочек: 5–150 тысяч на мм2. Плотность фоторецепторов сенсора – до 40 тысяч на мм2. На цветной фотографии: около 30 тысяч точек на мм2.
Чувствительность: 5–14 фотонов для палочки и в 100–1000 раз больше для колбочки. Для сенсора – несколько фотонов (сенсор ICCD, intensified CCD, усиленный ПЗС-сенсор), для зерна высокочувствительной фотопленки – 4 фотона.
Разрешающая способность: Количество рецепторов сетчатки одного глаза – 130 миллионов. Количество пикселей сенсора обычного фотоаппарата – до 30 миллионов. Максимальный размер кадра на сегодняшний день имеют 80-мегапиксельные матрицы в цифровых задниках Phase One iq280: 53,7×40,4 мм. Разрешающая способность сенсора: от 200 линий на миллиметр (у крупноформатных цифровых фотокамер) до 70 линий на миллиметр (у web-камер и мобильных телефонов).
Получается, что по количеству пикселей и их средней плотности фотоаппараты догоняют глаз. Но вот разрешающая способность сетчатки в центре фовеа пока что в 2–8 раз выше, чем у сенсоров современных камер (если сравнивать только плотности рецепторов и пикселей, без учета «оптики»).
Как воспринимается яркость сцены фотоаппаратом и зрительной системой человека?
Зависимость воспринимаемой глазами яркости от фактической яркости предмета нелинейна. Для того чтобы почувствовать изменение яркости в темных тонах, достаточно очень небольшого изменения фактической яркости. Тогда как для того, чтобы почувствовать изменение яркости в светлых тонах, потребуется более сильное изменение фактической яркости. В такую нелинейность вносят свой вклад следующие факторы:
• переключение рецепторов: при низких яркостях работают палочки, а при более высоких яркостях палочки полностью насыщаются и работают только колбочки; на промежуточных уровнях яркости функционируют и те и другие;
• истощение пигмента рецепторов на высоких уровнях яркости;
• изменение чувствительности сетчатки к свету, осуществляемое на уровне нейронов сетчатки;
• когнитивные механизмы – регулирующие восприятие яркости на основании знания наблюдателем содержимого сцены. Например, мы избегаем смотреть на солнце или на огонь электросварки незащищенными глазами.
Благодаря всему этому наши глаза могут видеть в диапазоне яркостей, границы которого различаются в 224 раз, то есть более чем в 16 миллионов раз! При этом роль сужения зрачка относительно невелика. Максимальные изменения зрачка для здорового человека – от 1,8 мм до 7,5 мм, что соответствует изменению площади зрачка всего в 24 раз.
Теперь о яркости в числах.
Динамический диапазон (диапазон яркостей), воспринимаемый человеком: дневное зрение – 15 000: 1 (13 EV, exposure value), ночное зрение – 10 000 000: 1 (27 EV). Для сравнения, темная ночь: -6 EV, яркий солнечный свет: +22 EV. Контраст, воспроизводимый на бумаге: 8 EV, на пленке: 8–14 EV, воспринимаемый сенсорами цифровых камер: 8–14 EV, на экране монитора: 10 EV.
Снова сравним с фотоаппаратом. Для сенсора камеры зависимость воспринимаемой яркости от фактической яркости предмета линейна, за исключением краев воспринимаемого диапазона. Поэтому диапазон яркостей камеры с 14-битной разрядностью всего лишь 214, что менее 17 тысяч. Но и это только теоретически. На практике из-за наличия шума этот диапазон снижается до 29, что равно 512.
Следовательно, наши глаза лучше приспособлены для среды с широким диапазоном яркостей, чем наши фотоаппараты. Правда, нужно уточнить, что перепад яркостей, для которого темновая адаптация не превышает десятых долей секунды, составляет только 10–13 EV. Чтобы получить значение 27 EV для ночного зрения, приведенное выше, необходимо адаптироваться в течение получаса и более.
Фотоаппарат строит попиксельное отображение 3-мерного пейзажа на плоскость кадра по законам прямой линейной перспективы, которое затем обрабатывается программным обеспечением камеры и, возможно, пользователем с помощью компьютера, и воспроизводится на экране монитора или на каком-нибудь носителе (бумаге, пленке, ткани).
Система «глаз-мозг» превращает 3-мерный пейзаж в серию «кадров», каждый из которых содержит резкое отображение на плоскость (точнее, на внутреннюю поверхность сферы) только небольшого кусочка рассматриваемого пейзажа. Далее, структура границ яркостей и границ цвета каждого кадра превращается в частотно модулированный сигнал и подвергается Фурье-анализу с целью обнаружения только самых важных для мозга деталей. Вся остальная информация об изображении, вероятно, пропадает (не запоминается), а в случае появления необходимости – домысливается мозгом с помощью предыдущих знаний, а также интерполяции поступивших данных об изображении.
Обработанное таким образом изображение пейзажа помещается в память. Увиденная картинка не отображается в голове целиком, а составляется из набора только тех объектов или свойств, которые были важны в момент просмотра. В этот набор входят: суть сцены (общее описание), размещение объектов (или пятен) по сцене и некоторые важные детали опознанных объектов.
Наибольшая разница между двумя этими системами обработки изображений состоит в цели обработки. Зрительная система человека не предназначена для любования пейзажем. Для нее нужно рассортировать элементы пейзажа на важные и неважные и обработать только важные. Таким образом, на выходе фотоаппарата мы имеем попиксельное изображение (фотографию), удобное для просмотра человеком. А «на выходе» зрительной системы человека, то есть в его зрительной памяти, – «разобранное на части» изображение, удобное для анализа структуры картинки и содержащее минимум малосущественных деталей.
Полученная с помощью камеры и распечатанная фотография сделана опять же для человека, который рассматривает ее и снова превращает в разобранную на части картинку, но уже другим образом, с учетом того, что это все-таки не реальный пейзаж, а всего лишь картинка. И, может быть, с учетом того, как понял зритель замысел фотографа.
Поскольку принципы работы сравниваемых систем различны, то приведенные выше цифры трудно сопоставить. Чему ближе соответствует количество пикселей сенсора? Количеству рецепторов сетчатки? Но сигналы от рецепторов не используются напрямую для построения изображения. Они подвергаются структурному анализу и малосущественная часть информации, полученная от сетчатки, пропадает.
Может быть, количеству волокон зрительного нерва (1–1.5 миллиона), по которым визуальная информация передается в мозг? Тоже соответствия нет, потому что по этим волокнам изображение передается в виде серии «частичных» картинок, соответствующих разным положениям проекции на сетчатку относительно фовеа. Да еще и преобразованное в серии нервных импульсов.
Зрительная система человека умеет адаптироваться к условиям наблюдения (яркости, цвету освещения). Цифровые камеры тоже пытаются осуществить баланс белого с помощью разных алгоритмов (рассмотрим в другой главе ниже).
В отличие от фотоаппарата, наблюдаемое изображение в голове находится в виде разных срезов, начиная от выделенных границ и карты движущихся элементов, до распознанных объектов и их значения для наблюдателя. Благодаря наличию прямых и обратных нейронных связей между этими срезами, картинки постоянно уточняются и информация об изображении непрерывно обогащается. Интерпретация картинки высшими слоями зрительной коры сравнивается с картинкой, полученной сетчаткой. И становится ясно, куда надо посмотреть еще и что уточнить. Отсюда – тот большой объем информации, которую можно получить с помощью зрительной системы.
В конце главы сделаем небольшое лирическое отступление. А все-таки, какой крутой «гаджет» дан каждому из нас! Я имею в виду наши головы. Мы пользуемся ими всю жизнь, днем и ночью. В начале жизни эти «гаджеты» имеют только какие-то базовые прошивку и чипы. Но с течением времени прошивка непрерывно обновляется, скачиваются все новые и новые приложения, новые микросхемы появляются, а старые перекоммутируются.
Этот процесс происходит частично автоматически, по мере появления изменений в окружающей нас среде, которые мы замечаем и обдумываем, а частично управляется нашими желаниями, когда нам хочется узнать что-то конкретное или научиться делать что-то нужное, и мы добиваемся этого. Чем больше наполняется начинка нашего гаджета, тем более тонкие детали окружающей среды начинают привлекать наше внимание, хочется их понять и когда это удается, функционал гаджета снова обогащается.
Когда моя дочь училась в пятом классе, она меня спрашивала: «Зачем мне, будущему гуманитарию, учить математику?». Я отвечал, что когда решаешь задачку, мысли в голове протаптывают тропинку, ручейки мыслей пробивают русла. И когда формулы и математические определения забудутся, эти тропинки и русла останутся и будут помогать правильно думать.
Сейчас я бы добавил, что сформированные в процессе изучения школьной математики структуры мозга позволят увидеть будущие, возможно совсем не математические, обстоятельства под новым углом, дадут еще один срез конкретной жизненной ситуации.