Изложенные результаты расширяют общепсихологические представления о механизмах восприятия человека человеком, условиях его адекватности и динамики в микроинтервалах времени. Вместе с тем они поднимают ряд новых тем, разработка которых требует специальных исследований. Это проблемы содержания и организации экзонов, способов их данности субъекту, предикторов проницательности и стилей межличностного восприятия, природы экспрессивного потенциала и экспрессивной организации лица, типов и стратегий межличностного восприятия, форм перцептогенеза лица и их использования в реальном поведении, системной детерминации восприятия выражений лица, адекватности методов исследования межличностного восприятия, экологической и социальной валидности полученных данных и многие другие. Их совокупность образует перспективу развития новой области психологического знания и практики – фациопсихологии.
В данной главе мы коснулись лишь нескольких направлений исследования восприятия, заложенных в коммуникативном подходе. Не менее важными представляются исследования воспринимаемого качества предметов и событий, выполненные В. Н. Носуленко и Е. С. Самойленко. Ценными в плане понимания коммуникативной природы восприятия являются исследования психологических аспектов дискурса (Н. Д. Павлова), социального интеллекта (Д. В. Ушаков), эмоционального слуха (В. П. Морозов) и другие. Идеи, теоретические посылы и экспериментальные схемы коммуникативного подхода к познавательным процессам, заложенные в отечественной науке более 40 лет назад, на новом витке развития знания наполняются все более глубоким конкретным содержанием. Проблема единства познания и общения, поставленная Борисом Фёдоровичем Ломовым, выступает сегодня как одна из активных точек роста российской психологической науки.
Хотя эмоции человека всегда развернуты во времени, т. е. имеют начало, кульминацию и конец, их восприятие сторонним наблюдателем традиционно изучается на материале дискретных экспозиций, фиксирующих состояния людей в определенный момент времени (фотографий, портретов, рисунков). Изображенные позы, жесты, выражения лица действительно характеризуют модальность и интенсивность переживаний личности, но вне динамики являются скорее символами соответствующих эмоций. Подобный подход оправдывается скоротечностью экспрессий и категориальностью самого восприятия (Ананьева, Барабанщиков, Демидов, 2015; Барабанщиков, Демидов, Дивеев, 2012; Барабанщиков, Жегалло, Королькова, 2016; Calder, Rhodes, Johnson, Haxby, 2011; Ekman, Rosenberg, 2005).
Немногочисленные работы по восприятию динамики выражений лица опираются на идеи экологической оптики (Gibson, 1966; McArthur, Baron, 1983) и вытекающие из них исследования восприятия биологического движения (Johansson, 1973). Ключевой факт состоит в том, что в отсутствие структурированных поверхностей кинематические паттерны, сопровождающие любое естественное поведение, способны нести уникальную информацию о содержании (но прежде всего о форме) воспринимаемого объекта. В частности, в темноте движение 10–12 светящихся точек, установленных на основных сочленениях тела натурщика, вызывает впечатление локомоций определенного человека, позволяет определить их тип (прогулка, бег, прыжки) и гендерную стилистику. При остановке движения перцептивный эффект исчезает, а с началом движения – проявляется через 100 мс (Cutting, Kozlowski, 1977; Runeson, Frykholm, 1983). Использование метода световых точек при изучении восприятия выражений лица показало, что во время их движения наблюдатели точно оценивают модальность экспрессии невидимого натурщика, но идентифицировать статичный набор точек в качестве лица человека и/или его эмоции не в состоянии (Bassili, 1978). При перемещении световых точек существует высокая вероятность опознавания лиц известных наблюдателю людей и определения их пола (Bruce, Valentine, 1988). Важность информации о динамике лица была продемонстрирована в экспериментах другого типа. Например, Б. Найт и Х. Джонстон нашли, что известные лица лучше идентифицируются на фотонегативах, если последние экспонируются не статично, а в движении (Knight, Johnston, 1997).
Использование методов компьютерной анимации, получивших распространение в последние годы, подтвердило влияние динамики лица на точность распознавания эмоциональных экспрессий (Wallraven, Breidt, Cunningham, Bülthoff, 2008; Wehrle, Kaiser, Schmidt, Scherer, 2000), особенно в условиях ограничения статичной информации – при исключении из экспозиции текстуры и контура лица, его схематизации и т. п. Так, при постепенном уменьшении информации о текстуре или строении лица точность оценок статических экспрессий резко снижается, тогда как при значительной потере информации и «смазывании» изображений лица динамические экспрессии распознаются эффективно (Wallraven et al., 2008). Снижая уровень детализации (количество опорных точек) либо уменьшая размер изображений анимированных экспрессий, можно добиться большего эффекта динамики по сравнению со статикой, независимо от наличия текстуры (Cunningham, Wallraven, 2009a, 2009b).
С усилением экологической валидности условий восприятия, в том числе при экспозиции естественных изображений лица, эффект движения уменьшается либо не проявляется вовсе (Cunningham, Wallraven, 2009a; Fiorentini, Viviani, 2011; Fiorentini, Schmidt, Viviani, 2012; Katsyri, Sams, 2008). Экспонируя динамические последовательности, полученные путем покадрового компьютерного морфинга пар видеофрагментов «нейтральное лицо – сильно выраженная экспрессия», К. Фиорентини и П. Вивиани не выявили систематических различий при категоризации статических либо динамических переходных экспрессий (Fiorentini, Viviani, 2011). Уменьшение угловых размеров видеоизображений экспрессий вплоть до 2° также не приводит к сильному ухудшению их различения (Cunningham et al., 2004). При сопоставлении результатов распознавания базовых динамических экспрессий по их видеоизображениям на лице натурщика и компьютерным реконструкциям высокой степени детализации и реалистичности (в частности, 3D- и 4D-сканирование лица) наблюдаются сходные уровни точности идентификации (Cunningham et al., 2004; Wallraven et al., 2008). Однако при сравнении динамических экспрессий, выраженных натурщиком, и компьютерной 3D-анимации более низкого качества, которая не полностью передает детали реального лица и затрудняет распознавание статических экспрессий, динамика обеспечивает более высокую эффективность восприятия (Katsyri, Sams, 2008).
Важными для понимания эффекта движения лица представляются следующие обстоятельства.
Во-первых, динамика мимических проявлений несет функционально иной тип информации по сравнению со статичными признаками эмоции. Во всяком случае, ее влияние нельзя полностью объяснить множественным суммированием статичных образов. В частности, в условиях динамической экспозиции слабовыраженные экспрессии распознаются более точно, чем дискретные «срезы» этих же экспрессий, разделенные масками, исключающими появление кажущегося (стробоскопического) движения и порождающими эффект «слепоты к изменению» (Ambadar, Schooler, Cohn, 2005). Преимущество динамических экспозиций не исчезает и при пространственной инверсии лица, расшатывающей его конфигурационные связи, по крайней мере, для части экспрессий (Ambadar, Schooler, Cohn, 2005; Bould, Morris, Wink, 2008).
Во-вторых, эффект движения лица зависит от интенсивности экспрессий. Чем слабее выражена эмоция, тем больший вклад в ее распознавание вносит динамическая составляющая (Bould, Morris, 2008; Bould, Morris, Wink, 2008). При сильных мимических проявлениях информация, достаточная для точной идентификации модальности эмоций, содержится уже в статичных экспозициях лица, а эффект динамики (более слабый) наблюдается только для экспрессий гнева, отвращения, радости и удивления.
В-третьих, влияние непрерывных мимических изменений на восприятие выражения лица вызвано не самим фактом движения, а его временной структурой. При ее разрушении или инверсии точность распознавания модальности слабых динамических экспрессий падает (Cunningham, Wallraven, 2009a). Изменение характерной скорости проявления слабо выраженных экспрессий ведет к ухудшению их распознавания (Bould, Morris, Wink, 2008). Установление механизмов, чувствительных к временной структуре экспрессий, составляет одну из наиболее важных перспектив исследования восприятия естественных выражений лица в экологически валидных условиях.
Впечатление непрерывного изменения лица может быть получено не только в результате реальной динамики мимических мышц, но и иным путем. Например, быстрой сменой экспозиций статичных «срезов» экспрессивной динамики. Именно на этом принципе построен кинематограф. Сохранятся ли тенденции, описанные выше, при восприятии кажущегося движения лица?
Под кажущимся (стробоскопическим) движением мы будем понимать последовательность статичных изображений экспрессий, вызывающую впечатление непрерывного изменения эмоционального состояния натурщика. Целесообразность обращения к ситуации кажущегося движения при изучении восприятия экспрессий лица состоит в том, что здесь реализуется простейшая временная структура динамической экспозиции и моделируется преобразование одного статичного состояния в другое, подобное линейному пространственному морфингу лица (Барабанщиков, Жегалло, Королькова, 2016; Куракова, 2013; Жегалло, 2007; Calder et al., 1996; De Gelder, Teunisse, Benson, 1997). В рамках проблемы восприятия выражений лица возникают следующие вопросы. Влияет ли стробоскопическая экспозиция экспрессий на точность их распознавания? Если влияет, то как? Какие ошибки совершают наблюдатели? Зависит ли результат распознавания от модальности и продолжительности экспрессий? К сожалению, прямые исследования восприятия стробоскопической экспозиции выражений лица отсутствуют. Существуют данные, подчеркивающие сходство восприятия кажущегося и реального движения и их зависимость от одних и тех же детерминант (Марр, 1987; Ульман, 1983; Bruce, Green, 1993; Clatworthy, Frisby, 1973; Kolers, 1972), среди которых особый интерес представляет эффект повышения различительной чувствительности отрезков прямых при их периодичной стробоскопической экспозиции, вызывающей впечатление кажущегося движения (Джафаров, Аллик, Линде, 1983; Линде, Соколов, 1986; Соколов, 1986).
Отвечая на поставленные вопросы, мы провели ряд экспериментов, в которых исследовалась зависимость распознавания базовых эмоциональных экспрессий от условий их экспозиции. Точность восприятия эмоций оценивалась в ситуациях (1) стробоскопического движения, (2) прямой и обратной зрительной маскировки и (3) статической экспозиции фотоизображений лицевых экспрессий на пустом экране. В условиях стробоскопического движения на короткое время экспонировалась статическая экспрессия, до и после которой в этой же позиции предъявлялись изображения спокойного лица. В условиях зрительной маскировки спокойное лицо заменялось «маской», созданной путем случайного перемешивания частей спокойного лица; возникновение эффекта движения в этом случае не ожидалось. Наконец, в контрольной серии фотографии эмоционального лица предъявлялись сами по себе без каких-либо дополнительных изображений.
Согласно гипотезе, при быстром предъявлении наблюдателям последовательности статичных изображений «нейтральное лицо-экспрессия – нейтральное лицо» возникает впечатление динамической микроэкспрессии, длящейся доли секунды. По сравнению со статичными «срезами» лица и/или с изображениями, подверженными маскировке, распознавание эмоций в условиях кажущегося движения может быть более эффективным.
Стимульным материалом служили цветные фотографии лиц натурщиков (трех мужчин и трех женщин) анфас, выражающих шесть базовых эмоциональных экспрессий (радость, удивление, страх, печаль, отвращение, гнев) и спокойное состояние (нейтральное лицо). Изображения отобраны из валидизированной базы RaFD (Langner et al., 2010). Их размер и угол поворота лица были скорректированы так, чтобы глаза натурщиков на всех изображениях располагались на одном уровне, расстояние между зрачками было одинаковым, а изображения лица на каждой фотографии занимали равную площадь. Изображения кадрировались до размера 450×564 пикселей (рисунок 2.1).
При маскировке использовались «рандомизированные лица», которые получали следующим образом. Изображения лиц, выражающих спокойное состояние, разрезали на 13 частей по вертикали и 15 частей по горизонтали; полученные прямоугольники (размером 35×38 пикселей) в случайном порядке меняли местами. Благодаря этой процедуре распределения цветов и яркости на изображениях сохранялись, но целостная структура лица разрушалась.
Рис. 2.1. Примеры фотоизображений экспрессий лица из базы RaFD (Langner et al., 2010): а – спокойное (нейтральное), б – радость, в – отвращение, г – удивление
Стимульные изображения предъявлялись на экране ЭЛТ-монитора (ViewSonic G90f, частота 100 Гц), подключенного к ПК, в условиях нормальной освещенности. Испытуемые располагались на расстоянии около 60 см от экрана и смотрели на изображения бинокулярно. Угловые размеры изображений составляли около 16°×20°.
В эксперименте 1 участвовали 53 человека (37 женщин, 16 мужчин; возраст 17–53 года, медиана – 19 лет) с нормальным или скорректированным до нормального зрением. Каждый испытуемый выполнил все три серии. Порядок выполнения серий варьировался.
Исследование включало три экспериментальные серии, отличавшиеся друг от друга содержанием контекста – изображениями, которые предшествовали тестовому и следовали за ним. В серии 1.1 в качестве контекста использовались изображения нейтрального лица того же натурщика, экспрессия которого демонстрировалась в данной пробе. В серии 1.2 контекстом служили рандомизированные лица, в серии 1.3 – светло-серый фон пустого экрана.
На рисунке 2.2 представлена схема предъявления стимульного материала и время экспозиции каждого изображения. В каждой пробе в центре экрана на светло-сером фоне последовательно экспонировались: 1) черный фиксационный крест (угловые размеры 1,4°×1,4°); 2) пустой экран; 3) первое контекстное изображение; 4) пустой экран; 5) тестовое изображение лица; 6) второе контекстное изображение, аналогичное первому; 7) пустой экран; 8) вопрос «Какие эмоции присутствовали на изображении?» с вариантами ответа «радость», «гнев», «страх», «удивление», «отвращение», «печаль», «спокойное лицо». Участнику предлагалось выбрать из предъявленного списка название той эмоции, которая бы максимально соответствовала увиденной экспрессии. Ответ, выбранный в каждой пробе, а также время ответа регистрировались путем нажатия клавиши «пробел», которое позволяло перейти к следующей пробе. Для сохранения эффекта движения в пробах, где в качестве тестового предъявлялось спокойное лицо, оно смещалось на 5 пикселей вверх.
Временная организация стимульного материала подбиралась опытным путем на основе данных, полученных в других исследованиях (Джафаров и др., 1981; Линде, Соколов, 1986; Braddick, 1980; Claworthy, Frigby, 1973; Kolers, 1972; Michaels, Turvey, 1979; Turvey, 1973). Тестовые изображения предъявлялись на время, равное 50, 100 либо 200 мс. Длительность первого контекстного изображения составляла 300 мс, второго – 100 мс.
В течение одной серии каждая из семи экспрессий, выраженная каждым из шести натурщиков, предъявлялась по 7 раз. Таким образом, серия включала: 3 времени экспозиции × 7 экспрессий × 6 натурщиков × 7 повторов = 882 пробы. Все пробы были разбиты на 4 блока, между которыми испытуемые могли делать паузы. Порядок предъявления стимульного материала в каждом блоке был случайным.
Рис. 2.2. Структура стимульной ситуации
Перед началом основного эксперимента проводилась тренировочная серия. Она состояла из 7 проб, в каждой из которых экспонировалась одна из 7 экспрессий, выраженная одним из 6 натурщиков. Длительность тестового изображения составляла 300 мс. Экспонируемые экспрессии в тренировочных пробах не повторялись.
Статистическая обработка данных проводилась при помощи пакета R 3.0.3. Анализировалось влияние изучаемых факторов на точность распознавания экспрессий. Верными ответами считали совпадение выбранной в каждой пробе категории эмоции с тем состоянием, которое изображал натурщик. Методом дисперсионного анализа с внутригрупповыми факторами Время предъявления (3 градации), Содержание контекста (3 градации), Экспрессия натурщика (7 градаций) рассчитывались отношения F Фишера для каждого из факторов и их взаимодействий. Значимость критерия оценивалась с помощью рандомизационного теста, эффективного даже при нарушении условий использования дисперсионного анализа. Рандомизация проводилась для каждого испытуемого в отдельности, количество итераций – 1000.
С помощью точного теста Фишера частоты верных ответов в трех сериях сопоставлялись попарно: а) средние по всем экспрессиям и всем временам предъявления; б) средние по всем временам предъявления для каждой экспрессии; в) средние по всем экспрессиям для каждого времени предъявления; г) для каждой экспрессии и каждого времени предъявления в отдельности.
Частоты выборов семи категорий – названий базовых эмоций – сопоставлялись при помощи χ2 Пирсона для каждой экспрессии: сравнивались распределения частот в трех сериях (кажущееся движение; маскировка; изолированное лицо) и при разном времени экспозиции (50, 100, 200 мс). Уровни значимости во всех случаях рассчитывались методом Монте-Карло (количество итераций – 2000) с коррекцией Беньямини – Хохберга на множественные сравнения.
Феноменология восприятия. Несмотря на близость временной организации стимульных паттернов в трех сериях, их восприятие зависит от содержания контекста, в который включалось тестовое фотоизображение. Если оно просто демонстрируется на светло-сером фоне экрана, наблюдатели воспринимают неподвижное экспрессивное лицо само по себе. Если фотографии экспрессии лица предшествует и следует за ней изображение этого же натурщика в спокойном состоянии, воспринимается кажущееся движение – быстрое непрерывное изменение выражения лица, нередко сопровождаемое движением головы. Наконец, в тех случаях, когда появление тест-объекта ограничивается рандомизированными изображениями, наблюдатель видит статичное изображение экспрессии с наложенными на него шумовыми масками. Три содержательно различные стимульные ситуации, реализованные в соответствующих экспериментальных сериях, обозначим как «кажущееся движение» (серия 1.1), «маскировка» (серия 1.2) и «изолированное лицо» (серия 1.3).
Точность распознавания экспрессий. В ходе анализа мы пытались установить, зависит ли относительная частота проб, в которых выбранная испытуемым эмоция совпадала с экспрессией, выраженной натурщиком («верные ответы»), от условий восприятия и модальности экспрессии. Ответы, не совпадающие с экспрессией натурщика, считались «ошибочными». Согласно полученным данным, все варьируемые факторы: Время, Экспрессия, Контекст, а также их взаимодействия оказались значимыми (p = 0,001). Средние значения эффективности распознавания в зависимости от времени экспозиции, модальности экспрессии и содержания контекста приведены на рисунке 2.3 и в таблицах 2.1 и 2.2.
Рис. 2.3. Точность распознавания экспрессий (доля «верных» ответов) в зависимости от модальности эмоции, времени экспозиции (мс) и содержания контекста
Вероятность правильных ответов в подавляющем большинстве случаев выше случайной (средняя точность распознавания по всем условиям 0,76). Лучше всего распознаются «радость» (0,95), «удивление» (0,90) и спокойное лицо (0,90), хуже всего – «гнев» (0,53) и «страх» (0,56). Средние по всем экспрессиям и временам экспозиции частоты верных ответов в сериях 1.1 и 1.2 значимо не различаются (доля «верных» ответов в обеих сериях составляет 0,74; скорректированный уровень значимости точного теста Фишера при сопоставлении частот ответов в этих двух сериях p = 0,423). Ответы в серии 1.3 (изолированное предъявление лица, точность распознавания 0,81) значимо отличны от соответствующих ответов в сериях 1 и 2 (кажущееся движение и маскировка) (p<0,001). Отдельно по каждой экспрессии все различия между сериями значимы (p<0,008) за исключением «удивления» (p = 0,489) и нейтрального лица (p = 0,481), для которых результаты оценки в условиях кажущегося движения и изолированного лица не отличаются. Средняя по всем экспрессиям точность ответов в разных сериях значимо различается в зависимости от времени экспозиции, кроме серий с кажущимся движением и маскировкой при 100 мс (p = 0, 374).
Таблица 2.1. Точность распознавания в зависимости от содержания контекста, времени экспозиции и модальности экспрессий
Таблица 2.2. Точность распознавания экспрессии в каждом из экспериментальных условий
Сопоставление различий отдельно по каждой экспрессии и каждому времени экспозиции дает следующие результаты. Для экспрессий гнева и печали все различия между сериями значимы (p<0,021), для «страха» и «отвращения» различия значимы (p<0,008) за исключением серий с кажущимся движением и маскировкой, предъявленных на 200 мс (для «страха» p = 0,877; для «отвращения» p = 0,068). Для экспрессии удивления отсутствуют различия между всеми условиями при экспозиции на 200 мс (p>0,115) и между кажущимся движением и изолированным лицом, экспонируемым на 100 мс (p = 0,897). Для «радости» значимы все различия при 50 мс (p<0,028) и между кажущимся движением и изолированным лицом – при 100 мс (p = 0,017). Нейтральное лицо, экспонируемое на 50 и 100 мс в качестве тест-объекта, распознается наименее эффективно в условиях маскировки (p<0,002).
Профили оценок. Влияние независимых переменных распространяется не только на адекватные, но и на неадекватные оценки, ошибочность которых весьма условна (Барабанщиков, 2009, 2012). Выполненные оценки разделяются на три группы: 1) «верные» ответы, совпадающие с демонстрируемой эмоцией; 2) редкие (случайные) ответы, не совпадающие с демонстрируемой эмоцией; 3) «ошибочные» ответы выше случайного уровня (рисунок 2.4). Последние могут быть как регулярными, т. е. присутствовать при всех условиях эксперимента (восприятие «гнева» при экспозиции «отвращения», «печали» – при экспозиции «гнева»), так и врéменными – наблюдаться в условиях маскировки и кажущегося движения (восприятие «удивления» при экспозиции «страха» на 50 и 100 мс; спокойного состояния – при экспозиции «гнева» или «печали» на 50 мс). За исключением экспрессии гнева (50 мс, ситуация кажущегося движения) «верные» оценки преобладают над «ошибочными». В ситуациях кажущегося движения и маскировки «ошибки» восприятия зависят от времени экспозиции для всех экспрессий (p<0,001) кроме нейтрального лица при кажущемся движении (p = 0,6932). В ситуации изолированного лица различия значимы так же только для нейтрального лица (p = 0,0102). При 50 и 100 мс все различия между условиями значимы (p<0,034), при 200 мс – значимы только для экспрессий страха, отвращения, гнева и печали (p<0,001). Существует тенденция реципрокности в отношении «верных» и «ошибочных» ответов: снижение долей «верных» оценок ведет к избирательному повышению долей неверных распознаваний этих же экспрессий, особенно на самых коротких экспозициях.
Рис. 2.4. Профили оценок экспрессий в зависимости от их модальности, времени экспозиции и содержания контекста. По оси абсцисс – время экспозиции (50, 100, 200 мс) и содержание контекста (1 – кажущееся движение; 2 – маскировка; 3 – изолированное лицо). Горизонтальной пунктирной линией отмечен случайный уровень