bannerbannerbanner
Невербальная коммуникация. Экспериментально-психологические исследования

Владимир Морозов
Невербальная коммуникация. Экспериментально-психологические исследования

Полная версия

В противовес миоэластической теории голосообразования французским ученым Раулем Юссоном была выдвинута так называемая нейрохронаксическая теория образования голоса, согласно которой голосовые складки колеблются не пассивно под действием тока воздуха, а активно – в результате сокращения их мускульных волокон (m. vocalis), происходящих под влиянием нервных эфферентных импульсов, поступающих к m. vocalis по возвратному нерву (n. recurrens) (Husson, 1960, 1962). Теория Юссона, однако, встретила ряд критических возражений (Медведев и др., 1959; Морозов, 1977) и в настоящее время не является общепризнанной.

Частотой основного тона голоса называется наименьшая частота колебаний звука, соответствующая частоте прорывов воздуха черев сомкнутые края голосовых складок в процессе фонации. Частота основного тона голоса (F0) измеряется в герцах и описывается формулой: F0 = 1/T0, где Т0 – период колебания голосовых складок. Для выделения частоты основного тона голоса из речевого сигнала созданы электронные приборы – интонографы, автоматически вычерчивающие изменения частоты основного тона во времени на ленте осциллографа.

Частота основного тона (ЧОТ) воспринимается на слух как высота голоса человека, а ее изменения во времени, как интонация фразы. В оформлении интонационной структуры фразы существенную роль также играет распределение силы и длительности по составляющим ее элементам (слогам). Мужские и женские голоса различаются по ЧОТ: у женщин ЧОТ в 1,5–2 раза больше, чем у мужчин. Статистические исследования, проведенные B. C. Мартыновым (1962), показали, что ЧОТ мужских голосов колеблется в пределах 85–200 Гц, а женских – 160–340 Гц при средних значениях 136 Гц у мужчин и 248 Гц у женщин. Детские голоса имеют ЧОТ, близкую к женской.

Существенны также индивидуальные различия среди людей по характерной для каждого человека ЧОТ голоса. На этом основании ЧОТ – один из признаков персонализации личности по голосу (Рамишвили, 1981). Любопытно, что мужской и женский голоса, имеющие практически одинаковую ЧОТ, тем не менее различаются по половой принадлежности, что объясняется различиями в спектральной (обертоновой) структуре мужских и женских голосов.

Несмотря на то, что ЧОТ не принимает непосредственного участия в кодировании фонетической информации речи, лингвистическое значение ЧОТ весьма велико. Изменения ЧОТ во времени определяют особенности лингвистической (а также и экстралингвистической – см. об этом ниже) интонации голоса: ударение, вопрос, повествование, завершенность, незавершенность высказывания, восклицание и др. (Артёмов, 1974; Цеплитис, 1974; Бондарко, 1977; Светозарова, 1982). Характерные изменения ЧОТ во времени при произнесении одной и той же фразы («Это мамонт») с различной лингвистической интонацией приведены на рисунке 6. Мелодический рисунок фразы изменяется также в зависимости от места расположения ударного слова. На ударном слове (а в нем на слоге) частота повышается.

Рис. 6. Типичный мелодический контур (изменение частоты основного тона) четырех интонационных типов русского языка: завершенного повествования, общего вопроса, восклицания и незавершенного повествования при произнесении фразы «Это мамонт» (Светозарова, 1982).

Горизонтальные прерывистые линии сверху вниз: средняя максимальная, средняя индивидуальная и средняя минимальная частота основного тона.


Слух человека обладает высокой чувствительностью к восприятию интонационной структуры речевых фраз. Слушатели способны правильно определить интонационный тип предложения даже по его меньшей части. Исследование зависимости точности такого рода опознания от длины предъявленной части фразы показало, что 80-процентная надежность правильного опознавания достигается даже при исключении 8 слогов из 13 (Светозарова, 1982).

Наконец, ЧОТ – важнейшее средство кодирования не только лингвистической интонации голоса, но и экстралингвистической информации речи: индивидуальных особенностей речи человека (Рамишвили, 1981) и эмоциональной интонации (Попов и др., 1966; Цеплитис, 1974; Брызгунова, 1984; Sedlačec, Sychra, 1962; Williams, Stevens, 1972).

Амплитудно-временные характеристики речевого сигнала и их роль в восприятии речи. Психоакустической основой восприятия громкости речи является различие в физической силе речевых звуков. Средний уровень различной разговорной речи при измерении на расстоянии 1 м колеблется от 60 до 80 дБ (относительно стандартного нулевого уровня, за который принято звуковое давление 2,10–5 Н/м2). Уровень звукового давления гласных в целом на 10–40 дБ больше, чем согласных. Поэтому огибающая интенсивности речевого потока выглядит на осциллограмме в виде амплитудно-модулированной кривой с максимумами на гласных и минимумами на согласных.

Статистические исследования звукового потока речи по мощности показали, что разница в децибелах между наиболее слабыми звуками речи, встречающимися в 1 % случаев (по времени), и наиболее сильными звуками, встречающимися также в 1 % случаев, составляет 47 дБ. Она носит название динамического диапазона речи. А разница между условным максимумом и средним уровнем получила название пикфактора речи.

Для эффективного восприятия речи она должна быть достаточно громкой. Однако понятие достаточной громкости относительно и сильно зависит от окружающего шума, на фоне которого воспринимается речь. Для обеспечения отличной разборчивости речи (чему соответствует 80 % слоговой разборчивости) в присутствии сравнительно небольшого шума (50 дБ) уровень речи должен достигать около 73 дБ. В шуме 70 дБ для обеспечения того же качества разборчивости (80 %) необходимо усилить речь до 99 дБ, а в шуме 80 дБ речевой сигнал должен быть усилен до 110 дБ. Иными словами, для того чтобы быть отлично разборчивым, речевой сигнал должен превышать уровень средних и громких шумов примерно на 30 дБ. В случае слабых шумов (40 дБ) указанное превышение достаточно на 20 дБ. Для достижения более низкого класса разборчивости речи требуется, естественно, меньшее превышение уровня речевого сигнала над шумом, что определяется расчетным путем (Покровский, 1962), Среднестатистическая частота амплитудной модуляции (AM) речи и ее связь с характеристиками слуха была предметом специального исследования (Морозов, Черниговская, 1975). Полученные гистограммы статистического распределения AM речи русских дикторов (из числа известных чтецов) показали, что наиболее часто встречающаяся AM речи сосредоточена в области 4–6 Гц (хотя в целом захватывает и более широкий диапазон). Параллельное исследование чувствительности слуха человека к AM звука показало, что ее максимальная величина наблюдается как раз в том диапазоне AM, в котором имеется максимум AM речевых звуков, т. е. в области 3–8 Гц. Это как раз укладывается в диапазон длительности речевых слогов, т. е. 330–120 мс. Высказывается гипотеза, что данное соответствие AM характеристик слуха и речи является не случайным, а возникло в процессе эволюции в результате взаимного согласования характеристик речи и слуха. Такая повышенная избирательность слуха к AM речи обусловливает высокую помехоустойчивость слухового восприятия человеком речевого сигнала на фоне различного рода шумов (Морозов, 1977).

Амплитудно-временные характеристики речи являются весьма важными в передаче слушателю главным образом ее экстралингвистической информации. Так, показано, что одна и та же фраза в зависимости от ее эмоциональной окраски характеризуется специфическим узором амплитудно-временных или, как их еще называют, динамических характеристик сигнала (Котляр, Морозов, 1976). Например, время нарастания и спада амплитуды звуков при выражении эмоции горя максимально велико, а при гневе максимально коротко (см. рисунок 7). Для выражения разных эмоций человек характерным образом видоизменяет амплитудно-временную организацию фразы[10], причем каждая из эмоций характеризуется своим специфическим набором указанных признаков.


Рис. 7. Осциллограммы огибающей звукового давления фразы «Спи, дитя мое» исполненной вокалистом с разными эмоциональными оттенками (Морозов, 1977).

1 – радость; 2 – горе; 3 – нейтрально; 4 – гнев; 5 – страх.


Наконец, амплитудно-временные характеристики речи вносят определенный вклад в восприятие ее семантического содержания. Речь идет не только о лингвистическом ударении и интонации, где роль амплитудно-временных характеристик речи очевидна (Арутюнян, 1966; Бондарко, 1977), но и о восприятии человеком слов и фраз связной речи. Несомненная значимость амплитудно-временных и других просодических характеристик речевого сигнала для его восприятия в последнее время приводит к их более активному использованию в системах автоматического распознавания речи (Ли, 1983).

1.2. Экстралингвистическая информация и восприятие вокальной речи

Речевой сигнал несет слушателю информацию двух родов. Вопервых, это собственно речевая или лингвистическая информация (обозначенная также терминами языковая, семантическая, вербальная). Носителем ее является слово. Во-вторых, звуковая речь несет слушателю информацию о поле, возрасте говорящего, его физическом состоянии здоровья, эмоциональном состоянии (Симонов, 1975) и т. п., и притом независимо от слова, от того, что говорит человек. Этого рода информация получила название экстралингвистической (внеязыковой)[11]. Ее общепринятой классификации не существует. Можно выделить следующие основные виды экстралингвистической информации: 1) эстетическая, включающая ряд психоакустических характеристик голоса и речи и определяемая в целом такими субъективными оценками слушателей (в рамках метода психологического шкалирования), как «приятный – неприятный», «нравится – не нравится» и т. п.); 2) эмоциональная, характеризующая эмоциональное состояние говорящего и его отношение к предмету разговора; 3) индивидуально-личностная, на основе которой возможно опознание личности говорящего по его голосу; 4) социально-групповая, свидетельствующая о принадлежности говорящего к определенной социальной структуре по иерархическому положению, национальности (акцент) и т. п.; 5) пространственная, характеризующая местоположение говорящего по отношению к слушателю (азимут, расстояние) и его передвижение в пространстве (приближение, удаление и др.); 6) медицинская, отражающая общее состояние здоровья человека, его речевой системы в целом и состояние здоровья голосового аппарата в частности (фониатрическая информация); 7) возрастно-половая.

 

Носителями экстралингвистической информации являются характерные особенности организации речи и акустики голоса говорящего: тембр, высота, громкость, интонация, темпоритмические характеристики и т. п. О роли этих характеристик речи в передаче слушателю экстралингвистической информации частично указывалось в предыдущем разделе.

Есть основание считать, что экстралингвистические свойства речи человека являются эволюционно более древними по сравнению с лингвистическими (Linden, 1981). Среди гипотез возникновения языка немало данных о происхождении речи из эмоциональных и звукоподражательных выкриков предков человека (Якушин, 1984). Способностью к адекватному восприятию экстралингвистической информации человек обладал задолго до появления способности к речи (узнавание голоса матери, понимание эмоциональной интонации речи). Более того, язык эмоций – это доминирующая система звуковой коммуникации ребенка в доречевой период. Овладение речью, однако, не приводит к утрате экстралингвистической коммуникации. В современной речи человека она играет весьма важную роль.

Способность человека правильно определять эмоциональное состояние обезьян по их звуковым сигналам (Гершуни и др., 1977) указывает на определенное эволюционное родство кодирования эмоциональной информации у человека и животных. На это обстоятельство, как известно, указывал еще Дарвин (1953).

Важной особенностью экстралингвистической информации речи является ее независимость от характера лингвистической. Пол, возраст говорящего могут быть опознаны слушателем независимо от характера его высказывания. Эмоциональный контекст голоса, как правило, созвучный смыслу словесного высказывания, может ему и противоречить. Указанная независимость в значительной мере обусловлена существованием обособленных мозговых механизмов, участвующих в кодировании и декодировании этих двух видов речевой информации: преимуществом левого полушария головного мозга в обработке вербальной лингвистической информации (центры Брока и Вернике) и преимуществом правого полушария в обработке экстралингвистической информации (см.: Бару, 1977; Спрингер, Дейч, 1983).

Данные о восприятии человеком экстралингвистической информации речи несомненно более скудны (по сравнению с восприятием собственно речевой информации). В 1974 и 1978 годах в Ленинграде состоялись первые два симпозиума, посвященные различным аспектам эмоциональной информации речи. Мало изучены и другие аспекты экстралингвистической информации речи. Теория ее не разработана. Само понятие «экстралингвистическая информация» нуждается в обстоятельном системном изучении, особенно с точки зрения роли ее в общей системе звуковой коммуникации человека и во многих научно-прикладных проблемах (автоматическое распознавание речи, контроль за эмоциональным состоянием человека-оператора по его голосу, персонализация и верификация личности по голосу, проблема естественности синтетической речи и др.).

Изучение индивидуально-личностной категории экстралингвистической информации проведено Г. С. Рамишвили (1981) в интересах создания систем автоматического опознавания личности по голосу, а также рядом зарубежных авторов. Высокие разрешающие способности слуха человека при различении пола диктора проявляются даже при прослушивании шепотной речи (Шейнин, 1971).

Одной из трудностей изучения восприятия слушателем эмоциональной информации речи является сложность получения тестового материала, отвечающего необходимым требованиям, т. е. образцов речи, содержащих эмоциональную информацию. С этой целью используются образцы естественной речи (Попов и др., 1966; Маришук, 1975), метод гипнотического внушения и, наконец, метод актерского моделирования эмоциональных интонаций (Куницын, 1975; Морозов, 1977).

Процедура исследования состоит в предъявлении слушателям определенного количества эмоционально окрашенных фраз (в магнитофонной записи), предварительно тщательно отобранных методом экспертных оценок. Критерием правильности восприятия испытуемым эмоциональной интонации речи является процент правильных оценок им эмоций, данных в сигналах (по отношению ко всем предъявленным).

Восприятие человеком эмоциональной информации речи характеризуется значительными индивидуальными различиями. Гистограммы распределения правильных ответов испытуемых при определении эмоциональных интонаций речевых фраз, начитанных народным артистом СССР О. Басилашвили (три фразы типа «Они сейчас придут сюда») с интонациями радости, печали, недовольства, страха, показали, что способность к правильному определению эмоций в речи у 90 человек абитуриентов, поступающих в Ленинградский институт театра, музыки и кинематографии, колеблется от 40 до 95 % с максимумом в области 75–80 %. На основании разносторонних экспериментальных исследований индивидуальных, половых, возрастных и профессиональных различий людей по способности к восприятию эмоциональной информации выдвигается понятие «эмоциональный слух» как особая категория слуховой чувствительности, не коррелирующая с речевым, тональным, а также музыкальным слухом (Морозов, 1985c).

Одним из аргументов в пользу выделения экстралингвистической информации в особую категорию служит существенно большая степень ее помехоустойчивости (лучшее восприятие в условиях шума) по сравнению с собственно речевой (лингвистической) информацией (см. рисунок 8).


Рис. 8. Помехоустойчивость различных видов экстралингвистической информации речи в сравнении с лингвистической.

1 – определение пола диктора; 2 – определение эмоциональной интонации голоса; 3 – число правильно воспринятых слов фразы. По оси абсцисс – 20 lg шум/сигнал в дБ; по оси ординат – вероятность правильного восприятия речевой информации, %; 4 – узнавание диктора по голосу (кривые 1–3 – по: Морозов, 1985c; кривая 4 – по: Рамишвили, 1981).


Особенности восприятия вокальной речи. Вокальная речь, или пение, является специализированной формой речевой коммуникации человека, служащей для передачи слушателю информации, главным образом эмоционально-эстетического характера. В этом смысле вокальная речь является яркой моделью экстралингвистической коммуникации человека, средства и формы которой (в данном случае) определены требованиями и традициями вокального искусства.

Считается, что пение по сравнению с речью имеет значительно более глубокие эволюционно-исторические корни как средство акустической сигнализации. Еще Дарвин неоднократно указывал на то, что пение эволюционно связано с эмоциональной вокализацией древних предков человека, и называл пение «эмоциональной речью» (Дарвин, 1953). «Предки человека, по-видимому, издавали музыкальные тона, до того как приобрели способность к членораздельной речи, – считал Дарвин, – музыкальные звуки представляют одну из основ, из которых развился впоследствии язык» (Дарвин, 1953).

Эмоционально-эстетическая направленность вокальной речи в основном определяет особенности ее акустического строения и слухового восприятия. От обычной вокальная речь отличается прежде всего особым тембром звучания, определяемым в свою очередь особенностями спектрального состава (Wolf et al., 1982). Рядом отечественных и зарубежных исследований установлено, что звонкий, «серебристый», оттенок голоса певца обусловливается значительно увеличенным по сравнению с нормой уровнем третьей форманты (F3), расположенной в полосе от 2300 до 3000 Гц и получившей название высокой певческой форманты (Ржевкин, 1956; Husson, 1960, 1962; Морозов, 1965, 1966, 1977, 1984b; Sundberg, 1975). Применение рентгенографической техники в комплексе с компьютерным анализом позволило установить, что высокая певческая форманта есть результат объединения третьей, четвертой и пятой относительно слабо выраженных речевых формант в одну мощную форманту (Sundberg, 1974, 1982).

Искусственное подавление в спектре голоса высокой певческой форманты (при помощи электрических фильтров) приводит к потере голосом звонкости (Морозов, 1967). На слух он начинает восприниматься, как «глухой», «тусклый», слабый звук. При этом разборчивость вокальной речи падает. Высокая певческая форманта, выделенная в изолированном виде из голоса певца, представляет собой мелодический свист, напоминающий соловьиную трель (Морозов, 1977). Таким образом, доказано, что именно высокая певческая форманта придает вокальной речи присущие ей высокие эстетические тембровые качества. Кроме того, высокая певческая форманта придает певческому голосу важнейшее профессиональное, техническое качество – свойство хорошо слышаться на фоне маскирующего влияния других звуков, например музыкального сопровождения (хор, оркестр). Свойство это, обозначаемое термином «полетность голоса», сильно коррелирует со степенью выраженности высокой певческой форманты (коэффициент корреляции +0,83) (Морозов, 1977).

Большой вклад высокой певческой форманты в обеспечение важнейших эстетических и профессионально-технических свойств вокальной речи становится понятным при сопоставлении типичных спектров обычной речи (см. рисунок 9, кривая 1) со спектрами вокальной речи (2) и характеристиками слуховой чувствительности человека (5). Как можно видеть, энергетические составляющие спектра в вокальной речи перераспределяются из области низких частот (300–400 Гц), где они максимально выражены в обычной речи (1), в область 2000–3000 кГц, соответствующую максимальной чувствительности слуха. В результате указанного соответствия сигнал вокальной речи воспринимается на слух не только как более звонкий и эстетически приятный, но и как более громкий при той же акустической мощности, что и речевой. Данным соответствием обусловливается также повышенная помехоустойчивость слухового восприятия сигнала вокальной речи, характеризуемая термином «полетность».


Рис. 9. Среднестатистические спектры вокальной (1) и обычной (3) речи в сравнении с порогами слухового восприятия человека (2) свидетельствуют, что в вокальной речи максимум энергии спектра перемещается в область 2000–3000 Гц, соответствующую максимуму слуховой чувствительности человека (Морозов, 1977).


Имея в виду большое значение высокой певческой форманты в обеспечении эстетических и профессионально-технических свойств голоса, предложен метод искусственного улучшения эстетических свойств тембра голоса человека (при его электроакустическом преобразовании) путем избирательной коррекции частотных характеристик усилительного тракта в области высокой певческой форманты (Морозов, 1977).

В формировании специфического тембра вокальной речи высокой певческой форманты принимают участие и другие формантные области. Интегральные характеристики спектра вокальной речи, полученные при помощи интегрального спектрометра, выявили в основном ее трехформантную структуру. При этом первая форманта, расположенная в полосе 300–600 Гц, обозначаемая в литературе термином «низкая певческая форманта», придает голосу певца присущую ему «мягкость», «массивность», «округлость» тембра. Средняя формантная область, локализуемая в среднем около 1000 Гц, оказывается наиболее лабильной по своему частотному положению (вокруг частоты 1000 Гц) и в значительной степени определяет фонетическое качество вокальных гласных.

 

Помимо особенностей спектра вокальная речь характеризуется многими другими акустическими особенностями, влияющими на ее восприятие слушателем: повышенной мощностью, достигающей у профессиональных оперных певцов уровня 120 дБ, т. е. превышающей уровень разговорной речи на 40–50 дБ, значительно более глубоким вследствие этого динамическим диапазоном гласных (до 35 дБ), а также более широким звуковысотным диапазоном (две октавы и более вместо одной-полутора октав в речи), значительно большей длительностью гласных, достигающей в пении 3–5 и более секунд по сравнению с 150–250 мс в речи (Златоустова, 1981).

Наконец, специфической особенностью вокальной речи является наличие так называемого вибрато, представляющего собой амплитудно-частотную модуляцию голоса, происходящую с частотой 5–7 Гц и воспринимаемую слушателем, как весьма приятная на слух пульсация звука голоса певца (Seashore, 1936; Mason, Zemlin, 1982). Поскольку частота вибрато практически совпадает с частотой статистически наиболее типичной модуляции речи и максимумом слуховой чувствительности к амплитудно-частотной модуляции звуках высказана гипотеза о происхождении вибрато в результате согласования (сформировавшегося в процессе эволюции) амплитудно-модуляционных характеристик вокальной речи (или протяженных музыкальных звуков) с таковыми характеристиками слуха (Морозов, 1977).

Доминирование эмоционально-выразительной функции вокальной речи, как уже указывалось, связывается с ее более древним происхождением по отношению к обычной речи. На это же указывают данные онтогенеза речевой функции: эмоционально-выразительный элемент речи, доминирующий в самом раннем онтогенезе человека, намного опережает вербальную речь, начинающую появляться лишь в годовалом возрасте. Несомненно, что современная вокальная речь, проделавшая большую эволюцию, по своим формам существенно отличается от своего доисторического прототипа. Вместе с тем она, по-видимому, сохранила и некоторые свои древние черты. В этой связи Дарвин писал: «Страстный оратор, певец или музыкант, который своими разнообразными звуками или модуляциями голоса возбуждает самые сильные эмоции в своих слушателях, едва ли подозревает, что пользуется теми же средствами, которыми в очень отдаленной древности его получеловеческие предки возбуждали друг у друга пламенные страсти во время ухаживания и соперничества» (Дарвин, 1953).

В свете этих данных перечисленные выше акустические особенности вокальной речи (значительно увеличенная громкость, продолжительность и высота гласных, а также особый спектральный состав звука и наличие модуляций основного тона и вибрато) следует рассматривать как своего рода код, несущий эмоциональную информацию. Значительная часть этой информации кодируется композитором (в форме мелодии, ритма, динамических оттенков и т. д.), остальная ее часть вносится исполнителем как интерпретатором вокального произведения[12] (Котляр, Морозов, 1976).

Несмотря на очевидную специфичность акустических средств выражения эмоций в пении, есть основание говорить, что в общих чертах эти средства совпадают в пении и речи. Эта общность определяется наличием достаточно определенных связей между характером звука голоса и физиологическим состоянием организма, испытывающего ту или иную эмоцию: акустический признак эмоций в голосе связан с физиологическим признаком состояния.

10Параллельно с этим изменяется и интонационно-спектральная структура речи.
11Иногда ее обозначают термином «паралингвистическая информация» (Колшанский, 1974).
12Здесь, разумеется, не идет речь об эмоциональной информации, которую может нести сам печатный текст произведения, например строка поэта.
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44 
Рейтинг@Mail.ru