bannerbannerbanner
Данные: визуализируй, расскажи, используй. Сторителлинг в аналитике

Коул Нафлик
Данные: визуализируй, расскажи, используй. Сторителлинг в аналитике

Полная версия

Диаграммы (графики, гистограммы и пр.)

При изучении таблиц, как уже было сказано, человек задействует вербальную систему, а при работе с диаграммами – визуальную, которая обрабатывает информацию гораздо быстрее. А значит, при прочих равных условиях качественная диаграмма быстрее донесет информацию, чем качественная таблица. В начале этой главы я упоминала о том, что существует множество типов диаграмм. Однако десятка разновидностей вполне достаточно для удовлетворения большинства повседневных нужд.

Типы диаграмм, которые я использую чаще всего, можно условно разделить на четыре категории: точечные, линейные графики, гистограммы и линейчатые диаграммы и диаграммы с областями. Мы подробно остановимся на каждой из них и рассмотрим случаи их применения и примеры.

Chart или graph?

В английском языке для обозначения диаграмм используются термины сhart и graph. Как правило, сhart – более широкая категория, включающая линейные графики, диаграммы и карты. Я не провожу такого различия, поскольку пользуюсь в основном простыми диаграммами.

Точечная диаграмма

Диаграмма рассеяния

Диаграмма рассеяния используется для показа взаимосвязи между величинами, поскольку позволяет располагать значения одновременно по осям Х и Y, чтобы увидеть, есть ли между ними взаимосвязь и какая. Чаще этот тип диаграмм применяют в науке (возможно, поэтому неподготовленному человеку они кажутся сложными). Но иногда диаграммы рассеяния эффективно используют и для решения бизнес-задач.

Предположим, вы управляете автобусным парком и хотите понять соотношение пробега и стоимость за милю (1,6 км). Диаграмма рассеяния может выглядеть примерно как на рис. 2.6.

Рис. 2.6 Диаграмма рассеяния


Если для вас важны только случаи, когда стоимость за милю превышала среднюю, диаграмму рассеяния можно слегка изменить, чтобы нужная информация сразу бросалась в глаза, как на рис. 2.7.


Рис. 2.7 Измененная диаграмма рассеяния


На основе рис. 2.7 можно сделать вывод, что стоимость за милю была выше средней при пробеге меньше 1700 миль и больше 3300 миль. В следующих главах мы подробнее обсудим примененные здесь дизайнерские решения и поймем, чем они обусловлены.

Диаграммы-линии

Диаграммы-линии (графики) используются для отображения количественных показателей за определенный период, например несколько дней, месяцев, кварталов, лет. Точки соединены линией, показывающей взаимосвязь между ними. Этот вариант не подходит для отображения данных из разных категорий.

Чаще всего я использую два типа графиков: линейный и слоупграф.

Линейный график

Линейные графики могут быть с одним рядом данных (одной кривой), двумя и несколькими, как показано на рис. 2.8.


Рис. 2.8 Линейные графики


Обратите внимание: при обозначении времени на горизонтальной оси Х интервалы должны быть одного порядка. Недавно я видела график, где сначала, с 1900 г., значения по оси Х изменялись с шагом в десять лет (1910, 1920, 1930 и т. д.), а затем, с 2010 г. – с шагом в год (2011, 2012, 2013, 2014). При этом расстояние между точками, обозначающими десятилетия, и между точками, обозначающими годы, было одинаковым. Это сбивает зрителей с толку.

Как показать среднее в диапазоне

Иногда кривая линейного графика может представлять статистическую сводку, например среднее значение, или точечную оценку прогноза. Если вы хотите дать представление о диапазоне (или уровне значимости, в зависимости от ситуации), это можно сделать непосредственно на графике. Например, на рис. 2.9 показаны минимальное, среднее и максимальное значения времени прохождения паспортного контроля в аэропорту за период 13 месяцев.

Рис. 2.9 Среднее в диапазоне на линейном графике


Слоупграф

Слоупграф (slopegraph) также называют диаграммой наклона. Его можно использовать для сравнения значений, например, в двух периодах, поскольку он наглядно отражает увеличение или снижение показателей по разным категориям между двумя точками данных.

Легче всего объяснить преимущества слоупграфа на примере. Предположим, вам надо проанализировать и представить результаты недавнего опроса сотрудников об уровне их удовлетворенности своей работой. Чтобы показать относительные изменения по категориям, упоминавшимся в опросе, за период с 2014 по 2015 г., можно создать слоупграф, как на рис. 2.10. Он содержит много информации. Помимо абсолютных значений (точек), линии, соединяющие их, дают наглядное представление о динамике изменений – увеличении или снижении, – без необходимости дополнительных пояснений.


Рис. 2.10 Слоупграф


Шаблон слоупграфа

Создание слоупграфа требует терпения, поэтому он редко входит в число стандартных графиков в специализированных приложениях. Шаблон в Excel и инструкции по индивидуальной настройке параметров можно скачать на storytellingwithdata.com/slopegraph-template.

Полезность слоупграфа в конкретной ситуации зависит от самих данных. Когда много линий частично накладываются друг на друга, эффективность графика невелика, хотя иногда удается успешно выделить один ряд данных, подчеркнув его динамику во времени. Так, в нашем примере можно сфокусировать внимание на одной категории, значения в которой со временем снижались.

При изучении рис. 2.11 внимание сразу привлекает снижение в категории «Карьерный рост», а остальные данные сохранены ради контекста, но не конкурируют за внимание. Мы поговорим о стратегии, на которой строится этот прием, при обсуждении привлекающих атрибутов в главе 4.


Рис. 2.11 Измененный слоупграф


Линейные графики эффективно отображают данные за определенный период. Если же необходимо графически представить данные, организованные в группы или категории, чаще прибегают к диаграммам.

Столбчатые диаграммы

Часто к недостаткам столбчатых и линейчатых диаграмм относят их простоту. Это ошибка. Скорее наоборот: преимущество такой диаграммы в том, что она простая, а значит, аудитория направит интеллектуальные усилия на анализ представленных данных, а не на попытки разобраться в элементах.

Диаграммы хорошо воспринимаются визуально. Нам легко сравнить столбцы: какая категория самая большая, какая – самая маленькая, какова разница между ними. Обратите внимание: в силу особенностей нашего восприятия (того, как человеческий глаз сравнивает относительную высоту столбцов) в диаграмме обязательно должна быть нулевая (базовая) линия – где ось Х пересекается с осью Y. Иначе визуальное сравнение будет искаженным и ошибочным.

Рассмотрим в качестве примера рис. 2.12 – столбчатую диаграмму, которая была представлена на телеканале Fox News.


Рис. 2.12 Диаграмма Fox News


Представим, что сейчас осень 2012 г. Нас интересует, что произойдет, когда срок действия сокращения налогов, проведенного при Джордже Буше, закончится. Столбец слева отражает текущий верхний уровень ставки – 35 %, а столбец справа показывает, каким он будет с 1 января будущего года: 39,6 %.

Что вы чувствуете, глядя на эту диаграмму? Тревогу из-за значительного роста? Разберемся подробнее.

Обратите внимание, что значения по оси Y начинаются не с нуля, а с 34. Это означает, что теоретически столбцы диаграммы должны продолжаться вниз за границы экрана. В том виде, как показано на диаграмме, визуальное увеличение составляет 460 % (высота каждого из столбцов 35–34 = 1 и 39,6 – 34 = 5,6; таким образом (5,6–1) / 1 = 460 %). Если бы диаграмма начиналась с нулевой линии и высота столбцов была отображена правильно (35 и 39,6), визуальное увеличение составило бы 13 % ((39,6 – 35) / 35). Сравним две диаграммы на рис. 2.13.


Рис. 2.13 В диаграмме должна быть нулевая линия


Из рисунка 2.13 очевидно, что разница между столбцами на левой диаграмме кажется значительной, а на правой – небольшой. Возможно, тема роста налоговой нагрузки не так страшна, как ее пытаются представить. В силу особенностей нашего восприятия для точного сравнения нужен контекст.

Возможно, вы заметили, что в дизайн второй диаграммы внесены еще несколько изменений. Ось Y, которая в оригинальной диаграмме находилась справа, перенесена влево, чтобы мы понимали, как интерпретировать данные, до того, как увидим их. Значения, которые в оригинальной диаграмме располагались над столбцами, помещены внутрь последних, чтобы снизить уровень информационного шума. Если бы я использовала эту диаграмму для своих целей, а не как пример, возможно, я бы убрала ось Y и оставила только значения данных внутри столбцов, чтобы исключить избыточную информацию. Однако здесь я решила сохранить эту ось, чтобы было ясно, что она начинается с нулевого значения.

 

Оси диаграмм или значения данных

Стандартное решение, которое приходится принимать при построении любой диаграммы, – сохранить ли оси и шкалы или указать значения данных рядом с соответствующими элементами. Для этого оцените уровень детализации, который важен для аудитории. Если вы хотите представить общие тенденции, возможно, стоит сохранить оси, но сделать их серыми, чтобы они не отвлекали внимание. Если важно сфокусировать внимание на конкретных числах, стоит указать значения. Тогда лучше убирать оси диаграммы, чтобы избавиться от лишней информации. Всегда учитывайте, как аудитория, по вашей задумке, должна использовать визуализацию данных, и структурируйте визуализацию соответственно.

Правило, которое мы только что проиллюстрировали: «В диаграмме всегда должна быть нулевая линия». К линейным графикам оно не применяется. Там важно относительное расположение кривой в пространстве, а не расстояние от нее до нулевой линии или оси, так что последнюю можно опустить. Однако пользуйтесь этой возможностью благоразумно: аудитории должно быть понятно, что у графика нет нулевой линии, а вы должны учитывать контекст, чтобы незначительные изменения не выглядели обманчиво серьезными.

Визуализация данных и вопрос этики

Но что, если изменение масштаба или любая другая манипуляция с графическим представлением данных усиливает ту точку зрения, которую вы выражаете? Вводить аудиторию в заблуждение с помощью некорректной визуализации неэтично. Кроме того, это довольно рискованно. Стоит лишь одному внимательному участнику из аудитории заметить манипуляцию (например, что ось Y начинается не с нуля, а с другого значения), вас не захотят слушать, а ваша репутация будет погублена.

Поговорим и о ширине столбцов. Здесь нет четкого правила, но обычно она больше пустого пространства между ними. Не стоит делать их настолько широкими, чтобы у аудитории возникла мысль сравнить их по площади, а не по высоте. Ниже приведены примеры (почти как в сказке про Машу и трех медведей), когда столбцы слишком узкие, слишком широкие и в самый раз.


Рис. 2.14 Ширина столбцов


Перейдем к рассмотрению разных типов диаграмм. Они дают вам гибкость в решении разных проблем визуализации данных. Разберем наиболее распространенные типы диаграмм, которые наверняка вам знакомы.

Гистограмма (столбчатая диаграмма)

Один из самых распространенных типов диаграмм – гистограмма, или столбчатая диаграмма (vertical bar chart). Как и график, она может быть с одним, двумя или несколькими рядами данных. При добавлении дополнительных рядов сфокусироваться на них сложнее, так что используйте такие диаграммы осторожно. Также учтите, что в них происходит визуальная группировка данных, в результате становится важным относительный порядок категорий. Подумайте, что именно должна сравнивать аудитория, и структурируйте иерархию категорий, чтобы провести сравнение было максимально легко.


Рис. 2.15 Гистограммы


Гистограмма с накоплением

Гистограммы с накоплением (vertical stacked bar chart) используются нечасто. Они позволяют сравнить общие значения по категориям, а также проанализировать составляющие в отдельной категории. К сожалению, такая гистограмма часто становится сложной для восприятия, особенно учитывая разнообразие цветовых схем, которые по умолчанию есть в большинстве графических приложений (подробнее об этом поговорим далее). Относительно легко справиться с задачей сравнения отдельных компонентов по разным категориям, когда они расположены вдоль оси Х. Но чем выше по столбцам вы поднимаетесь, тем сложнее становится задача. Наглядно это проиллюстрировано на рис. 2.16.


Рис. 2.16 Сравнение компонентов по категориям с помощью гистограммы с накоплением


Структурировать гистограмму с накоплением можно на основе абсолютных значений (как на рис. 2.16) или процентного соотношения – тогда все значения в каждом столбце в сумме должны составлять 100 % (указывается процентное соотношение каждого вертикального сегмента, пример такой гистограммы мы разберем в главе 9). Выбор за вами, и он зависит от того, что вы хотите донести до аудитории. При использовании гистограммы с накоплением на основе процентного соотношения подумайте, стоит ли указать абсолютные суммарные значения для каждой категории (либо включив их в диаграмму, либо в примечании или ссылке). Это поможет аудитории интерпретировать данные.

Каскадная диаграмма

Каскадная диаграмма (waterfall chart) используется, чтобы выделить отдельные элементы гистограммы с накоплением и сфокусироваться на каждом из них или чтобы показать начальную точку, динамику (рост/спад) и итоги.

Лучше всего проиллюстрировать применение такой диаграммы на конкретном примере. Представьте, что вы – бизнес-партнер по управлению персоналом и вам нужно понять и визуализировать данные о том, как за последний год изменилась численность сотрудников в отделе по работе с клиентами. Каскадная диаграмма, отображающая эти данные, может выглядеть как на рис. 2.17.


Рис. 2.17 Каскадная диаграмма


Слева мы видим численность сотрудников отдела на начало года. Далее мы отмечаем ее рост за счет найма и перехода из других отделов организации. Затем происходит снижение численности из-за того, что люди переходят в другие отделы или увольняются. В последнем столбце отображена численность сотрудников отдела на конец года.

Создание каскадной диаграммы

Если в вашем графическом приложении нет встроенной функции для создания каскадной диаграммы, не расстраивайтесь. Просто сформируйте гистограмму с накоплением и сделайте первые ячейки (которые ближе всех к оси Х) невидимыми. Придется потрудиться, но результат того стоит. Публикация в блоге на эту тему и версия (в Excel) диаграммы из предыдущего примера вместе с рекомендациями, как создать ее для ваших целей, есть на storytellingwithdata.com/waterfall-chart.

Линейчатая диаграмма

Если бы мне пришлось выбирать единственную диаграмму для визуального представления данных по категориям, я без колебаний остановилась бы на линейчатой (horizontal bar chart), или горизонтальном варианте гистограммы. Почему? Потому что она очень легко читается. Она идеально подойдет вам, если у вас длинные названия категорий. Мы обычно читаем слева направо, и аудитории будет легко изучить вашу диаграмму. Кроме того, обычно человек обрабатывает информацию начиная с левого верхнего угла и скользит глазами по странице или слайду по траектории буквы Z[23]. Структура линейчатой диаграммы такова, что глаз человека видит названия категорий еще до самих данных. К тому моменту, когда он знакомится с данными, он уже знает, что они означают (вместо того чтобы перескакивать взглядом с них на название категории, как в случае с гистограммой).

Как и гистограмма, линейчатая диаграмма может быть с одним, двумя и несколькими рядами данных (рис. 2.18).


Рис. 2.18 Линейчатые диаграммы


Логический порядок категорий

При создании любой диаграммы, отображающей категории данных, уделите отдельное внимание вопросу логической последовательности категорий. Если у них есть естественный порядок, придерживайтесь его. Например, если ваши категории – возрастные группы (0 – 10 лет, 11–20 лет и т. д.), расположите их в порядке возрастания. Если естественного порядка нет, подумайте, как структурировать диаграмму наиболее логичным для аудитории способом. Так вы облегчите процесс интерпретации данных.

Ваша аудитория (в отсутствие других визуальных подсказок) обычно начинает рассматривать диаграмму с левого верхнего угла и движется по контуру буквы Z. Это означает, что в первую очередь пользователи увидят верхнюю часть диаграммы. Если важнее всего самая крупная категория, расположите ее в самом верху, а под ней в порядке убывания все остальные. Если важнее самая маленькая категория, ее тоже можно разместить в самом верху, а под ней в порядке возрастания значений остальные.

Конкретный пример логического упорядочивания данных рассматривается в примере 3 в главе 9.

Линейчатая диаграмма с накоплением

Аналогично гистограмме с накоплением линейчатую диаграмму с накоплением (horizontal stacked bar chart) можно использовать для отображения совокупных значений для разных категорий, а также отображения отдельных компонентов в данных категориях. Структурировать ее можно на основе абсолютных значений или процентного соотношения. По моему опыту, последний подход эффективен при визуализации частей целого от отрицательного к положительному: поскольку есть четкая базовая линия как по левому краю, так и по правому, легко проводить сравнение категорий на разных полюсах диапазона. Например, этот тип диаграммы можно применять для визуализации результатов опросов, собранных методом суммарных оценок, – по шкале Лайкерта (ее традиционно используют в опросах, где ответы ранжируются от «Категорически не согласен» до «Полностью согласен»), как показано на рис. 2.19.


Рис. 2.19 Линейчатая диаграмма с накоплением


23Z-паттерн – восприятие информации по траектории буквы Z. Так большинство западных людей изучает информацию, где текст не играет ключевой роли. Он подходит для простых дизайнов с минимумом текста, где есть несколько элементов, на которые необходимо обратить внимание аудитории. Когда текст играет главную роль, целесообразнее использовать F-паттерн (подразумевает движение глаз по траектории буквы F).
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17 
Рейтинг@Mail.ru