Аналитическая культура. От сбора данных до бизнес-результатов

Аналитическая культура. От сбора данных до бизнес-результатов
Карл Андерсон
МИФ БизнесСерия O’Reilly
Подробное пошаговое руководство по внедрению Data-driven-культуры в вашей компании – от сбора данных и наглядных отчетов до анализа и обоснованных решений.
Чтобы стать data-driven-компанией, недостаточно наладить сбор «больших данных» или собрать команду аналитиков. Нужна эффективная культура работы с данными, внедренная на всех уровнях.
Эта практичная книга покажет вам, какие процессы нужно внедрять повсеместно – от аналитиков и менеджмента до высшего руководства и совета директоров – чтобы создать такую культуру.
Карл Андерсон рассказывает о цепочке аналитической ценности, которая поможет вам строить предиктивные бизнес-модели – от сбора данных и анализа до идей и конкретных обоснованных действий.
• Начните с начала: узнайте, как собирать правильные данные правильным образом;
• Нанимайте аналитиков с правильными навыками и собирайте их в команды;
• Узнайте о статистических методах и инструментах визуализации данных;
• Собирайте и анализируйте данные, соблюдая конфиденциальность и этику;
• Узнайте, как аналитики и их менеджеры могут способствовать развитию data-driven-культуры.

Для кого эта книга
Для руководителей, менеджеров, аналитиков.

Карл Андерсон
Аналитическая культура. От сбора данных до бизнес-результатов

Научный редактор Руслан Салахиев
Издано с разрешения O’Reilly Media, Inc.

В тексте неоднократно упоминаются названия социальных сетей, принадлежащих Meta Platforms Inc., признанной экстремистской организацией на территории РФ.

Все права защищены.
Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.
© 2017 Mann, Ivanov and Ferber
Authorized Russian translation of the English edition of Creating a Data-Driven Organization,
ISBN 9781491916919 © 2015 Carl Anderson, published by O’Reilly Media, Inc.
This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same.
© Перевод на русский язык, издание на русском языке, оформление. ООО «Манн, Иванов и Фербер», 2017
* * *

Введение

Краткий обзор
Эта книга посвящена двум основным вопросам:
1) что означает для компании управление на основе данных?
2) как компания может к нему прийти?
Многие компании считают, что, если они генерируют множество отчетов или у них много дашбордов, значит, они относятся к категории компаний с управлением на основе данных. Хотя эти виды деятельности и составляют часть того, чем занимается компания, обычно они ретроспективны, то есть часто лишь представляют прошлые или настоящие факты без обеспечения достаточного контекста, без объяснения причинно-следственных связей, а также без рекомендаций, какие шаги предпринять. Иными словами, они фиксируют произошедшее, но ничего не предписывают. В этом отношении их потенциал роста ограничен.
В противовес следует рассматривать типы перспективного анализа, такие как прогнозные модели, которые способствуют оптимизации расходов на рекламу, пополнению цепочки поставок или снижению оттока покупателей. Они отвечают на вопросы «кто», «что», «когда», «почему» и «где». На основе моделей люди дают рекомендации, делают прогнозы и интерпретируют полученные данные. Часто они становятся ключевыми факторами роста в организациях с управлением на основе данных. Сформулированные на основе данных выводы и рекомендации, если их правильно использовать, оказывают огромное потенциальное влияние на эффективность деятельности компании.
Однако для получения подобных выводов требуется, чтобы были собраны правильные, заслуживающие доверия данные, анализ был проведен качественно, выводы учитывались при принятии решений, а решения подразумевали конкретные действия, чтобы потенциал был полностью реализован. Уф! Я называю эту последовательность от сбора данных до конечного результата аналитической цепочкой ценности.
Последний шаг в этой цепочке чрезвычайно важен. Аналитику нельзя считать основанной на данных, если полученная информация не учитывается при принятии решений и не вызывает последующих действий. Если данные игнорируются, а большой босс делает что пожелает, сбор этих данных не имеет смысла. Управление на основе данных осуществляется в компании при наличии правильных процессов и корпоративной культуры, чтобы дорабатывать или стимулировать важные деловые решения с учетом проведенного анализа данных, который таким образом оказывает непосредственное влияние на развитие бизнеса.
Ключевую роль играет создание соответствующей корпоративной культуры. Это многосторонняя программа, включающая качество данных и обмен информацией, прием на работу и обучение аналитиков, коммуникацию, аналитическую организационную структуру, разработку показателей, A/B-тестирование[1 - Метод маркетингового исследования, суть которого заключается в том, что контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей были изменены, для того чтобы выяснить, какие из изменений улучшаю целевой показатель. Прим. ред.], процессы принятия решений и многое другое. Эта книга поможет пролить свет на все эти понятия благодаря доступным объяснениям и наглядным примерам из целого ряда производственных отраслей. Кроме того, здесь приводятся практические советы и рекомендации от лидеров в области анализа и обработки данных. Надеюсь, эта книга вдохновит читателей на то, чтобы переориентировать свою деятельность и начать руководствоваться данными.
Более того, на протяжении всей книги подчеркивается важная роль, которая отводится самым разным специалистам в области обработки и анализа данных. Я убежден, что компанию с управлением на основе данных и соответствующую корпоративную культуру можно и нужно развивать не только сверху вниз – от руководства на места, – но и снизу вверх. Как отметил на форуме 2014 года Chief Data Officer Executive Forum руководитель направления по анализу и обработке данных компании Trulia Тодд Холлоуэй, «лучшие идеи подают сотрудники, наиболее тесно работающие с данными». Они не только напрямую имеют дело с источниками данных и способны оценить их качество и повлиять на него, не только понимают, как лучше всего их дополнить, но также «часто подают хорошие идеи по поводу товаров». Кроме того, они могут помочь повысить уровень знаний других сотрудников компании в этой области. Частично это происходит благодаря тому, что они развивают свои навыки и активно применяют их для качественного выполнения работы. Другая причина в том, что у них лучше развито предпринимательское мышление: они умеют задавать правильные вопросы и формулировать бизнес-проблемы, а затем убеждать в своих выводах и рекомендациях тех, от кого зависит принятие решения, предлагая им веское обоснование, какое влияние на бизнес способны оказать эти выводы и рекомендации.
А влияние и выгоды могут быть весьма заметными. Согласно результатам одного из отчетов[2 - Brynjolfsson E., Hitt L. M. and Kim H. H. Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance? Social Science Research Network (2011). URL: http://ebusiness.mit.edu/research/papers/2011.12_Brynjolfsson_Hitt_Kim_Strength in Numbers_302.pdf (http://ebusiness.mit.edu/research/papers/2011.12_Brynjolfsson_Hitt_Kim_Strength%20in%20Numbers_302.pdf).], в котором контролировались и другие факторы, в компаниях с управлением на основе данных производительность была на 5–6 % выше, чем в тех, что не практикуют подобное управление. К тому же в компаниях первой категории были выше показатель использования ресурсов, коэффициент рентабельности капитала и рыночная стоимость. Согласно данным другого отчета[3 - Nucleus Research. Analytics pays back $13.01 for every dollar spent. O204 (Boston, MA: Nucleus Research, 2014), 5. URL: http://nucleusresearch.com/research/single/analytics-pays-back-13-01-for-every-dollar-spent/ (http://nucleusresearch.com/research/single/analytics-pays-back-13-01-for-every-dollar-spent/).], возврат на каждый вложенный в проведение аналитики 1 долл. составляет 13,01 долл. Управление на основе данных окупается!
Ориентацию на использование данных можно представить в виде непрерывного процесса: компания всегда может повысить свой уровень управления на основе данных, улучшить качество собираемых данных и аналитического процесса, провести больше тестирований. Более того, всегда можно усовершенствовать качество процесса принятия решений. В этой книге мы обсудим отличительные черты эффективных компаний с управлением на основе данных. Мы остановимся на инфраструктуре, навыках, корпоративной культуре, необходимых для создания компании, где к данным относятся как к основному активу и используют их для принятия бизнес-решений. Кроме того, мы рассмотрим некоторые примеры поведения, которое, наоборот, мешает бизнесу максимально эффективно использовать получаемые данные.
Таким образом, цель этой книги – вдохновить специалистов по анализу и обработке данных в компаниях эффективно выполнять свои функции, время от времени делать паузу, чтобы ответить на вопросы, максимально ли использует компания свои данные и можно ли делать это еще эффективнее. Еще одна цель – стимулировать обсуждение: для каких еще целей возможно применение этого ключевого ресурса. Никогда не рано думать об этом. Основатели компании и руководство высшего звена должны постараться внедрить принципы управления на основе данных на самых ранних этапах развития организации. Давайте узнаем больше о том, что эти принципы собой представляют.

Для кого эта книга?
Информация, здесь изложенная, поможет разработать программу внутренней аналитики и управлять ею: принимать решения, какие данные собирать и хранить, как их получать и интерпретировать, и самое важное – как действовать на их основе.
Неважно, единственный ли вы специалист по анализу и обработке данных в стартапе (и притом вынуждены выполнять еще с десяток других функций) или руководитель отдела с кучей подчиненных в зрелой компании. Если вы работаете с данными и стремитесь действовать быстрее, рациональнее и эффективнее, эта книга поможет создать не просто аналитическую программу, а соответствующую корпоративную культуру.

Структура глав
Cтруктура книги соответствует этапам создания цепочки аналитической ценности. Первые главы посвящены непосредственно данным, в частности выбору правильных источников, обеспечению качества и достоверности. Следующий шаг в этой цепочке – анализ данных. Для качественного выполнения анализа, результаты которого можно будет эффективно использовать в дальнейшей работе, нужны профессионалы, владеющие определенными навыками и инструментами. Для обозначения этой группы сотрудников намеренно используется общий термин «специалисты по аналитической работе», который объединяет сотрудников, занимающихся сбором, обработкой, анализом данных. Это сделано на основании убеждения, что любой член команды – от младшего аналитика без опыта работы до суперзвезды в области анализа данных – вносит свою лепту в общее дело. Мы подробнее остановимся на том, какими компетенциями должен обладать хороший аналитик, как можно развивать профессиональные навыки в этой области, а также на организационных аспектах – как помочь специалисту по аналитической работе стать частью команды или подразделения. Следующие главы посвящены непосредственно аналитической работе: выполнению анализа, разработке показателей, A/B-тестированию и рассказыванию истории. Затем мы перейдем к следующему этапу в цепочке аналитической ценности – принятию решений на основе результатов анализа. Мы рассмотрим, что может затруднять процесс принятия решения и как с этим бороться.
На протяжении всей книги прослеживается основная мысль: суть процесса управления компанией на основе данных не сводится к данным как таковым или к обладанию самым современным набором инструментов по работе с большими данными. Самое важное в этом – корпоративная культура. Культура организации – доминирующий фактор, который устанавливает ожидания относительно того, насколько демократичным будет процесс работы с данными, как эти данные станут использоваться внутри организации, какие ресурсы, в том числе образовательные, станут инвестироваться в использование данных как стратегического актива компании. По этой причине в главе, посвященной корпоративной культуре, мы объединим все уроки, извлеченные на разных этапах цепочки аналитической ценности. В одной из последних глав обсудим роль двух относительно новых позиций в высшем руководстве компаний: CDO (Chief Data Officer, директор по управлению данными) или CAO (Chief Analytics Officer, директор по аналитике). Тем не менее рядовые сотрудники тоже в значительной мере влияют на формирование корпоративной культуры организации, поэтому на протяжении книги мы будем напрямую обращаться к специалистам по работе с данными, подчеркивая, что именно они способны сделать для повышения своего влияния на эффективность деятельности компании. В компании, для которой управление на основе данных не просто модная тенденция, сотрудники на всех уровнях уделяют большое внимание качеству данных и их оптимальному использованию при принятии взвешенных решений и для повышения конкурентного преимущества компании.

Условные обозначения
В книге используются следующие условные обозначения.

Выделение курсивом
Применяется для обозначения новых терминов, адресов сайтов (URL), адресов электронной почты, имен файлов и расширений файлов.

Моноширинный шрифт
Применяется для обозначения программных элементов, таких как переменные, названия функций, базы данных, типы данных, переменные окружения, утверждения и ключевые слова.

Моноширинный шрифт с полужирным выделением
Применяется для обозначения команд или другого текста, который должен внести пользователь.

Моноширинный шрифт с курсивом
Применяется для обозначения текста, который нужно заменить переменными пользователя или переменными, которые определяются контекстом.


Этот элемент обозначает совет или рекомендацию.


Этот элемент обозначает общую информацию.

Глава 1. Что значит «на основе данных»?
Без данных вы просто еще один человек с собственным мнением.
    Уильям Эдвардс Деминг[4 - Уильям Эдвардс Деминг (William Edwards Deming, 1900–1993) – американский ученый, статистик и консультант по менеджменту. Создатель теории менеджмента, основанной на предложенной им же теории глубинных знаний. Прим. перев.]
Управление на основе данных подразумевает формирование инструментов, способностей и, что самое важное, корпоративной культуры, которая опирается на данные. В этой главе мы рассмотрим, что отличает компанию с управлением на основе данных. Начнем с базовых требований к их сбору и доступности. Затем остановимся подробнее на весьма важном отличии – подготовке отчетов и получении оповещений в противовес процессу анализа. Существует много различных типов перспективного анализа, отличающихся по степени сложности. Мы уделим некоторое время изучению этих типов с точки зрения их «уровня аналитики» и «аналитической зрелости», а также обсудим основные признаки «аналитически зрелой» организации. Какой она должна быть?
Начнем с ответа на первый вопрос: что означает для компании управление на основе данных?

Сбор данных
Давайте сразу озвучим несколько очевидных требований.
Требование № 1: в компании должен осуществляться сбор данных.
Несомненно, данные – ключевой компонент. При этом речь идет не о любых данных, а о правильных. Необходимо, чтобы набор данных соответствовал вопросу, который требуется решить. Помимо этого, данные должны быть своевременными, точными, чистыми, объективными, и, что важнее всего, они должны заслуживать доверия.
Это не так-то просто. Данные никогда не бывают настолько чистыми, как вам кажется. Они могут быть предвзятыми, что может повлиять на результат анализа, а очистка данных может стать трудоемким и дорогим процессом, требующим времени. Часто приходится слышать, что специалисты по работе с данными до 80 % времени тратят на их сбор, очистку и подготовку и только 20 % – на построение моделей, процесс анализа, визуализацию и формулировку заключений на основе этих данных[5 - См., например: http://bit.ly/nyt-janitor (http://bit.ly/nyt-janitor) и http://bit.ly/im-data-sci (http://bit.ly/im-data-sci).]. Как показывает опыт, это вполне вероятно.
В следующей главе мы поговорим о качестве данных подробнее.
Даже если у вас есть действительно качественные данные и даже если у вас много качественных данных, это означает только то, что вы обладаете этими данными, но не то, что в вашей компании действует управление на основе данных. Некоторые люди, особенно специалисты организаций, предоставляющих услуги по работе с большими данными, называют большие данные практически панацеей: если собирать абсолютно всё, где-то должен попасться алмаз (или крупинки золота, или искомая иголка, или любая другая метафора) и компания станет успешной. Горькая правда в том, что одних только данных недостаточно. Небольшое количество чистой, достоверной информации может быть гораздо более ценно, чем петабайты мусора.

Доступ к данным
Требование № 2: данные должны быть общедоступными.
Наличие точных и своевременных данных по теме еще не делает управление в вашей компании управлением на основе данных. Данные также должны отвечать еще ряду требований.
Данные могут быть объединены
Их формат должен при необходимости допускать объединение с другими данными компании. Варианты могут быть разные: реляционные базы данных, хранилища NoSQL или Hadoop. Используйте инструмент, который отвечает вашим конкретным требованиям. Например, в течение длительного времени финансовые аналитики в компании Warby Parker использовали Excel для вычисления основных показателей, которые они предоставляли высшему руководству. Они собирали огромное количество сырых данных из разных источников и запускали функцию ВПР (VLOOKUP – функцию в Excel для поиска перекрестных ссылок в данных), чтобы объединить весь массив данных и взглянуть на них в перспективе. Изначально это работало, но по мере того как базы данных по клиентам и продажам быстро росли и информации становилось все больше, объем файла в Excel начал приближаться к 300 МВ, загрузка оперативной памяти компьютеров была максимальной, а обработка файла с помощью функции ВПР начала занимать до десяти часов и больше, при этом программа периодически зависала, и ее приходилось запускать заново. Специалисты компании применяли этот инструмент и подход так долго, как могли, но если когда-то Excel была вполне удобным инструментом, то динамичный рост компании изменил ситуацию. Механика получения этих данных превратилась для аналитиков в «пожиратель времени» и источник стресса: они никогда не знали, получат ли необходимые им данные или через десять часов им вновь придется перезапускать функцию ВПР. Условно говоря, из специалистов по анализу данных они превратились в специалистов Microsoft по сбору данных. Моя команда помогла перенести весь массив информации в реляционную базу данных в MySQL. Мы написали запросы для обработки данных для аналитиков, чтобы они могли сосредоточиться на анализе, выявлении трендов и презентации этих данных, что было гораздо более эффективным использованием их рабочего времени. Теперь, когда в их распоряжении более эффективные инструменты и больше времени, они способны проводить более глубокий анализ.
Данные можно использовать совместно
Внутри организации следует развивать культуру обмена данными, чтобы была возможность их сопоставлять и объединять, например связать историю поисковых запросов пользователя и историю осуществленных им покупок. Представим ситуацию: пациента доставили в отделение экстренной медицинской помощи, где ему оказали первую помощь, а затем выписали, и теперь ему необходимо обратиться за амбулаторным лечением и провести обследования. Очевидно, что качество обслуживания и, что важнее, качество лечения пострадают, если между этими медицинскими учреждениями не будет организован обмен информацией: когда и по какой причине пациент обратился за медицинской помощью, какое лечение ему было оказано и так далее. С точки зрения представителей здравоохранения, невозможно проанализировать или улучшить процесс в отсутствие связной и четкой картины потока пациентов, процесса диагностики и полных данных наблюдения за этими пациентами за длительный срок. Таким образом, разрозненные данные всегда стараются охватить все, что возможно. Когда больший объем данных доступен для большего количества частей системы, целое всегда бывает лучше суммы частей.
Доступны по запросу
Необходимы адекватные инструменты для работы с данными и предоставления информации по запросу. В процессе анализа и составления отчетности огромный объем сырых данных необходимо отфильтровать, сгруппировать и объединить в небольшие наборы высокоуровневых показателей, чтобы обеспечить понимание того, что происходит в бизнесе. Например, мне нужно увидеть тренд или понять разницу между сегментами покупателей. У специалистов по работе с данными должны быть инструменты, позволяющие сделать это относительно просто.

(Все эти аспекты мы подробнее проанализируем в следующих главах.)
Итак, теперь у нас есть данные и доступ к ним. Достаточно ли этого? Нет, пока недостаточно. Нужны квалифицированные специалисты, которые смогут работать с этими данными. И здесь важны не только механизмы сортировки и систематизации данных, например посредством языка запросов или макросов Excel, но, главным образом, специалисты, которые будут выбирать соответствующие показатели (подробнее об этом в главе 6). К этим показателям могут относиться уровень повторной подписки (для таких сервисов, как Netflix или Wall Street Journal), долгосрочные показатели ценности или показатели роста, но в любом случае кто-то должен решать, какие именно это будут показатели, и кто-то должен создать процесс их получения.
Таким образом, человеческий фактор в управлении компанией на основе данных – важнейший: необходимы люди, способные задавать правильные вопросы, люди с необходимыми навыками для получения нужных данных и показателей, люди, использующие данные для планирования следующих шагов. Иными словами, одни лишь данные мало чем помогут компании.

Составление отчетности
Предположим, у вас есть аналитическая группа с доступом к точным данным. Эта группа получает данные по объему продаж и гордо рапортует о росте портфеля заказов компании на 5,2 % с апреля по май (рис. 1.1).


Рис. 1.1. Рост уровня продаж на 5,2 % месяц к месяцу!

Кажется, что в компании осуществляется управление на основе данных. Однако этого по-прежнему недостаточно. Разумеется, хорошо, что специалисты отслеживают данные по продажам. Генерального и финансового директоров эти цифры, несомненно, заинтересуют. И тем не менее – о чем на самом деле говорит показатель 5,2 %? Практически ни о чем. Возможны самые разные причины роста объема продаж компании.
• Предположим, вы продаете сезонный товар, например купальные костюмы. Может быть, рост в 5,2 % – это гораздо ниже, чем обычно. Может быть, в предыдущие годы рост объема продаж в мае составлял более 7 %, а в этом году он ниже обычного.
• Возможно, директор по маркетингу потратил кучу денег на национальную кампанию по повышению узнаваемости бренда. Какой процент роста из этих 5,2 % обусловлен проведенной кампанией? Насколько эффективным оказалось подобное вложение средств?
• Может быть, генерального директора вашей компании пригласили поучаствовать в телешоу Good Morning America[6 - Good Morning America («Доброе утро, Америка») – американское телевизионное шоу, которое транслируется по утрам на канале ABC. Выходит в эфир с 1975 г. Прим. ред.], или ваш продукт был упомянут в Techcrunch[7 - Techcrunch – сайт и одноименная компания, блог, описывающий продукты, стартапы и другие сайты, основанный Майклом Аррингтоном в 2005 г. Прим. ред.], или ваше видео стало «вирусным», и это послужило фактором роста продаж. То есть причина – какое-то конкретное событие, способное обеспечить временный или устойчивый рост.
• Возможно, продажи за месяц характеризуются низким объемом и широким ассортиментом. Возможно, это было лишь удачным стечением обстоятельств, а общая тенденция – нисходящая. (Если вы когда-нибудь пробовали играть на бирже, то понимаете, о чем речь.)
• Может быть, ошибка в самих данных. Если уровень продаж относительно стабилен и вы видите резкий скачок без каких-либо предпосылок к тому, возможно, все дело в качестве данных.
Все это возможные объяснения. Цифра в отчете представляет собой именно это – числовой показатель без контекста.

«По мере того как компании становятся все более крупными и сложноорганизованными, руководство все меньше зависит от личного опыта и все больше – от обработанных данных». – Джон Гарднер
Джон Маэда (@johnmaeda (https://twitter.com/johnmaeda))
16 августа 2014 года[8 - URL: http://bit.ly/maeda-gardner (http://bit.ly/maeda-gardner).]

Оповещения
Дзынь, дзынь, дзынь! Загрузка CPU (ЦП) на сервере приложений № 14 за последние пять минут превысила 98 %.
Оповещения фактически представляют собой отчеты о том, что происходит в настоящее время. Обычно они обеспечивают конкретные данные в рамках тщательно разработанных показателей. К сожалению, как и отчеты, они не сообщают, почему наблюдается рост загрузки ЦП, и не говорят, что следует предпринять прямо сейчас для решения проблемы, то есть они не дают важного контекста.
Нет причинно-следственного объяснения. Это момент, когда системные администраторы или инженеры по эксплуатации начинают изучать журнал регистрации событий, чтобы понять, что происходит, почему и как это исправить: сделать откат назад, раскрутить дополнительные серверы, перенастроить выравниватель нагрузки и так далее.
На рис. 1.2 приведен пример загрузки сервера. С небольшими вариациями на протяжении дня очередь выполнения составляет 0,5 или меньше. В час ночи загрузка начинает расти и за 30 минут увеличивается до пяти и выше, в десять раз по сравнению с «нормой». Ситуация нестандартная. Что происходит? Возможно, требуется вмешательство? Но что нужно сделать?


Рис. 1.2. Пример загрузки сервера
Источник: https://blog.bigwetfish.hosting/we-got-your-back/ (https://blog.bigwetfish.hosting/we-got-your-back/)

В данном случае это всего лишь еженедельное резервное копирование данных. Оно осуществляется каждый четверг в час ночи. Это абсолютно штатная ситуация. Мы имеем четкие данные и ясно представленные показатели. Нет только контекста: что причина повышения загрузки – резервное копирование данных, что оно ожидаемо и запланированно происходит в определенное время и что сервер спокойно справляется с этой загрузкой.

От отчетов и оповещений к анализу
Составление отчетов и получение оповещений – необходимые факторы управления на основе данных, но этого недостаточно. Хотя не стоит недооценивать важность двух этих видов деятельности. Подготовка отчетов чрезвычайно важна для управления на основе данных: компания не сможет быть эффективной без этого элемента. А вот обратное не обязательно верно: существует множество организаций, сосредоточенных на отчетности, у которых может не быть качественного анализа. Составление отчетности может быть вызвано официальными требованиями, например необходимостью исполнения закона Сарбейнза – Оксли[9 - Закон от 30 июля 2002 года, названный по именам его разработчиков и инициаторов: сенатора-демократа Пола Сарбейнза и конгрессмена-республиканца Майка Оксли. В соответствии с этим законом значительно ужесточились требования к финансовой отчетности. Прим. ред.] и подготовки отчетов о прибыли для акционеров, а не внутренним стремлением к повышению эффективности бизнеса.
Данные отчетов информируют, что произошло в прошлом. Кроме того, они могут быть тем фундаментом, с которого можно наблюдать за изменениями и тенденциями. Они могут представлять интерес для инвесторов и акционеров, но в целом это ретроспективный взгляд на ситуацию. Для управления на основе данных нужно двигаться дальше. Необходимо прогнозировать развитие ситуации, на основе анализа стараться понять, почему меняются показатели, и, где возможно, проводить эксперименты для сбора данных, которые могут помочь понять причины.
Давайте сравним два этих понятия. Вот варианты их возможных определений.
Отчетность – процесс организации данных в информационные сводки для отслеживания того, как функционируют разные сферы бизнеса[10 - Dykes B. Reporting vs. Analysis: What’s the Difference? Digital Marketing Blog, October 19, 2010. URL: https://blogs.adobe.com/digitalmarketing/analytics/reporting-vs-analysis-whats-the-difference/ (https://blogs.adobe.com/digitalmarketing/analytics/reporting-vs-analysis-whats-the-difference/).].
Анализ — преобразование данных в выводы, на основе которых будут приниматься решения и осуществляться действия с помощью людей, процессов и технологий[11 - Faria M. Acting on Analytics: How to Build a Data-Driven Enterprise. BrightTALK, September 11, 2013. URL: https://www.brighttalk.com/webcast/1829/80223 (https://www.brighttalk.com/webcast/1829/80223).].
Отчет показывает, что произошло: в четверг в 10:03 на сайте наблюдалось максимальное число посетителей – 63 000 человек. Он дает конкретные цифры.
Анализ показывает, почему это произошло: в 10:01 о компании упомянули в ТВ-шоу 60 Minutes, – и рекомендует, что компании следует делать, чтобы оставаться примерно на этом же уровне.
Отчеты ретроспективны, анализ дает рекомендации.
В табл. 1.1 суммированы отличия между этими понятиями. Теперь должно быть очевидно, почему анализ и управление на основе данных – настолько важный компонент ведения бизнеса. Это факторы, способные дать компании новые направления развития или вывести ее на новый уровень эффективности.

Таблица 1.1. Основные характеристики отчета и анализа

Источник: взято преимущественно у Б. Дайкса

Полезно для понимания аналитики ознакомиться с работой Т. Дэвенпорта и др. (см. табл. 1.2)[12 - Davenport T. H., Harris J. G. and Morison R. Competing on Analytics. Boston: Harvard Business Press, 2010.].

Таблица 1.2. Гипотетические основные вопросы, на которые отвечает аналитика, по Дэвенпорту (на основе работы Дэвенпорта и др., 2010). Пункт D представляет собой ценную аналитику, пункты E и F обеспечивают управление на основе данных, если эта информация стимулирует конкретные действия (подробнее об этом ниже).


В нижнем ряду таблицы отражены действия, приводящие к выводам. Как уже отмечалось ранее, составление отчетов (А) и оповещение (В) – не управление на основе данных: они отмечают, что уже произошло или что необычное или нежелательное происходит сейчас, но при этом не дают объяснений, почему это произошло или происходит, и не дают рекомендаций по улучшению ситуации. Предвестником управления на основе данных служит дальнейшее изучение причинно-следственных связей с помощью моделей или экспериментов (D). Только понимая причины произошедшего, можно сформулировать план действий или рекомендации (Е). Пункты E и F обеспечивают управление на основе данных, но только если полученная информация стимулирует конкретные действия.
(Пункт С представляет собой опасную зону, поскольку слишком велик соблазн распространить существующий тренд на будущее: в Excel выберите «Диаграмма» (Chart), нажмите «Добавить линию тренда» (Add trendline) – и вот вы уже экстраполировали текущие данные на другие ячейки и делаете необоснованные прогнозы. Даже при обдуманном выборе функциональной формы модели может быть множество причин, почему этот прогноз ошибочен. Для уверенности в прогнозах следует использовать модель учета причинно-следственных связей. Подробнее об этом типе анализа – в главе 5.)
Итак, в нижнем ряду таблицы отражены перспективные виды деятельности, включающие элементы причинно-следственного объяснения. Теперь мы переходим к тому, что означает управление на основе данных.

Критерии управления на основе данных
Для компаний с управлением на основе данных характерны виды деятельности, перечисленные ниже.
• Эти компании постоянно проводят различные тестирования, например A/B-тестирование на сайте или тестирование заголовков в электронной рассылке маркетинговой кампании. Социальная сеть LinkedIn, например, проводит до 200 тестирований в день, сайт электронной коммерции Etsy одновременно может проводить до десяти тестирований. Тестирование иногда проводится непосредственно с участием конечных пользователей, чтобы компания могла получить прямую обратную связь относительно потенциальных новых характеристик или новых продуктов.
• Тестирования направлены на постоянное совершенствование деятельности компании и ее сотрудников. Это может быть постоянная оптимизация основных процессов, например сокращение производственного процесса на несколько минут или снижение цены за конверсию, что становится возможным благодаря тщательному анализу, специально разработанным математическим или статистическим моделям и симуляции.
• Компании могут заниматься прогнозным моделированием, прогнозированием объема продаж, курса акций или выручки, но, что самое важное, они используют собственные прогнозные ошибки для улучшения своих моделей (см. главу 10 (#litres_trial_promo)).
• Практически всегда они выбирают среди будущих вариантов или действий на основе набора взвешенных показателей.
Ресурсы всегда конечны, и всегда есть аргументы за и против разных рациональных способов действий. Для принятия окончательного решения необходимо собрать данные для каждого набора показателей, которые тревожат или интересуют компанию, и определить их значимость. Например, когда компания Warby Parker собиралась открывать первый офис за пределами Нью-Йорка, то комплексно рассматривала и оценивала целый ряд переменных в отношении нового места: индекс благополучия Gallup (Well-being index), кадровый потенциал, прожиточный уровень, стоимость билетов до Нью-Йорка и так далее. Марисса Майер (CEO компании Yahoo!) делилась похожей историей: как она выбирала между разными предложениями о работе и приняла решение работать в компании Google[13 - Bosker B. Google Exec Marissa Mayer Explains Why There Aren’t More Girl Geeks. The Huffington Post, July 6, 2011. URL: http://www.huffingtonpost.com/2011/07/06/google-marissa-mayer-women-in-tech_n_891167.html (http://www.huffingtonpost.com/2011/07/06/google-marissa-mayer-women-in-tech_n_891167.html).].
Компания с управлением на основе данных будет делать хотя бы что-то из перечисленного, что направлено на будущее и имеет акцент на данных.
Итак, у нас в компании есть качественные данные и квалифицированные специалисты по работе с этими данными, которые занимаются деятельностью, направленной на перспективу. Теперь-то нас можно назвать компанией с управлением на основе данных?
К сожалению, не совсем. Это все равно что в лесу падает дерево, но никто этого не слышит. Если специалисты по работе с данными проводят анализ, но никто не обращает на него внимания, и если результаты этого анализа никак не отражаются на процессе принятия решений в компании, то это нельзя считать управлением на основе данных. Специалисты по работе с данными должны информировать тех, кто принимает решения, и последние должны делать это, учитывая результаты работы аналитиков.
Дайкс предлагает термин «аналитическая цепочка ценности» (см. рис. 1.3). Данные ложатся в основу отчетов, которые будут способствовать проведению более глубокого анализа. Результаты анализа предоставляются лицам, принимающим решения, и процесс принятия решений строится на их основе. Это ключевой шаг. Данные и результаты анализа, о которых идет речь, требуются для принятия решения, способного повлиять на стратегию или тактику компании или ее развитие.


Рис. 1.3. Аналитическая цепочка ценности (по Дайксу, 2010). В компании с управлением на основе данных данные ложатся в основу отчетов, способствующих проведению более глубокого анализа. Результаты анализа влияют на процесс принятия решений, определяющий направление, в котором движется компания, и обеспечивающий ценность
Источник: https://blogs.adobe.com/digitalmarketing/analytics/reporting-vs-analysis-whats-the-difference/ (https://blogs.adobe.com/digitalmarketing/analytics/reporting-vs-analysis-whats-the-difference/)

Технологии и обучение могут обеспечить первую часть плана: помочь специалистам по работе с данными с проведением анализа и представить результаты этого анализа. Однако именно от корпоративной культуры компании зависит, обратят ли на данные и результаты анализа внимание, будут ли им доверять и предпринимать на их основе конкретные действия.
Наконец мы добрались до самого важного аспекта, определяющего управление на основе данных. Для компании с управлением на основе данных именно данные – основной фактор, обусловливающий стратегию и влияющий на нее. В такой компании формируется конструктивная корпоративная культура, при которой данным доверяют, а результаты анализа бывают высокозначимыми, информативными и используются для определения следующих шагов.
В этом-то и заключается сложность. Если решения в компании принимаются на основе интуиции, как вывести ее на уровень управления на основе данных? Это процесс нелегкий и небыстрый, поэтому не стоит ожидать мгновенных изменений, однако все сотрудники компании могут внести свой вклад в этот процесс. Мы рассмотрим несколько способов, как стимулировать развитие в компании управления на основе данных.

Зрелость аналитических данных
В 2009 году Джим Дэвис, старший вице-президент и директор по маркетингу SAS Institute, выделил восемь уровней аналитических данных[14 - SAS, Eight Levels of Analytics (Cary, NC: SAS Institute, Inc., 2008), 4. URL: https://www.sas.com/en_us/news.htmlsascom/analytics_levels.pdf (https://www.sas.com/en_us/news.htmlsascom/analytics_levels.pdf).].

Стандартные отчеты
Что произошло? Когда произошло? Например, ежемесячные финансовые отчеты.

Ad hoc[15 - Латинская фраза, означающая «к этому, для данного случая, для этой цели». В данном контексте – специальные отчеты для исследования какой-то конкретной темы. Прим. науч. ред.]отчеты
Как много? Как часто? Например, специальные отчеты.

Детализация по запросу (или интерактивная аналитическая обработка, OLAP)
В чем конкретно проблема? Как найти ответы? Например, исследование данных о типах сотовых телефонов и поведении их пользователей.

Оповещения
Когда нужно действовать? Какие действия нужно предпринять немедленно? Например, загрузка ЦП, о которой говорилось ранее.

Статистический анализ
Почему это происходит? Какие возможности я упускаю? Например, почему все больше клиентов банков перекредитовываются для выплаты ипотеки.

Прогнозирование
Что, если этот тренд продолжится? Какой объем потребуется? Когда он потребуется? Например, компании, работающие в розничной торговле, могут прогнозировать спрос на продукты в зависимости от магазина.

Прогнозное моделирование
Что произойдет дальше? Как это повлияет на бизнес? Например, казино прогнозируют, кто из VIP-посетителей будет больше заинтересован в конкретных пакетных предложениях по отдыху.

Оптимизация
Как улучшить наши процессы? Какое решение сложной проблемы будет самым эффективным? Например, каков лучший способ оптимизировать ИТ-инфраструктуру с учетом многочисленных конфликтующих ограничений с точки зрения бизнеса и ресурсов?

Представленные идеи формируют график из книги Дэвенпорта и Харриса Competing on Analytics (2006)[16 - Издана на русском языке: Дэвенпорт Т., Харрис Д. Аналитика как конкурентное преимущество. Новая наука побеждать. М.: BestBusinessBooks, 2010. Прим. ред.],[17 - Несмотря на то что книга Дэвенпорта и Харриса появилась на два года раньше, этот источник называют «адаптация графика, сделанного компанией SAS».], как показано на рис. 1.4.


Рис. 1.4. «Бизнес-информация и аналитика» из книги Дэвенпорта и Харриса Competing on Analytics
Источник: HBR Press, ранее взято из уровней аналитических данных Джима Дэвиса

(Как видите, табл. 1.2 (#table1-2) основана на этом графике. Можно соотнести первые четыре уровня графика с верхним рядом таблицы, а вторые четыре – с нижним рядом.)
Мне нравится общая концепция и названия. Однако, исходя из того, как Дэвис (2009) и Дэвенпорт и Харрис (2007) представили свои идеи, особенно с большой восходящей стрелой, можно интерпретировать эти уровни как последовательность, своего рода иерархию, где подняться на следующий уровень можно только при условии прохождения предыдущего.
Эту псевдопрогрессию часто называют зрелостью аналитических данных. Если забьете в поисковую строку Google ключевые слова «analytics maturity», то поймете, что я имею в виду. Многочисленные специалисты представляют этот график как набор последовательных шагов для достижения цели, где односторонние стрелки указывают переход на новый уровень.
Аналитическая работа отличается от этого представления: в одно и то же время разные подразделения компании могут проводить анализ разной степени сложности.
Рон Шевлин рационально отмечает[18 - Shevlin R. The Eight Levels Of Analytics? The Financial Brand, October 27, 2009. URL: https://thefinancialbrand.com/46761/the-eight-levels-of-analytics/ (https://thefinancialbrand.com/46761/the-eight-levels-of-analytics/).]:

С точки зрения возможностей нет причин, почему компания не может прогнозировать, например, объем продаж («уровень» 6), не зная, в чем конкретно «проблема» с продажами («уровень» 3)… Но как я, будучи руководителем, должен отвечать на вопрос «Какие действия нужно предпринять немедленно?» без понимания «Что будет, если этот тренд продолжится?» и «Что произойдет дальше?» («уровни» 6 и 7)?
Мне кажется, верный способ интерпретации – подумать о том, что максимальный уровень развития аналитики в компании положительно коррелирует с уровнем инвестиций в аналитику, использованием данных и прочими составляющими аналитической конкурентоспособности, о которой говорят Дэвенпорт и Харрис. Например, если аналитическая команда состоит из кандидатов и докторов наук, перед которыми поставлена задача оптимизировать глобальную цепочку сбыта, очевидно, что компания серьезно инвестирует в направление работы с данными. Если в компании принято работать только с оповещениями и специальными отчетами, значит, она в меньшей степени инвестирует в аналитическое направление и для нее в меньшей степени характерно управление на основе данных.
Можно предположить, что более сложная аналитика по умолчанию лучше и что она способна сделать компанию более конкурентоспособной. Так ли это на самом деле? В интереснейшем исследовании[19 - LaValle S., Hopkins M. S., Lesser E., Shockley R., Kruschwitz N. Analytics: The New Path to Value. MIT Sloan Management Review, October 24, 2010. URL: http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/ (http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/).], проведенном MIT Sloan Management Review совместно с IBM Institute for Business Value, были опрошены 3 тыс. руководителей и специалистов по работе с данными в 30 отраслях: как они используют аналитическую работу и что думают о ее ценности?
Один из вопросов касался конкурентного положения компании на рынке, и для него были предложены четыре ответа:
1) значительно лучше, чем у других компаний отрасли;
2) несколько лучше, чем у других компаний отрасли;
3) наравне с другими компаниями;
4) несколько или значительно хуже, чем у других компаний отрасли.
Компании, выбравшие первый и четвертый варианты ответов, считались лидерами и аутсайдерами отрасли соответственно. Что интересно, от аутсайдеров компании-лидеры отличались следующим:
• в пять раз чаще использовали аналитику;
• в три раза чаще использовали продвинутую аналитику;
• в два раза чаще использовали аналитику для управления своей операционной деятельностью;
• в два раза чаще использовали аналитику для составления стратегий будущего развития.

Несомненно, есть факторы, осложняющие эту методологию. Во-первых, так называемая ошибка выжившего[20 - Систематическая ошибка выжившего (англ. survivorship bias) – разновидность систематической ошибки отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») – практически нет. Так как исследователи пытаются искать общие черты среди «выживших», то упускают из виду, что не менее важная информация скрывается среди «погибших». Прим. перев.]. Во-вторых, корреляция между успешностью компании и ее размером (насколько известно, выручка компаний, участвовавших в опросе, была в диапазоне от менее 500 млн до более чем 10 млрд долл.). Возможно, только у более крупных и более успешных организаций имелось достаточно ресурсов на создание и обеспечение функций аналитических отделов, способных на разработку моделей для имитационного моделирования цепочки поставок. Тем не менее все пришли к единому мнению, что более качественная и глубокая аналитика повышает ценность бизнеса.
Авторы исследования выделили три уровня аналитических возможностей: желательный, опытный, преобразованный. Их краткие характеристики приведены в табл. 1.3.

Таблица 1.3. Уровни аналитических возможностей: желательный, опытный, преобразованный

Источник: взято и изменено: http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/ (http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/)

От организаций, находящихся на желательном уровне, организации, находящиеся на преобразованном уровне, отличаются тем, что в них:
• в четыре раза выше вероятность качественного отбора информации;
• в девять раз выше вероятность качественной обработки информации;
• в восемь раз выше вероятность качественного анализа;
• в десять раз выше вероятность качественного распространения информации;
• на 63 % чаще используют централизованные аналитические отделы в качестве основного источника аналитических данных (об аналитических организационных структурах речь пойдет в главе 4).
Конечно, в этом случае также наблюдается сложное взаимодействие между причинами и следствием, но взаимосвязь между конкурентным положением компании на рынке относительно других игроков и уровнем аналитической работы, проводящейся в ней, очевидна.
Так что же тогда мешает компаниям активно применять аналитические инструменты? Два из трех наиболее распространенных ответов на этот вопрос – недостаток понимания, как использовать аналитические данные, и недостаток навыков аналитической работы внутри компании (см. рис. 1.5).


Рис. 1.5. Ответы на вопрос «Что становится основным препятствием для активного использования информации и аналитических данных в вашей компании?»

В этих ответах перечислены причины, с которыми может справиться любой специалист-аналитик. Например, аналитики могут помочь сотрудникам «прокачать» необходимые навыки, и они сами могут более активно доносить ценность аналитической работы до руководителей. Они могут проводить больше исследований и приводить практические примеры, как другим компаниям удалось справиться с похожими трудностями в бизнесе при помощи аналитики. Руководители специалистов по сбору и обработке данных могут выделить ресурсы на улучшение качества данных, чтобы они ни у кого не вызывали сомнения. Руководители высшего звена могут стимулировать увеличение обмена данными внутри компании, а также отдельно назначить человека, отвечающего за это направление, например CAO или CDO (подробнее об этом в главе 11 (#litres_trial_promo)). В этом процессе каждый играет свою роль.

Краткий обзор
На всех этих аспектах мы остановимся подробнее в следующих главах. Во-первых, мы изучим сырые и агрегированные данные и их качество (глава 2 (#glava2) и глава 3 (#litres_trial_promo)). Затем перейдем к аналитическим структурам: какими могут быть специалисты по аналитической работе, какими навыками они должны обладать, как должен быть организован аналитический отдел (глава 4 (#litres_trial_promo)). Мы остановимся на аспектах анализа данных (глава 5 (#litres_trial_promo)), разработки показателей (глава 6 (#litres_trial_promo)) и рассказывании историй с помощью данных (глава 7 (#litres_trial_promo)). В главе 8 (#litres_trial_promo) речь пойдет о A/B-тестировании. Мы поговорим о корпоративной культуре и процессе принятия решений, которые представляют собой важные признаки компании с управлением на основе данных (глава 9 (#litres_trial_promo) и глава 10 (#litres_trial_promo)). Мы покажем, что изменения в корпоративной культуре и оперативном управлении возможны только благодаря руководителям, которые используют в своей работе принципы управления на основе данных. В частности, мы поговорим о трех новых управленческих позициях: CDO, Chief Digital Officer[21 - Эту позицию принято обозначать аббревиатурой CDO, но мы будем давать ее полностью во избежание путаницы. Аббревиатуру CDO будем использовать для позиции Chief Data Officer. Прим. ред.] (директор по цифровым технологиям) и CAO (глава 11 (#litres_trial_promo)). Глава 12 (#litres_trial_promo) будет посвящена вопросам этики и тому, как компания, уважающая персональные данные, может ограничить их использование. В конце мы дадим общее заключение.

Глава 2. Качество данных
80 % времени я трачу на очистку данных. Качественные данные всегда выигрывают у качественных моделей.
    Томсон Нгуен[22 - Томсон Нгуен (Thomson Nguyen) – основатель и СЕО (высшая исполнительная должность в компании; в российской иерархии аналог генерального директора) компании Framed Data, которая занимается различными проблемами данных в аналитике, инфраструктуре и машинном обучении для бизнеса и некоммерческих организаций. Прим. перев.]
Данные – это фундамент, на котором держится компания с управлением на основе данных.
Если люди, принимающие решения, не располагают своевременной, релевантной и достоверной информацией, у них не остается другого выхода, как только положиться на собственную интуицию. Качество данных – ключевой аспект.


В этой главе понятие «качество» употребляется в самом широком смысле и рассматривается преимущественно с точки зрения аналитической работы.

Специалистам-аналитикам нужны правильные данные, собранные правильным образом и в правильной форме, в правильном месте, в правильное время. (Они просят совсем не много.) Если какое-то из этих требований не выполнено или выполнено недостаточно хорошо, у аналитиков сужается круг вопросов, на которые они способны дать ответ, а также снижается качество выводов, которые они могут сделать на основании данных.
Эта и следующая главы посвящены обширной теме качества данных. Во-первых, мы обсудим, как обеспечить правильность процесса сбора данных. С этой точки зрения качество данных выражается в их точности, своевременности, взаимосвязанности и так далее. Затем, в следующей главе, мы поговорим о том, как убедиться, что мы собираем правильные данные. С этой точки зрения качество выражается в выборе оптимальных источников данных, чтобы обеспечить максимально эффективные выводы. Иными словами, мы начнем с того, как правильно собирать данные, и перейдем к тому, как собирать правильные данные.
В этой главе мы сосредоточимся на способах определения достоверности данных и рассмотрим случаи, когда данные могут оказаться ненадежными. Для начала разберем критерии качества – все характеристики чистых данных. Затем рассмотрим самые разные факторы, влияющие на ухудшение качества. Этой теме мы уделим особое внимание по ряду причин. Во-первых, подобных факторов может быть великое множество, и они носят практический, а не теоретический характер. Если вам доводилось работать с данными, то, скорее всего, вы сталкивались с большинством из них. Они неотъемлемая часть нашей реальности и возникают гораздо чаще, чем нам бы того хотелось. Именно поэтому у большинства специалистов по работе с данными подавляющая часть рабочего времени уходит на очистку. Более того, вероятность возникновения этих факторов повышается с увеличением объема данных. Мой бывший коллега Самер Масри однажды заметил: «При работе с большими масштабами данных всегда помните, что вещи, которые случаются “один раз на миллион”, могут произойти в каждую секунду!» Во-вторых (и, возможно, это даже важнее), активная проверка и сохранение качества данных – совместная обязанность всех сотрудников. Каждый участник аналитической цепочки ценности должен следить за качеством данных. Таким образом, каждому участнику будет полезно на более глубоком уровне разбираться в этом вопросе.
Итак, учитывая все сказанное, давайте рассмотрим, что означает качество данных.

Аспекты качества данных
Качество данных невозможно свести к одной цифре. Качество – это не 5 или 32. Причина в том, что это понятие охватывает целый ряд аспектов, или направлений. Соответственно, начинают выделять уровни качества, при которых одни аспекты оказываются более серьезными, чем другие. Важность этих аспектов зависит от контекста анализа, который должен быть выполнен с этими данными. Например, если в базе данных с адресами клиентов везде указаны коды штатов, но иногда пропущены почтовые индексы, то отсутствие данных по почтовым индексам может стать серьезной проблемой, если вы планировали построить анализ на основе показателя почтового индекса, но никак не повлияет на анализ, если вы решили проводить его на уровне показателя по штатам.

Итак, качество данных определяется несколькими аспектами. Данные должны отвечать ряду требований.

Доступность
У аналитика должен быть доступ к данным. Это предполагает не только разрешение на их получение, но также наличие соответствующих инструментов, обеспечивающих возможность их использовать и анализировать. Например, в файле дампа памяти SQL (Structured Query Language – языка структурированных запросов при работе с базой данных) содержится информация, которая может потребоваться аналитику, но не в той форме, в которой он сможет ее использовать. Для работы с этими данными они должны быть представлены в работающей базе данных или в инструментах бизнес-аналитики (подключенных к этой базе данных).

Точность
Данные должны отражать истинные значения или положение дел. Например, показания неправильно настроенного термометра, ошибка в дате рождения или устаревший адрес – это все примеры неточных данных.

Взаимосвязанность
Должна быть возможность точно связать одни данные с другими. Например, заказ клиента должен быть связан с информацией о нем самом, с товаром или товарами из заказа, с платежной информацией и информацией об адресе доставки. Этот набор данных обеспечивает полную картину заказа клиента. Взаимосвязь обеспечивается набором идентификационных кодов или ключей, связывающих воедино информацию из разных частей базы данных.

Полнота
Под неполными данными может подразумеваться как отсутствие части информации (например, в сведениях о клиенте не указано его имя), так и полное отсутствие единицы информации (например, в результате ошибки при сохранении в базу данных потерялась вся информация о клиенте).

Непротиворечивость
Данные должны быть согласованными. Например, адрес конкретного клиента в одной базе данных должен совпадать с адресом этого же клиента в другой базе. При наличии разногласий один из источников следует считать основным или вообще не использовать сомнительные данные до устранения причины разногласий.

Однозначность
Каждое поле, содержащее индивидуальные данные, имеет определенное, недвусмысленное значение. Четко названные поля в совокупности со словарем базы данных (подробнее об этом чуть позже) помогают обеспечить качество данных.

Релевантность
Данные зависят от характера анализа. Например, исторический экскурс по биржевым ценам Американской ассоциации землевладельцев может быть интересным, но при этом не иметь никакого отношения к анализу фьючерсных контрактов на грудинную свинину.

Надежность
Данные должны быть одновременно полными (то есть содержать все сведения, которые вы ожидали получить) и точными (то есть отражать достоверную информацию).

Своевременность
Между сбором данных и их доступностью для использования в аналитической работе всегда проходит время. На практике это означает, что аналитики получают данные как раз вовремя, чтобы завершить анализ к необходимому сроку. Недавно мне довелось узнать об одной крупной корпорации, у которой время ожидания при работе с хранилищем данных составляет до одного месяца. При такой задержке данные становятся практически бесполезными (при сохранении издержек на их хранение и обработку), их можно использовать только в целях долгосрочного стратегического планирования и прогнозирования.

Ошибка всего в одном из этих аспектов может привести к тому, что данные окажутся частично или полностью непригодными к использованию или, хуже того, будут казаться достоверными, но приведут к неправильным выводам.
Далее мы остановимся на процессах и проблемах, способных ухудшить качество данных, на некоторых подходах для определения и решения этих вопросов, а также поговорим о том, кто отвечает за качество данных.
ДАННЫЕ С ОШИБКАМИ
Ошибки могут появиться в данных по многим причинам и на любом этапе сбора информации. Давайте проследим весь жизненный цикл данных с момента их генерации и до момента анализа и посмотрим, как на каждом из этапов в данные могут закрадываться ошибки.
В данных всегда больше ошибок, чем кажется. По результатам одного из исследований[23 - Eckerson W. Data Warehousing Special Report: Data Quality and the Bottom Line (Chatsworth, CA: 101communications LLC, 2002), 34. URL: http://download.101com.com/pub/tdwi/Files/DQReport.pdf (http://download.101com.com/pub/tdwi/Files/DQReport.pdf)], ежегодно американские компании терпят ущерб почти в 600 млн долл. из-за ошибочных данных или данных плохого качества (это 3,5 % ВВП!).
Во многих случаях аналитики лишены возможности контролировать сбор и первичную обработку данных. Обычно они бывают одним из последних звеньев в длинной цепочке по генерации данных, их фиксированию, передаче, обработке и объединению. Тем не менее важно понимать, какие проблемы с качеством данных могут возникнуть и как их потенциально можно разрешить.
Цель этой части книги – выделить общие проблемы с качеством данных и возможные подводные камни, показать, как избежать этих проблем и как понять, что эти проблемы присутствуют в наборе данных. Более того, чуть позже вы поймете, что это призыв ко всем специалистам, работающим с данными, по возможности активно участвовать в проверке качества данных.
Итак, начнем с самого начала – с источника данных. Почему в данные могут закрасться ошибки и как с этим бороться?
ГЕНЕРАЦИЯ ДАННЫХ
Генерация данных – самый очевидный источник возможных ошибок, которые могут появиться в результате технологического (приборы), программного (сбои) или человеческого факторов.
В случае технологического фактора приборы могут быть настроены неправильно, что может сказаться на полученных данных. Например, термометр показывает 35 ? вместо 33 ? на самом деле. Это легко исправить: прибор или датчик можно настроить по другому, «эталонному», прибору, отражающему достоверные данные.
Иногда приборы бывают ненадежными. Мне довелось работать в грантовом проекте Агентства передовых оборонных исследовательских проектов Министерства обороны США (DARPA), посвященном групповой робототехнике. В нашем распоряжении была группа простейших роботов, задача которых заключалась в совместном картографировании местности. Сложность состояла в том, что инфракрасные датчики, установленные на роботах, были очень плохого качества. Вместо того чтобы сосредоточиться на разработке децентрализованного алгоритма для нанесения здания на карту, большую часть времени я потратил на работу с алгоритмическими фильтрами, пытаясь справиться с качеством информации от этих датчиков, измерявших расстояние до ближайшей стены или до других роботов. Значения сбрасывались, или показатель расстояния до ближайшей стены мог неожиданно измениться на целый метр (неточность > 50 %), притом что робот оставался неподвижным. Информации от этих датчиков просто нельзя было верить.
Когда в сборе данных принимают участие люди, ошибки в данных могут появиться по самым разным причинам. Сотрудники могут не знать, как правильно пользоваться оборудованием, они могут торопиться или быть невнимательными, они могут неправильно понять инструкции или не следовать им. Например, в двух больницах могут по-разному измерять вес пациентов: в обуви и без обуви. Для исправления ошибок такого рода требуются четкие инструкции и обучение персонала. Как с любым экспериментом, необходимо попытаться контролировать и стандартизировать как можно больше этапов процесса, чтобы данные оставались максимально достоверными, сравнимыми и удобными в использовании.
ВВОД ДАННЫХ
Когда данные генерируются вручную, например при измерении веса пациентов, их необходимо зафиксировать. Несмотря на обещания электронного офиса, большой объем данных сегодня по-прежнему сначала попадает на бумагу в качестве промежуточного шага до попадания в компьютер. На этом этапе может возникнуть множество ошибок.
Ошибки случаются при расшифровке документов, заполненных от руки. (Если бы вы видели мой почерк, у вас бы не осталось в этом сомнений.) Больше всего исследований в этой области проведено в сфере здравоохранения, частично потому что последствия использования неточной информации могут быть слишком серьезными, как с точки зрения здоровья пациентов, так и с точки зрения стоимости проведения ненужных медицинских тестов. Согласно результатам одного из исследований, 46 % медицинских ошибок (при базовом уровне 11 % от всех записей) обусловлено неточностью при расшифровке[24 - Seely C. E., Nicewander D., Page R. and Dysert P. A. A baseline study of medication error rates at Baylor University Medical Center in preparation for implementation of a computerized physician order entry system. Proc (Bayl Univ Med Cent). 2004 Jul 17(3): 357–361. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1200672/ (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1200672/).]. Уровень ошибок в базах данных некоторых клинических исследований достигал 27 %[25 - Goldberg S. I., Niemerko A. and Turchin A. Analysis of Data Errors in Clinical Research Databases. AMIA Annu Symp Proc. 2008: 242–246. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2656002/ (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2656002/).]. Подобные ошибки могли быть результатом того, что медицинский персонал неправильно читал или понимал написанное от руки, не слышал или не понимал информацию из-за плохого качества аудиоисточника или непривычных слов или неправильно вносил информацию в компьютер.
Например, я работал в одной из компаний в сфере здравоохранения, и основными базами данных, которые компания использовала чаще всего, были данные статистических опросов населения в рамках Национальной программы проверки здоровья и питания (NHANES). Мобильные клиники по всей стране проводили опросы населения: измеряли вес и артериальное давление, выясняли, есть ли в семье больные диабетом или раком, и так далее. Когда мы изучили информацию о человеческом росте в одной из баз данных по этому проекту, то обнаружили целый ряд людей с показателем роста пять дюймов (примерно 12,5 см)! Эти данные вносили в базу специально обученные сотрудники, которые изо дня в день проводили опросы населения. Поскольку измерение роста – относительно простая процедура, наиболее вероятной причиной ошибки кажется некорректный ввод информации. Возможно, рост респондентов на самом деле был пять футов и пять дюймов (примерно 162 см) или шесть футов и пять дюймов (примерно 192 см). К сожалению, поскольку мы не знали этого наверняка, нам пришлось отметить эти значения как неизвестные.
К счастью, показатель роста человека пять дюймов – это настолько очевидная ошибка, что нам удалось определить ее с помощью простой гистограммы, и мы точно понимали, что это ошибка. Однако так бывает не всегда. Есть разные степени очевидности ошибки. Предположим, что при расшифровке записей, сделанных от руки, сотрудник вместо «аллергия на кошек и собак» написал: «аллергия на окшек и собак». Слова «окшек» не существует. Очевидно, что это опечатка, а смысл легко поддается восстановлению по контексту. Более сложными могут оказаться случаи, когда при перестановке букв могут образоваться другие слова, имеющие смысл. Тогда заметить ошибку сложнее. Разобраться со смыслом можно с помощью контекста, но он не всегда служит гарантией. Наконец, представьте, что местами случайно переставили не буквы, а цифры, например в числе 56,789 поменяли две последние цифры: 56,798. Заметить ошибку в этом случае будет чрезвычайно сложно или даже невозможно.
В целом ошибки при вводе информации можно свести к четырем типам.

Запись
Введенные слова или показатели не те, что были в оригинале.

Вставка
Появление дополнительного символа: 56,789 ? 564,789.

Удаление
Один или несколько символов теряются: 56,789 ? 56,89.

Перемена мест
Два или более символов меняются местами: 56,789 ? 56,798.


В качестве отдельных категорий «Вставки» и «Удаления» можно выделить диттографию – случайное повторение символа (56,789 ? 56,7789) и гаплографию – пропуск повторяющегося символа (56,779 ? 56,79). Эти термины употребляют ученые, занимающиеся восстановлением поврежденных и переписанных от руки древних текстов, и обозначают разновидность проблемы с некачественными данными.

Особенно часто опечатки встречаются в написании дат. Например, я британец, и в английской культуре принят определенный формат написания даты: день/месяц/год. Однако я живу в США, где формат написания даты отличается: месяц/день/год. Первые несколько лет жизни в США я постоянно путался, и могу предположить, что эта проблема знакома не только мне. Представьте себе сайт, на котором пользователи со всего мира вводят в специальное поле дату. У пользователей из разных стран могут быть разные ожидания относительно формата ввода этой информации, и без необходимых подсказок могут возникнуть ошибки при вводе данных. Некоторые их них легко заметить: например, 25 марта (3/25 в американском варианте) – 25 явно не может быть обозначением месяца. А как насчет 4/5? Вы уверены, что для всех пользователей эта дата обозначает 5 апреля?
Как бороться с такого рода ошибками?
Снижение количества ошибок при вводе данных
Первый шаг, если он возможен, заключается в сокращении количества этапов от генерации данных до ввода. Скажу очевидное: если есть возможность избежать бумажной формы, лучше сразу вносить данные в компьютер.
Везде, где возможно, добавьте проверку значения каждого поля в свою электронную форму (рис. 2.1). То есть если данные четко структурированы и имеют установленный формат (например, почтовый индекс в США содержит от пяти до девяти цифр, а номер социальной страховки состоит из девяти цифр), проверяйте данные на соответствие этому формату, в противном случае предложите пользователю исправить возможные ошибки. Процесс проверки не ограничен только числовыми значениями. Например, можно проверять, чтобы дата или время вылета «обратно» были позже, чем вылета «туда». Иными словами, проверяйте все что можно, чтобы максимально избежать «мусора» в самом начале.

Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию (https://www.litres.ru/book/karl-anderson-11438349/analiticheskaya-kultura-24433421/?lfrom=390579938) на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

notes
Notes

1
Метод маркетингового исследования, суть которого заключается в том, что контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей были изменены, для того чтобы выяснить, какие из изменений улучшаю целевой показатель. Прим. ред.

2
Brynjolfsson E., Hitt L. M. and Kim H. H. Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance? Social Science Research Network (2011). URL: http://ebusiness.mit.edu/research/papers/2011.12_Brynjolfsson_Hitt_Kim_Strength in Numbers_302.pdf (http://ebusiness.mit.edu/research/papers/2011.12_Brynjolfsson_Hitt_Kim_Strength%20in%20Numbers_302.pdf).

3
Nucleus Research. Analytics pays back $13.01 for every dollar spent. O204 (Boston, MA: Nucleus Research, 2014), 5. URL: http://nucleusresearch.com/research/single/analytics-pays-back-13-01-for-every-dollar-spent/ (http://nucleusresearch.com/research/single/analytics-pays-back-13-01-for-every-dollar-spent/).

4
Уильям Эдвардс Деминг (William Edwards Deming, 1900–1993) – американский ученый, статистик и консультант по менеджменту. Создатель теории менеджмента, основанной на предложенной им же теории глубинных знаний. Прим. перев.

5
См., например: http://bit.ly/nyt-janitor (http://bit.ly/nyt-janitor) и http://bit.ly/im-data-sci (http://bit.ly/im-data-sci).

6
Good Morning America («Доброе утро, Америка») – американское телевизионное шоу, которое транслируется по утрам на канале ABC. Выходит в эфир с 1975 г. Прим. ред.

7
Techcrunch – сайт и одноименная компания, блог, описывающий продукты, стартапы и другие сайты, основанный Майклом Аррингтоном в 2005 г. Прим. ред.

8
URL: http://bit.ly/maeda-gardner (http://bit.ly/maeda-gardner).

9
Закон от 30 июля 2002 года, названный по именам его разработчиков и инициаторов: сенатора-демократа Пола Сарбейнза и конгрессмена-республиканца Майка Оксли. В соответствии с этим законом значительно ужесточились требования к финансовой отчетности. Прим. ред.

10
Dykes B. Reporting vs. Analysis: What’s the Difference? Digital Marketing Blog, October 19, 2010. URL: https://blogs.adobe.com/digitalmarketing/analytics/reporting-vs-analysis-whats-the-difference/ (https://blogs.adobe.com/digitalmarketing/analytics/reporting-vs-analysis-whats-the-difference/).

11
Faria M. Acting on Analytics: How to Build a Data-Driven Enterprise. BrightTALK, September 11, 2013. URL: https://www.brighttalk.com/webcast/1829/80223 (https://www.brighttalk.com/webcast/1829/80223).

12
Davenport T. H., Harris J. G. and Morison R. Competing on Analytics. Boston: Harvard Business Press, 2010.

13
Bosker B. Google Exec Marissa Mayer Explains Why There Aren’t More Girl Geeks. The Huffington Post, July 6, 2011. URL: http://www.huffingtonpost.com/2011/07/06/google-marissa-mayer-women-in-tech_n_891167.html (http://www.huffingtonpost.com/2011/07/06/google-marissa-mayer-women-in-tech_n_891167.html).

14
SAS, Eight Levels of Analytics (Cary, NC: SAS Institute, Inc., 2008), 4. URL: https://www.sas.com/en_us/news.htmlsascom/analytics_levels.pdf (https://www.sas.com/en_us/news.htmlsascom/analytics_levels.pdf).

15
Латинская фраза, означающая «к этому, для данного случая, для этой цели». В данном контексте – специальные отчеты для исследования какой-то конкретной темы. Прим. науч. ред.

16
Издана на русском языке: Дэвенпорт Т., Харрис Д. Аналитика как конкурентное преимущество. Новая наука побеждать. М.: BestBusinessBooks, 2010. Прим. ред.

17
Несмотря на то что книга Дэвенпорта и Харриса появилась на два года раньше, этот источник называют «адаптация графика, сделанного компанией SAS».

18
Shevlin R. The Eight Levels Of Analytics? The Financial Brand, October 27, 2009. URL: https://thefinancialbrand.com/46761/the-eight-levels-of-analytics/ (https://thefinancialbrand.com/46761/the-eight-levels-of-analytics/).

19
LaValle S., Hopkins M. S., Lesser E., Shockley R., Kruschwitz N. Analytics: The New Path to Value. MIT Sloan Management Review, October 24, 2010. URL: http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/ (http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/).

20
Систематическая ошибка выжившего (англ. survivorship bias) – разновидность систематической ошибки отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») – практически нет. Так как исследователи пытаются искать общие черты среди «выживших», то упускают из виду, что не менее важная информация скрывается среди «погибших». Прим. перев.

21
Эту позицию принято обозначать аббревиатурой CDO, но мы будем давать ее полностью во избежание путаницы. Аббревиатуру CDO будем использовать для позиции Chief Data Officer. Прим. ред.

22
Томсон Нгуен (Thomson Nguyen) – основатель и СЕО (высшая исполнительная должность в компании; в российской иерархии аналог генерального директора) компании Framed Data, которая занимается различными проблемами данных в аналитике, инфраструктуре и машинном обучении для бизнеса и некоммерческих организаций. Прим. перев.

23
Eckerson W. Data Warehousing Special Report: Data Quality and the Bottom Line (Chatsworth, CA: 101communications LLC, 2002), 34. URL: http://download.101com.com/pub/tdwi/Files/DQReport.pdf (http://download.101com.com/pub/tdwi/Files/DQReport.pdf)

24
Seely C. E., Nicewander D., Page R. and Dysert P. A. A baseline study of medication error rates at Baylor University Medical Center in preparation for implementation of a computerized physician order entry system. Proc (Bayl Univ Med Cent). 2004 Jul 17(3): 357–361. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1200672/ (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1200672/).

25
Goldberg S. I., Niemerko A. and Turchin A. Analysis of Data Errors in Clinical Research Databases. AMIA Annu Symp Proc. 2008: 242–246. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2656002/ (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2656002/).
  • Добавить отзыв
Аналитическая культура. От сбора данных до бизнес-результатов Карл Андерсон

Карл Андерсон

Тип: электронная книга

Жанр: Эффективность бизнеса

Язык: на русском языке

Стоимость: 499.00 ₽

Издательство: Манн, Иванов и Фербер

Дата публикации: 28.03.2025

Отзывы: Пока нет Добавить отзыв

О книге: Подробное пошаговое руководство по внедрению Data-driven-культуры в вашей компании – от сбора данных и наглядных отчетов до анализа и обоснованных решений.