Ближайшие дни, как и обещал, проведу во Владивостоке – точнее, в ДВФУ, где будет цикл лекций/семинаров по работе с большими данными в госуправлении. Сейчас готовлю к ним материалы.
В силу профиля работы нашей команды большой акцент будет сделан на применении данных в разработке законодательства. Разберём несколько кейсов – в частности, подготовку закона о курортном сборе и, конечно же, ситуацию с пенсионной реформой в региональном разрезе. Кроме того, покажу нашу разработку по инструментарию предиктивной аналитики для законодателей – смысл в том, чтобы еще на стадии проектирования тех или иных изменений в законах иметь более-менее годную модель того, как должны будут измениться ключевые индикаторы в тех сферах, которые предполагается регулировать.
Отдельный интересный блок – перепроверка данных по косвенным показателям. Здесь у меня есть очень красивый пример того, как можно с помощью косвенных данных сделать вывод о том, соответствовала ли явка на выборы имеющимся у избиркомов цифрам. Кейс реальный, из моей практики. Мало кто знает реальную (т.е. не нарисованную) явку на выборы с такой точностью, как… торговые сети. Смысл очень простой: проголосовав на участках, многие наши граждане обычно после этого идут в магазин за покупками. Соответственно, выручка у ритейлеров в дни голосований всегда значительно выше, чем в обычные выходные. Но насколько значительно – вот это и есть вопрос. Отклонения суточной выручки в пересчете на средний чек дают количество «сверхнормативных» посетителей, которые далее по формуле легко пересчитать в приблизительное количество избирателей. Понятно, что эти цифры ничего не доказывают, но для собственного понимания ситуации у ЛПР это весьма ценная информация.
Другой пример – демографический, с Северного Кавказа. Разница в зарегистрированном количестве рождений в ЗАГСах и количестве поступивших в школы спустя семь лет, при наложении на это зафиксированных показателей детской смертности даёт достаточно точную цифру махинаций с детскими пособиями и «материнским капиталом», присущую отдельным специфическим субъектам федерации. А равно и опровергает миф о якобы имеющемся там невероятном демографическом буме – рождаемость там, конечно, повыше, чем в среднем по стране, но далеко не в разы.
Есть и еще – оттуда же – примеры весьма нетривиальных корреляций. Например, процент старшеклассников в школах, уходящих в исламистское подполье, напрямую коррелирует с наличием или отсутствием мужчин среди преподавательского состава: там, где они есть, этот процент существенно ниже. Причина простая: большинство таких уходов – это местная версия «колумбайна», результат конфликтов с одноклассниками; там, где есть преподаватели или завучи-мужчины, они могут провести соответствующие воспитательные беседы и в классах, и с родителями (в первую очередь – с отцами); у тёток же для этого в тамошней патриархальной культуре часто просто не хватает авторитета. А учительский состав школ на СК процентов на 95 — женский.
Основная мысль: поиску нужной информации в «океане данных» всегда предшествует постановка задачи, и это ключевой момент. Чаще всего, если задача поставлена правильно, данные уже где-то существуют, их не надо специально собирать – можно просто найти – ну и, конечно, перепроверить по другим источникам и другим данным.
Ещё одно наблюдение. Как только данные превращаются из мониторингового в управленческий инструмент, риски сознательного искажения информации вырастают кратно. Об этом хорошо знают социологи, которые уже вынуждены просто-таки шифровать людей, занимающихся полевой работой в территориях, чтобы оградить их от желающих «подправить статистику». В этом смысле данные, лежащие на поверхности и наиболее часто обсуждаемые, как правило, являются в наименьшей степени достоверными. И для их перепроверки правильнее всего искать другие данные, те самые косвенные показатели, которые остаются вне поля внимания, но при правильно построенной корреляции весьма убедительно опровергают или подтверждают основные показатели.
За данными всегда стоит некая скрытая реальность, не понимая которой, легко прийти к неверным выводам. Тоже кейс из моей практики, уже нынешнего года: в одном из регионов зафиксировали существенное снижение инвестиций в основной капитал по сравнению с предыдущим годом. Губернатор стал дергать профильных министров, те что-то невыразительно блеяли с табличками в руках. Потом пришел один из замов и объяснил: цифры изменились потому, что одна из крупных федеральных структур, которая реализовывала многолетний инфраструктурный проект на территории, в конце прошлого года его сдала – и, соответственно, вложения прекратились. Но тот факт, что это никак не зависело ни от деятельности региональных властей, ни вообще от чего бы то ни было, кроме собственной инвестстратегии той компании, статистика, разумеется, не учитывала.
Главное в работе с данными – успеть пройти весь цикл от постановки задачи, выработки гипотез, поиску данных, проверки этих самых гипотез и визуализации итогового расклада ДО момента, когда руководству необходимо принимать управленческое решение. В этом смысле ключевым становится планирование циклов выработки решений – продвинутый тайм-менеджмент, основанный на понимании «бюджетов времени» при работе с данными.
Об этом и поговорим.