От инфляции до педагогики: чем занимаются экономисты и зачем им Data Science?
Современные экономисты занимаются невероятно широким спектром вопросов: от консультирования крупных коммерческих фирм до проведения затратных и сложных психологических экспериментов в рамках поведенческой экономики. Такие специалисты не только могут работать в самых разных местах, но и сильно отличаются в подходах и оптике, через которую смотрят на проблему. Елена Вакуленко обратила внимание, что российский экономист, профессор Вышки Борис Кузнецов предложил сравнивать специалистов по экономике с врачами и разделил их на три большие группы: «терапевты», «хирурги» и «патологоанатомы».
Терапевт обычно осматривает больного, ставит ему общий диагноз, но не пытается лечить тяжелую болезнь и не дает на этот счет никаких долгосрочных предсказаний. «Терапевтами» мира экономики являются экономисты-аналитики. Подобно тому, как терапевту требуется осмотреть больного и поставить ему общий диагноз, экономист-аналитик должен определить, что является причиной того или иного процесса или кризиса.
Вторая группа экономистов — это «хирурги». Хирурги настоящие, из мира медицины, проводят операции и пытаются сделать так, чтобы человек мог жить и развиваться. «Хирургами» экономики считаются прогнозисты, которые также пытаются предостерегать людей от последствий возможных негативных сценариев, поясняет Вакуленко.
Здесь можно вспомнить, например, доклад английского экономиста Николаса Стерна в 2007 г., где он давал оценку возможных потерь от изменения климата в 5% ВВП. Подобные прогнозы делаются не для того, чтобы человечество на них посмотрело и задвинуло в ящик, а чтобы политики, дипломаты, бизнесмены принимали решения, исходя из информации о возможных угрозах и рисках.
Елена Вакуленко
Последний тип экономистов, на который обратила внимание Елена Вакуленко, – «патологоанатомы», специалисты, которые изучают прошлое. Зачастую ответы на вопросы о давно прошедших событиях могут способствовать решению будущих проблем.
Так, например, известный экономист, лауреат Нобелевской премии Милтон Фридман внес огромный вклад в макроэкономику, изучая Великую Депрессию спустя десятилетия после событий того времени.
Каждому из обозначенных типов специалистов необходимо использование большого массива данных и математического аппарата для их анализа. Это связано с тем, что экономика даже небольшой страны включает в себя сотни тысяч фирм и домохозяйств, которые совершают миллионы сделок каждый день. Анализ такого большого количества информации требует навыков работы с данными.
Продвинутые методы применения данных мы, обобщая, называем Data Science – это является одним из наиболее мощных инструментов работы с данными, подчеркивает эксперт. Понятие Data Science объединяет в себе несколько предметных областей. Во-первых, это статистика (социально-экономическая и математическая). Социально-экономическая статистика изучает различные экономические показатели, методы их сбора и расчета. Например, в фокусе этой статистики находится изучение того, как считаются разные экономические показатели вроде ВВП и инфляции. Математическая статистика занимается оценками неизвестных параметров, проверкой статистических гипотез.
Также в Data Science входит эконометрика – наука, которая изучает взаимосвязи между переменными. Например, Центральному банку нужно понять, что сделать, чтобы уменьшить инфляцию в стране. Эконометрист, анализируя взаимосвязи между инфляцией и влияющими на нее переменными, построит модель и сможет выявить те переменные, которые вносят наибольший вклад в ускорение инфляции. Помимо эконометрики и статистики важной частью Data Science является машинное обучение. Наиболее распространенными задачами машинного обучения являются задачи прогнозирования и классификации.
Все три вышеупомянутые предметные области внутри Data Science объединяет то, что любая работа будет строиться на ретроспективных данных из прошлого. Этот подход основан на допущении, что причинно-следственные связи сохраняются на протяжении времени. Если же причинно-следственные связи разрушаются, то это становится отдельным исследовательским вопросом и экономисты ищут причины, из-за которых закономерность перестала работать.
Данные для анализа можно брать из самых разных источников. Это могут быть отчеты корпораций, официальная статистика или данные из социальных сетей и поисковиков. Например, при помощи инструмента «Google trends» можно анализировать поисковые запросы и получать информацию раньше, чем выходит специальная статистика. Так, Елена Вакуленко вместе со своим соавтором Георгием Броницким в исследовании «Прогнозирование миграции из России в Германию с использованием Google-трендов» строила прогноз миграции между указанными странами при помощи анализа поисковых запросов. Исходя из того, как часто люди гуглили запросы о визах, посольстве, ВНЖ и прочих ключевых для эмигрантов вопросов, удавалось получить данные о миграции раньше, чем их публиковали профильные ведомства и статистические службы.
В качестве источника данных могут выступать и социальные сети. Они собирают информацию о своих пользователях: где живут люди, где и что покупают, как проводят свободное время, с кем дружат и т.д.
Данные можно собирать и с вебсайтов. Например, для того, чтобы проанализировать цены на различные товары (квартиры, автомобили и т.д.) в зависимости от их характеристик используется парсинг – процесс автоматического сбора данных. Так, на ведущих сайтах количество квартир доступных для аренды в Москве достигает десятков тысяч. Собирать такое количество информации вручную очень долго и неэффективно и для того, чтобы сэкономить время, силы и нервы используется парсер (программа написанная исследователем, которая автоматически собирает данные с веб-сайтов – Ред.).
Еще одним важным источником информации являются опросы. Часто они используются для того, чтобы оценить субъективные показатели. Так, только при помощи опроса можно измерить уровень счастья или изучить то, как люди оценивают собственное здоровье. Минус в том, что опросы часто могут давать некорректные результаты: ответы зависят от формулировки вопроса, а сами респонденты не всегда отвечают честно.
Так, например, ординарный профессор, ведущий научный сотрудник Центра трудовых исследований Владимир Гимпельсон ранее отмечал, что люди склонны подсознательно помещать себя в середину шкалы доходов: богатые часто занижают уровень достатка, а бедные – завышают. Зная, что у опросов есть большое число ограничений, экономист должен иметь критическое отношение к результатам опросов и осторожно обращаться с полученными таким образом данными, подчеркивает Вакуленко.
Наиболее дорогостоящим и долгим способом сбора данных являются эксперименты. Например, чтобы провести исследование в рамках проекта STAR (Student/Teacher Achievement Ratio) в 1980-е гг. исследователям пришлось потратить 4 года и около $12 млн (в ценах 1980-х гг.). Целью данного эксперимента было выяснить: помогает ли обучение в меньших группах достигать больших академических успехов. В эксперименте было задействовано несколько тысяч американских школьников, которых распределили в начальной школе случайным образом – одни учились в стандартном классе (22-25 человек), другие – в уменьшенном (13-17 человек). В результате эксперимента было выявлено, что обучение в малом классе увеличивает результаты школьника на 6 из 100 баллов при прочих равных.
Чтобы больше узнать о работе с данными, Елена Вакуленко рекомендовала прослушать профильную лекцию Константина Голяева, выпускника Совместного бакалавриата ФЭН и Российской экономической школы, получившего степень PhD в области экономики в Миннесоте, который работал в Amazon и Microsoft, а также стал автором учебника по Data Science.
Полностью лекцию Елены Вакуленко «Мир вокруг нас как источник данных для экономиста» можно послушать здесь.
Стажер-исследователь Проектно-учебной лаборатории экономической журналистики
Все новости автора
Вакуленко Елена Сергеевна
Доцент департамента прикладной экономики
Гимпельсон Владимир Ефимович
Ординарный профессор, ведущий научный сотрудник Центра трудовых исследований
Кузнецов Борис Викторович
Профессор НИУ ВШЭ, ведущий научный сотрудник Института анализа предприятий и рынков