«Искусственный интеллект не обладает интуицией, которая есть у исследователей»
Автор: Алексей Скворцов и Михаил Галкин, стажеры-исследователи Проектно-учебной лаборатории экономической журналистики НИУ ВШЭ специально для HSE.Daily
Проектно-учебная лаборатория экономической журналистики НИУ ВШЭ проводит серию интервью, посвященных тому, как технологии машинного обучения и анализа данных применяются в современных экономических исследованиях, развитии науки, финансовых институтов и подготовке специалистов для разных отраслей экономики.
Студенты в GPT и риски галлюцинаций
— Елена Сергеевна, как, на ваш взгляд, развитие искусственного интеллекта и методов анализа данных в целом повлияло на современную экономическую науку и эконометрику в частности?
— В современных экономических моделях применяются всевозможные и всеразличные методы анализа данных — все зависит от той задачи, которую вы решаете. Так, например, очень успешно показала себя эконометрика, которая применяется в тех случаях, когда нам нужно оценить эффекты воздействия, раскрыть причинно-следственную связь между переменными и понять, какая из переменных есть причина, а какая — следствие. В случаях же, когда мы говорим о задачах прогнозирования, очень хорошие результаты показывают уже методы машинного обучения. И здесь, в зависимости от задачи, могут быть разные подходы.
В целом, каждая из наук развивалась своим трендом. В эконометрических исследованиях больший акцент был сделан именно на выявлении причинно-следственных связей, а не на корреляциях, которые в большинстве случаев находятся с помощью обычных регрессионных моделей. Если говорить о развитии искусственного интеллекта, то здесь тренды связаны с тем, что появилось больше данных и больше мощностей, которые позволили эти данные изучать. С помощью искусственного интеллекта в основном решаются задачи, связанные с разработкой алгоритмов для быстрой обработки данных. В экономической науке существуют нюансы, связанные с особенностями оценивания моделей на различных выборках: когда мы работаем с результатами опросов, мы можем иметь дело с совсем небольшими выборками, и там возникают совсем другие проблемы, которые уже решаются другими способами.
Сейчас очень много исследований, которые на самом деле идут на стыке методов, когда одновременно применяются и эконометрические подходы, и методы машинного обучения. И вот такой симбиоз методов позволяет получать наиболее интересные результаты и еще более аккуратно обрабатывать данные. То есть мы часть работы с данными отдаем машинному обучению — например, когда мы изучаем семантический анализ текстов и из этих текстов пытаемся что-то вычленить, перевести в количественные измерения, а потом эти данные использовать в эконометрических моделях. Машинное обучение здесь может быть использовано для того, чтобы улучшить прогноз экономических показателей. Из примеров — работа с социальными сетями или поисковыми запросами, которые затем используются уже в эконометрических моделях.
— То есть в первую очередь речь идет об экономии времени. Какие еще преимущества имеют исследователи, использующие методы машинного обучения?
— Некоторые задачи, особенно когда у вас большие массивы данных, человеку обработать вручную очень сложно. Нужно использовать машинные методы и алгоритмы — не только из-за времени, но в том числе и из-за масштабов исследований. Исследователи, которые прибегают к помощи машин, конечно, имеют преимущество, потому что они приобретают разные возможности, которые позволяют им решить задачу проще и быстрее.
С другой стороны, они также могут попробовать разными методами получить один и тот же результат, проверить, насколько он устойчив. И хорошо, когда результаты сходятся при разных методах, что показывает в том числе робастность в исследовании (свойство результатов исследования быть надежными и стабильными при изменении методов анализа, выборок или других условий эксперимента. — Ред.). То есть если исследователь знает, как применять искусственный интеллект, и применяет его, это ему только в плюс.
— Получается, технологии искусственного интеллекта меняют методологический подход к исследованию?
— Да. Искусственный интеллект, с одной стороны, позволил нам не только применять больше разных методов, но и иметь больше возможностей по исследованию альтернативных источников данных. То есть если раньше исследователи в основном базировались на официальной статистике, то технологии искусственного интеллекта позволили нам собирать информацию из других источников. Причем эти источники не являются собранными и агрегированными в каком-то виде, мы сами можем их собирать и агрегировать.
Например, изучая социальные сети, мы можем собирать комментарии, исследовать тональности откликов людей, новостные индексы, статистику поисковых запросов. Это дополнительный источник данных — более оперативный, более свежий, современный: мы прямо сегодня можем понять, какое настроение у людей относительно той или иной проблемы. И используя эти индикаторы, мы можем что-то прогнозировать относительно экономических, социальных и демографических показателей.
С другой стороны, мы можем говорить и о новшествах при обработке этого огромного количества разных данных. Появляются механизмы, которые позволяют не только переработать текстовую информацию в количественную, но и найти какие-то взаимосвязи между этими данными. Это, конечно же, можно делать и в эконометрическом исследовании, но здесь используются другие подходы, которые в каком-то смысле более гибкие, потому что мы можем не создавать какие-то жесткие формы взаимосвязи, как в эконометрике, а пытаться получить эту форму из данных.
Есть разные направления того, как мы можем использовать искусственный интеллект. Но в любом случае он дает нам намного больше возможностей, открывает нам новые двери: мы получаем больше информации о мире и пытаемся на основании этих данных лучше прогнозировать и лучше понимать, что происходит.
— При этом исследователи проявляют осторожность при внедрении методов машинного обучения и технологий искусственного интеллекта. В чем опасность?
— Конечно же, есть вызовы, которые нас немного сдерживают в применении этих методов. Почему, например, мы хотим параллельно использовать альтернативные методы исследований? Потому что те же нейросети — это черный ящик для нас. Часто исследователи используют уже готовые алгоритмы, мы не всегда понимаем, как они работают и насколько достоверный дают результат. Это очень хорошо прослеживается на текущих примерах чатов вроде ChatGPT, GigaChat Сбера или Yandex GPT: когда мы делаем какие-то запросы в них, информация, которая выдается, часто может быть неправдоподобной — в зависимости от словарей, на которых нейросеть обучается. Программисты называют это рисками галлюцинаций. Наша задача в том числе — уметь различить, где искусственный интеллект нагло врет, а где говорит правду.
— Что может сделать исследователь, чтобы минимизировать эти риски: участвовать в написании софта (а это не всегда возможно и не всем удобно), перепроверять данные (а всегда ли есть возможность это сделать альтернативными способами) — что еще?
— Здесь, кстати, вот в чем проигрывает искусственный интеллект человеку. Во-первых, он сейчас пока вообще далеко не совершенен и не идеален — какие-то рутинные задачи можно ему делегировать, например генерировать тексты, составлять планы презентаций, конспект лекций и др. Но при этом нужно помнить, что не каждую задачу ему можно поручить: искусственный интеллект, в отличие от человека, не обладает интуицией, которая есть у исследователей.
Исследователь, когда начинает свою работу, обладает знаниями в области экономической теории, социальных и демографических процессов, знает жизнь — он вообще видит, что происходит вокруг. И часто у нас как у исследователей уже складывается понимание, как должно строиться исследование — это называется исследовательской интуицией. Чем больше ты видишь, живешь, читаешь литературу, смотришь на другие исследования, тем лучше ты можешь фильтровать то, что получается. Мне кажется, подобного фильтра у искусственного интеллекта пока не хватает. Он не обладает достаточной экспертизой, потому что часто это должна быть экспертиза межотраслевая, когда у нас есть исследования на стыке наук.
Может быть, это не за горами — эта опция появится, и искусственный интеллект лучше будет отслеживать такие вещи. Но пока мы, исследователи, имеем некоторые преимущества в этом плане перед искусственным интеллектом. Мы можем в своей экспертизе отлавливать нестандартные ситуации, применять разные подходы, разные алгоритмы.
Должна еще добавить, что, помимо количественных исследований, очень важны качественные исследования, когда мы проводим интервью или фокус-группы, общаемся с людьми и слышим, что они говорят, особенно если это люди из разных групп (например, матери-одиночки или представители полноценных многодетных семей). Это очень нам помогает, в том числе фильтровать то, что мы получаем.
Сформулировать задачу и разложить ее на составляющие
— Что бы вы посоветовали молодым исследователям, планирующим работать с искусственным интеллектом?
— Обычно советуют не пытаться дать искусственному интеллекту задачу целиком, ее надо разбивать на маленькие подзадачи: их он решает лучше, чем одну большую, глобальную задачу.
Например, задайте тому же Yandex GPT арифметическое выражение «десять умножить на два минус пять». Он может дать вам неправильный ответ. А если вы попросите его сначала десять умножить на два, а потом прибавить пять, он сделает правильный расчет. То же самое касается текста: когда вы пишете его с использованием искусственного интеллекта по маленьким абзацам, формулируя мысль более точно, так, чтобы детализированно рассказать, что вы хотите получить в этом абзаце, ответ выходит более аккуратным и точным.
Нельзя искусственному интеллекту давать сразу слишком глобальную задачу. Вам как исследователю надо подумать, как ее разделить, и потом уже это собрать и систематизировать ответы ИИ.
— Какие чаты, помимо ChatGPT, GigaChat и Yandex GPT, можно рекомендовать для учебы студентам?
— Campus.ai — это GPT-чат, который сделан для студентов. Это целая библиотека задач с решениями, которые делали эксперты по разным областям: есть задачи по физике, по юриспруденции, по экономике, по математике и др. Если задача сложная и многосоставная, лучше ее разбивать на несколько поэтапных и задавать последовательно. Есть возможность изучить кейсы решения задач, схожих с вашей.
Есть чат MathGPT, который решает математические задачи. В него можно поместить даже рукописный текст, который ИИ сможет распознать. Но важно понимать, что искусственный интеллект — не стопроцентная гарантия правильного решения, его нужно контролировать.
— Как внедрение искусственного интеллекта и машинного обучения в экономические дисциплины влияет на базовый набор навыков, необходимых для работы студентов-экономистов и исследователей?
— С одной стороны, сервисы искусственного интеллекта называют учебными ассистентами, и часто их используют именно как помощников: они помогают вам сортировать почту по тематике, обрабатывать большие массивы данных, составлять планы работ и т.д. Но, с другой стороны, если юные студенты с самого начала будут использовать труд этих помощников, сами не попробовав хотя бы написать письмо, составить план, решить задачу, мне кажется, что какие-то навыки, soft skills и даже иногда hard skills, у них будут утеряны. Все-таки, прежде чем пользоваться этими помощниками, надо самому пройти школу жизни, сначала самим научиться делать даже рутинные вещи, чтобы в том числе потом контролировать то, что вам будет выдавать искусственный интеллект.
Теперь это наша реальность. Мы понимаем, что искусственный интеллект активно внедряется в образовательный процесс. Наши студенты им активно пользуются при выполнении своих домашних заданий, при написании эссе, при решении задач, при написании кодов. Современные чаты — Yandex GPT и Giga Chat от Сбербанка — уже могут в том числе писать программные коды. И это для нас тоже некоторый вызов: ребята вроде как не сами что-то делают, а за них кто-то выполняет работу. Мне кажется, здесь совет студентам такой: используйте сервисы искусственного интеллекта все-таки как средства для перепроверки, чтобы посмотреть, как он размышляет на эту тему. Но всегда стоит попробовать самостоятельно разобраться в проблеме, иначе вам просто будет сложно контролировать процесс.
— Для преподавателей это новый вызов?
— Навыки работы с современными средствами должны быть, их надо развивать. Мы, наше поколение, сейчас такого навыка не имеем, и мы тоже его осваиваем. В Вышке сейчас проходит повышение квалификации преподавателей: нас учат использовать искусственный интеллект в образовательном процессе, и в том числе нас активно мотивируют применять его в своих курсах. Одно из заданий наших обучающих курсов — предложить, как мы можем использовать искусственный интеллект так, чтобы наш курс был более современен, шел в ногу со временем и обучал студентов использовать новые технологии.
Студентов нужно обучать новым подходам, но при этом не стоит забывать традиционные — мне кажется, они тоже очень важны, не должно одно замещать другое. Мы же, когда был калькулятор, все равно учились в первом классе считать и умножать. Если бы мы сразу прибегали к помощи калькулятора, наверное, потеряли бы что-то очень важное. Здесь примерно то же самое.
— Получается, ваша задача как преподавателей — найти баланс между традиционными подходами и принципами обучения и внедрением новых технологий. Как вы подходите к этой задаче?
— По-разному. Например, в онлайн-магистратуре «Экономический анализ» мы используем технологии, которые позволяют организовать дистанционное обучение, а в наши курсы внедряем много современных методов. У нас есть курсы по применению машинного обучения в экономике: там мы учим, какие экономические задачи можно решать, анализируя большие данные, с помощью каких методов их можно обрабатывать, изучаем обработку текстов, различные методы классификации, регрессии и т.д.
Этот курс для нас записывали сотрудники Банка России с учетом реальных задач, которые они в рамках своей деятельности уже решают. Сейчас в Банке России очень много таких задач, где они изучают семантику текстов, новостные индексы, социальные сети, смотрят, как на политику ЦБ реагирует население, тем самым прогнозируют инфляционные ожидания.
Рынок труда
— Вы проводите исследования, включающие анализ рынка труда и миграционных процессов. Как искусственный интеллект помогает в этом направлении?
— В своих последних работах мы использовали машинное обучение для анализа и прогнозирования миграции с помощью цифрового следа в сети «Интернет» на основании статистики поисковых запросов, то есть того, что люди запрашивают в интернете относительно разных тематик. Есть уже агрегированная статистика — в нашем случае это Google Trend Index и «Вордстат» (статистика «Яндекса». — Ред.), которые представляют индексы по ключевым словам или по тематикам за определенный промежуток времени и показывают соответствующую динамику запросов. На основании этих динамик можно пытаться прогнозировать миграцию.
Часто имеющаяся статистика дается исследователям с большим лагом — от полугода и более. И наша работа как раз заключалась в том, что с помощью методов NLP-моделей (алгоритмы искусственного интеллекта, предназначенные для анализа, понимания и генерации человеческого языка. — Ред.) мы собирали облако ключевых запросов, которые отражают тематики, связанные с миграционным поведением. С другой стороны, используя выбранные ключевые параметры, мы строили эконометрические модели, с помощью которых сначала анализировали связь между ними, а потом уже строили прогнозы. Здесь также используются нейросети, в том числе для обнаружения взаимосвязи между миграцией и поисковыми запросами.
Фундаментальные знания и иерархия
— Какие перспективы развития искусственного интеллекта вы видите?
— Он будет применяться везде. В том числе будут развиваться технологии, связанные с автоматизацией рутинных процедур, задач, которые уйдут уже на откуп машинам и будут освобождать людям время и силы. В таком случае нам придется заниматься более интеллектуальной работой, создавать еще более совершенный искусственный интеллект. Я очень надеюсь, что это будет история про развитие и не позволит человечеству деградировать. Машины развиваются, начинают больше знать и активнее работать, люди тоже должны быть еще более развитыми и еще больше понимать. Это развитие человеческого капитала очень важно, чтобы искусственный интеллект был нашим помощником.
Например, в экономике ИИ может помочь нам проводить эксперименты. Мы ведь не можем экспериментировать над людьми. Новые технологии в перспективе позволят нам генерировать целые искусственные миры для проведения экономических экспериментов. Что-то подобное уже делается: это динамические оптимизационные модели, агентно-ориентированные модели. Это позволило бы экономистам проводить эксперименты, прежде чем ту или иную инициативу внедрять в жизнь.
Будет появляться все больше информации. Ее надо где-то хранить. Значит, нужны оперативные мощности по хранению, по обработке, по увеличению скорости — это направление тоже будет развиваться. Это должно подстегнуть IT-отрасли, связанные с разработкой технологий, созданием чипов и т.д.
Мне хотелось бы, чтобы за счет искусственного интеллекта мы могли узнавать о мире больше, чтобы наука была более прогрессивной, чтобы мы могли делать открытия быстрее, больше заботиться о нашей окружающей среде. Чтобы мы не совершали ошибки, а как-то могли их просчитать и предупредить, чтобы не было ситуаций, когда у нас происходят наводнения, пожары и тому подобное, чтобы эти модели нам в том числе позволяли заранее идентифицировать такие события и мы могли предупреждать их.
— Какие навыки в связи с появлением искусственного интеллекта становятся наиболее ценными для студентов-исследователей?
— Здесь нужно вот что сказать: вам все равно нужно уметь читать литературу, и эти новые средства связи помогут вам вычленить важную информацию. Использовать искусственный интеллект нужно в первую очередь как помощника. А раз он помощник, то вы должны быть руководителем этого процесса. Это значит, что вы должны лучше помощника разбираться в том, о чем его спрашиваете. Только в этом случае вы можете контролировать, что делает ваш помощник. В первую очередь нужно самому владеть той информацией, ради которой вы прибегаете к ассистенту. Поэтому фундаментальные знания никто не отменял. Также надо будет изучать математику, эконометрику, методы машинного обучения и в них разбираться, а потом уже делегировать часть рутины своему помощнику и заодно контролировать его работу.
С другой стороны, очень важный навык — это уметь сформулировать задачу и разложить ее на составляющие. Мы уже говорили об этом. Чтобы сформулировать задачу, нужно ее понять и передать вашему помощнику так, чтобы он тоже понял, что вы от него хотите. Это очень важная задача. Она в принципе нужна по жизни.
Если мы говорим о каких-то других историях, то, наверное, теперь уже не уйти от программирования. Всегда при анализе данных нужно что-то самостоятельно поменять в коде. У нас сейчас в Вышке разрабатываются все компетенции, необходимые для работы с данными. Минимальные навыки программирования — часть нашего будущего, в том числе общения с искусственным интеллектом. Да, будет и примитивный способ общения, когда, например, ассистент пытается вам помочь только с текстами. Если вы хотите чего-то большего, то нужно переходить на другой язык общения, значит, надо его изучать. При этом я считаю, что фундаментальные понятия, которым нас учили в школе и университете, все равно должны оставаться. Не должны они уходить — иначе иерархия не выстроится.
Факультеты экономических и компьютерных наук ВШЭ реализуют образовательную программу бакалавриата «Экономика и анализ данных» с целью подготовки высококлассных специалистов в области математики, программирования и анализа данных, которые имеют при этом фундаментальные знания в сфере экономики и финансов.
Обучение на программе проходит совместно со студентами двух флагманских бакалаврских программ: «Экономика» факультета экономических наук и «Прикладная математика и информатика» факультета компьютерных наук по модульной системе обучения. Два направления подготовки существенно расширяют спектр возможных направлений профессиональной деятельности, от финансовой аналитики до программирования.