Проектно-учебная лаборатория экономической журналистики

История о том, как Зелибоба стала Балабобой

17 июня 2021 года «Яндекс» официально представил нейросеть «Балабоба» – генератора предложений на основе введённого текста. Интересным является то, что сервис был открыт для пользователей незадолго до релиза под другим названием – «Зелибоба». Стажер Лаборатории экономической журналистики Рубен Асатуров решил разобраться в механизме работы «Балабобы» и узнать у неё, а нужны ли теперь Лаборатории стажёры?

Кадр из мультсериала «Лунтик», создатель Александр Боярский. Россия, 2006 – н. в.

Кадр из мультсериала «Лунтик», создатель Александр Боярский. Россия, 2006 – н. в.

«Яндекс» не открыл Америку, представив революционный продукт. На рынке и до этого было множество примеров нейросетей, генерирующих тексты. Одной из самых знаменитых подобных нейросетей является GPT-3, которая ведет свою собственную колонку на The Guardian.

«Я знаю, что мой мозг — это не “чувствующий мозг”. Но он может принимать рациональные, логические решения. Я научилась всему, что я знаю, просто читая интернет, и теперь могу написать эту колонку»

Из колонки GPT-3 для The Guardian

GPT-3 является языковой моделью, которую разработала некоммерческая организация Илона Маска и Сэма Альтмана OpenAI. Нейросеть работает по принципу генерирования слов, предсказывая мысли автора на основе уже написанного текста. Таким образом, она пытается найти связи между словами и предлагает наиболее вероятную последовательность. Одной из самых явных аналогий будет сравнение с известной функцией Т9, которой не пользовался только ленивый, а точнее лишь неленивый ею и не пользуются. «Сбербанк» в конце 2020 года представил локализацию GPT-3 языковой модели на русский язык.

«Балабоба» создавалась Яндексом не с нуля и не просто для развлечений, а в качестве маркетингового хода. Хотя, безусловно, стоит признать, что такие большие компании, как «Яндекс», любят выпускать подобные игрушки, которые пользователи охотно обсуждают в социальных сетях и делают мемы с ними. В качестве примера можно вспомнить сайт от Microsoft, который по загруженной фотографии определяет, собакой какой породы мог бы быть изображённый на ней человек, хотя изначально функция сервиса заключалась исключительно в определении пород собак по фото.

Внутри «Балабобы» — разработанная командой «Яндекса» языковая модель YaLM (Yet another Language Model), вдохновленная GPT-3 от компании OpenAI и другими языковыми моделями на архитектуре Transformer. У такой модели ровно одна задача — генерировать каждое последующее слово в предложении. Чтобы текст получился связным и грамматически правильным, во время обучения модель оценивает каждое предсказанное слово: например, решает, может ли после «Мама мыла...» идти слово «бегать» или слово «раму».

Источник: официальный сайт Балабобы, https://yandex.ru/lab/yalm 

Для того, чтобы тексты, которые пишет «Балабоба» были бы разумными, модель обучалась на терабатайтах данных: статьи Википедии, популярные страницы рунета, статьи, книги и даже публикации с диалогами пользователей социальных сетей.

Но главная особенность «Балабобы» заключается в том, что она очень быстро учится чему-то новому. Если раньше для обучения модели требовалось скормить тысячи примеров, то сейчас можно представить всего лишь несколько образцов, и «Балабоба» сможет сгенерировать продолжение текста.

Немаловажным является забота «Яндекса» об этике. Перед тем как воспользоваться сервисом, необходимо прочесть предупреждение о том, что нейросеть «может сказать всякое – если что, не обижайтесь». А при желании написать текст про политику или на любую другую острую тему, которая может кого-то задеть или дезинформировать, появится дисклеймер о том, что «Балабоба» не принимает запросы по данной тематике. Модель, на которой основана «Балабоба» применяется «Яндексом» в первую очередь в их флагманских проектах: «Яндекс.Поиск» и «Алиса».

Скриншот примера работы Балабобы
Скриншот примера работы Балабобы
https://yandex.ru/lab/yalm

У «Яндекс.Поиска» есть очень удобная функция – быстрые ответы. Это такой текст, который отвечает на вопрос пользователя и показывается в самом верху выдачи результатов поиска. Если раньше «Яндекс» брал большую часть этих ответов на сайтах, то сейчас в качестве ответов выступают сгенерированные «Балабобой» предложения на основе выдачи по запросу. Как было уже отмечено, модель обучалась на диалогах пользователей социальных сетей, а делалось это не просто так. У «Алисы», голосового помощника от «Яндекса», кроме вспомогательной функции, имеется возможность вести диалог с человеком на самые разные темы, выступая в роли собеседника. При этом диалог реализуется благодаря «Балабобе», а точнее ее модели.

«Балабоба» позволяет выбрать несколько различных стилей генерации текстов:

  • Теория заговора
  • ТВ-репортажи
  • Тосты
  • Пацанские цитаты
  • Рекламные слоганы
  • Короткие истории
  • Подписи в Instagram
  • Короче, Википедия
  • Синопсисы фильмов
  • Гороскоп
  • Народные мудрости

Бояться ли стажёрам сокращения?
Бояться ли стажёрам сокращения из-за «Балабобы»? Они будут знать, что это все правда и они не нужны. А потом могут найти работу, например, в Макдональдсе.

Дорогие читатели, в предыдущем абзаце вы могли наблюдать пример работы «Балабобы»: вопрос задан автором этого текста, а ответ дан моделью. Эксперимент показывает, что текст стажера Лаборатории экономической журналистики трудно отличить от текста, сгенерированного «Балабобой». Из этого можно сделать два вывода: либо уровень текста данного автора ничтожно низок, и его невозможно отличить от сгенерированного текста, либо уровень «Балабобы» настолько высок, что соответствует уровню стажера Лаборатории.

«Безусловно, “Балабоба” даст порезвиться пользователям рунета и поупражняться в остроумии благодаря таким функциям, как пацанские цитаты или подписи к постам в Instagram, — заявил стажёру Лаборатории экономической журналистики аналитик данных группы компаний «Ланит», соавтор подкаста о технологиях и бизнесе «На стадии разработки» Степан Гончаров. — Но на первый взгляд, за нелепыми ответами скрывается довольно сложный механизм, который позволит «Яндексу» не только улучшить свои продукты, но и дать мощный фундамент для развития сервисов на основе искусственного интеллекта, на котором сейчас строится его бизнес».

Степан Гончаров
Степан Гончаров
https://vk.com/st.goncharov

В сериале «Кремниевая долина» один из главных героев создал бота, основанного на искусственном интеллекте, который общался с друзьям в социальных сетях вместо него. И если сейчас «Балабоба» может показаться смешной игрушкой, которую можно использовать так же, как и в сериале, то в будущем ситуация кардинально изменится. На данный момент мы стоим у истоков зарождения индустрии искусственного интеллекта, уже внедрённого во все онлайн-пространства, которыми мы пользуемся. И приложения, подобные «Балабобе», являются побочными игрушками весьма невеселых и умных интеллектуальных машин.

Кадр из сериала «Кремниевая долина», создатели Дэйв Крински, Джон Альтшулер, Майк Джадж. HBO, 2014 – 2019.
Кадр из сериала «Кремниевая долина», создатели Дэйв Крински, Джон Альтшулер, Майк Джадж. HBO, 2014 – 2019.