«Боты пока что копиисты, а не художники»: как отличить искусственный интеллект от живого автора
Автор: Александра Зинченко, стажер-исследователь Проектно-учебной лаборатории экономической журналистики НИУ ВШЭ специально для HSE.Daily
Кем и для чего создаются современные тексты, задался вопросом Василий Громов. Его поколение и поколение молодых людей, присутствующих на лекции, выросло на произведениях, написанных людьми для людей: авторы таких текстов вкладывали определенный смысл в свои работы, имели перед собой некую цель, будь то «Курочка Ряба», «Война и мир» или учебник математического анализа для первокурсников, отмечает профессор. Однако сейчас дети с самого раннего возраста окружены текстами, написанными непонятно кем, для кого и для чего. Василий Громов и его коллеги задались вопросом, вырастет ли этот ребенок таким же, каким выросли все мы.
Василий Громов
Само по себе происходящее изменение ни хорошо, ни плохо, ведь мир меняется, а человечество сейчас находится в процессе «коэволюции системы искусственного интеллекта и человека»: вместе со своим стремительным развитием ИИ подстраивается под человека, но и человек также начинает подстраиваться под искусственный интеллект. Для безопасности своего будущего или хотя бы для «элементарной информационной гигиены» необходимо научиться отличать тексты, сгенерированные ботами (системами искусственного интеллекта, генерирующими тексты на естественном языке вроде русского, китайского и т.д.), от тех, что написаны людьми.
Определить с помощью уже имеющегося сгенерированного текста, написан он конкретным ботом или же человеком, не составит особого труда: необходимо всего лишь загрузить в нейросеть огромное количество подобных сгенерированных текстов — и всё готово. Однако тогда никто не будет пользоваться данным конкретным ботом, его просто заменят другим искусственным интеллектом. Следовательно, ученым необходимо разработать такой механизм, который смог бы отличать всех ботов от всех людей. Для этого необходимо обратиться к структуре языка как такового, что подводит нас к исследованиям, посвященным тому, что такое любой естественный язык с точки зрения математики. Чтобы дать ответ на этот вопрос, необходимо несколько логических шагов.
1. В области обработки естественных языков существует направление, которое занимается представлением слов и последовательностей слов (n-грамм, где n — количество слов) в виде векторов (нескольких элементов определенного количества, идущих подряд), что создает определенное векторное пространство.
2. Работая с представлением отдельных слов, можно заметить, что словарный запас ботов ничем не отличается от словарного запаса обычного человека. Однако, как только речь заходит о последовательности из двух-трех слов, оказывается, что генерируемая ботами последовательность существенно более прогнозируемая и намного беднее в плане языка, чем та, которую может создать даже самый скудно образованный человек (например, бот чаще склонен к повторению шаблонов). Разница между последовательностью n-грамм ботов и людей статистически значима даже для крупных ботов (ChatGPT), что и помогает их ловить.
3. Для дальнейшего исследования естественного языка с математической точки зрения необходимо вынести некие суждения, как эти слова расположены в пространстве. Существуют области векторного пространства (в особенности когда речь идет о последовательности слов), которые посещают только боты, а есть те, которые посещают только люди. Большая часть (90–95%) используется и теми и другими, но есть отдельные ботовские области — это еще один способ их подлавливать.
Если же кластеризовать (математическая операция, когда наборы похожих элементов можно объединить в одну группу — кластер) последовательность ботов, эти последовательности оказываются более жесткими, компактными и без всяких разночтений. Когда кластеризуют словесную последовательность людей разного пола и возраста, с разным образованием и бэкграундом, то получаются более размытые, нечеткие кластеры. Люди мыслят существенно менее четко, чем боты, — и это еще один способ их поимки.
4. Если каждое слово или каждую n-грамму представить как вектор, то всю их совокупность можно представить как геометрический объект или некую поверхность в многомерном пространстве. Взяв все возможные словесные последовательности в русском языке, можно обнаружить, что они не заполняют всё семантическое пространство, но лишь часть его. Ученые могут изучить и измерить данную последовательность в качестве некой поверхности, даже сравнить ее с другими поверхностями (например, с поверхностью английского языка). Так, у каждой поверхности в пространстве есть размерность, т.е. количество независимых параметров, необходимых для описания этого объекта (у точек на сфере, к примеру, это два значения — долгота и широта). Изучая размерность естественного языка, Василий Громов ожидал получить значение бесконечности, но в итоге аналитики пришли к выводу, что язык обладает 9–10-значной размерностью, причем эта цифра немного различается от языка к языку, но что однозначно: язык человека лежит в пространстве большей размерности, чем язык бота.
5. Наконец, только недавно, по результатам 2023 года, ученые выяснили, что данная поверхность имеет в себе дырки, напоминая швейцарский сыр. Дырки — это те области семантического пространства, к которым наш язык пока не пришел. Хотя на данный момент аналитики не могут четко обозначить, что за ними скрывается, но их уже можно отыскать. Интересно, что у разных языков разные дырки, или, как их еще называют, слепые пятна. Но что важно для поимки ботов: людей тянет к границам подобных дырок, т.к. они используют язык для создания новых смыслов и идей; боты же, как выученные программы, уходят подальше от этих дыр, что пока облегчает задачу их поимки.
Занимательно, но на границах дырок часто оказывается юмор!
«Боты пока что копиисты, а не художники. Технологии не стоят на месте, поэтому мы должны пытаться решить задачу “поймай бота” и должны пытаться понять, что такое язык с точки зрения математики», — подытожил Василий Громов.