Участники мастерских анализа текстовых данных и «Пиши расширяй» провели два совместных исследования и попробовали научить нейросети понимать поэзию. Коллаборацию представили на Биеннале. Мы расспросили Лизу Асташкину и Алису Семенову из Мастерской анализа текстовых данных, что получилось, а что не очень.
Первый проект посвятили любовной поэзии: авторы хотели выяснить, есть ли разница в том, как пишут о своих чувствах мужчины и женщины. Для этой цели выбрали модель машинного обучения для классификации текстов.
— Я обучила модель на датасете из 19 тысяч русскоязычных стихов, включая современные, — рассказала Лиза. — А потом уже обученной нейросети мы дали еще 12 текстов и попросили определить пол автора. Эту же задачу мы предложили посетителям Биеннале.
Люди справились лучше, чем нейросеть: почти всех авторов она отнесла к мужчинам. Лиза объяснила, что в датасете было гораздо больше мужских текстов, и это могло повлиять на результаты обучения.
— Но вот Женя из «Пиши расширяй» сказала, что всех поэтесс, которых нейросетка определила как мужчин, московские профессора тоже определяли как «нормальных человеческих поэтов». А Ахматова пишет «как баба», и нейросетка ее единственную из этих 12 текстов определила как женщину, — добавила Лиза.
По словам Лизы, модели машинного обучения для классификации текстов также нередко используют и в коммерческих целях: в чат-ботах, при оценке токсичных комментариев в соцсетях. Можно даже научить нейросеть отличать компетентных специалистов от блогеров-мошенников.
Второй проект представили на Биеннале в виде загадок: нужно было определить по краткому пересказу от нейросетей оригинальное стихотворение. Для этого Алиса выбрала готовый суммаризатор — специально обученную нейросеть, которая способна из большого текста выбрать только суть, передать главную мысль с помощью выдержек из текста или добавляя что-то от себя. Судя по результатам, этот суммаризатор «кормили» новостями:
— Например, ребятам понравился «Гамлет» Пастернака: «Прошлой ночью Ава Оче (на этом месте литературоведы обычно угадывали) чашу вышла в подмосковный СИЗО». Почему суммаризатор так решил? Ну вот так решил. Про «Свиристелей» Хлебникова красиво получилось: «Сможете ли вы выпить, если вы пьете как струны, сделайте так, чтобы вам было комфортно, скажите, что вы пьяны, когда будете пить, и поздравляю».
Чтобы отгадать стих было легче, Алиса добавила второй уровень суммаризации с помощью GPT.
— Я называю это GPT с характером. Она любит общаться в таком «йоу-формате». И там были начала типа «Йоу, сейчас мы этого текста основную мысль передадим, sorry за дип отчет, если что». А в середине было нормально. В промпте я просила не использовать слова из оригинала. И он достаточно качественно описывал, какую мысль автор передает, вот с этими фразочками. Стихотворение «Пора, мой друг, пора!..» теперь у нас называется «философская размышлялка» — зато не поспорить.
Скриншот с примером йоу-формата.
По словам Алисы, GPT справился с задачей лучше, чем суммаризатор. Здесь все тоже упирается в данные, на которых училась модель, и цели, для которых ее разрабатывали.
— Суммаризаторы могут писаться под чат в телеграме — это одна область. А стихотворение — это, на самом деле, уже немного другая. Видимо, качественных суммаризаторов со стихотворениями нет. Даже генеративок, которые создавали бы красивые стихотворения, еще нет. Нужно учитывать язык: есть вероятность, что на английском языке уже смогли добиться хороших результатов.
Тем не менее, обучать суммаризатор по-прежнему выгоднее, чем использовать более универсальную GPT. Генеративные модели огромные и тяжелые, в них много правил и настроек. Интегрировать их сложнее, и не всегда это эффективно для решения задач в узкой сфере. Поэтому маленькие модельки до сих пор делают — и даже проводят хакатоны именно по ним.
Текст: Яра Гуляева
Фото: Люка Семенова
Фото: Люка Семенова