GPT (Generative Pre-trained Transformer) – это алгоритм глубокого обучения, который используется для генерации текста, перевода речи и других задач обработки естественного языка. GPT является моделью искусственного интеллекта.
Одной из особенностей GPT является его способность генерировать текст в контексте. Это означает, что модель учитывает предыдущий контекст при генерации новых слов или предложений. Благодаря этому GPT может создавать осмысленный и грамматически правильный текст, который соответствует конкретной теме и контексту.
Однако, несмотря на заявленные преимущества, GPT имеет некоторые ограничения. Например, модель не всегда способна генерировать тексты, полностью соответствующие требованиям задачи или обладающие высокой оригинальностью. Также могут возникать проблемы с пониманием контекста, что может приводить к генерации некорректных текстов.
Недавнее исследование, проведенное специалистами из Стэнфордского университета и Калифорнийского университета в Беркли, поднимает важный вопрос о точности и надежности крупномасштабной языковой модели ChatGPT компании OpenAI. В ходе исследования было обнаружено, что качество ответов, генерируемых системой GPT, с течением времени снижается, что вызывает обеспокоенность у исследователей.
Для проверки согласованности процедур ChatGPT, используемых в GPT-3.5 и GPT-4, исследователи провели серию экспериментов. Они анализировали склонность искусственного интеллекта к «дрейфу» – изменению качества и точности ответов, а также его способность выполнять заданные команды. В ходе экспериментов исследователи просили ChatGPT-3.5 и GPT-4 решать математические задачи, отвечать на сложные и деликатные вопросы, а также генерировать компьютерный код по заданным инструкциям.
Результаты исследования показали, что поведение ChatGPT существенно меняется со временем. Например, в марте 2023 года точность определения простых чисел в системе GPT-4 составляла около 98%. Однако к июню того же года точность GPT-4 при решении той же задачи снизилась до менее чем 3%. В то же время GPT-3.5, выпущенный 3 июня, показал улучшение в определении простых чисел по сравнению с предыдущей версией, выпущенной в 2023 году. Что касается генерации компьютерного кода, то в период с прошлого месяца по июнь обе версии системы снизили свою способность генерировать код.
В исследовании также отмечается, что пользователи сыграли заметную роль в увеличении некорректности и даже фейковости ответов, сгенерированных GPT. В связи с этим, исследователи считают необходимым предоставить ряд пояснений, которые могут влиять на качество ответов GPT.
GPT отличается от поисковых систем тем, что имеет зачатки когнитивности. Анализ пользовательского опыта показывает, что при работе с GPT пользователи стараются вести диалог с ним так же, как они обращаются к поисковым системам. Рассмотрим, какие бывают запросы.
1) Примитивные инструкции – это запросы, составленные по аналогии с обращениями к поисковым системам. Например: «перечисли российских специалистов, исследовавших маркетинг как науку». В ответ на такой примитивный вопрос GPT может дать примитивный ответ, который характеризуется фейковостью. Фейк (англ. fake – подделка) – это что-то недостоверное, сфальсифицированное, выдаваемое за реальное. Фейковость ответа обусловлена конкретными обстоятельствами.
В середине 2023 года в Калифорнии было подано три коллективных иска против OpenAI и Meta от нескольких писателей, включая Сару Сильверман. В исках утверждается, что OpenAI и Meta, используя свои LLM-системы ChatGPT и LLaMA, использовали авторские тексты, опубликованные в Интернете, что является прямым нарушением авторских прав.
Истцы утверждают, что генеративные языковые модели ChatGPT и LLaMA способны создавать тексты, написанные по образу и подобию авторских интернет-публикаций, включая ход мысли, юмористические шутки и другие художественные элементы. Они обвиняют OpenAI и Meta в использовании интеллектуальной собственности авторов без их согласия в процессе обучения LLM-систем. Истцы утверждают, что такое использование нарушает их авторские права и подрывает ценность и оригинальность их работ.
Таким образом, GPT – это система, которая компилирует новый текст, используя данные, полученные в результате индексации Интернета. Интернет содержит различный контент, как качественный, так и некачественный. Процесс компиляции GPT не является идеальным, поэтому пользователи могут получать контент, который кажется правдоподобным, но имеет мало общего с реальностью. Вторым аспектом этой проблемы является попытка разработчиков снизить претензии авторов материалов, на которых учился GPT. В погоне за оригинальностью контента GPT может генерировать фейковую информацию.
2) Расширенные инструкции представляют собой задание нескольких условий, которые приводятся в квадратных скобках промпт 1.
Пример запроса-инструкции 1
Напишите статью, объемом [2000] знаков, используя [научный стиль изложения] и естественный язык, укажите и сгруппируйте основные проблемы профессиональной подготовки и повышения квалификации персонала [представленные в трудах российских ученных] за период [2000-2010 гг.] избегайте многократного повторения синонимов
3) Сложные запросы включают в себя несколько условий и конкретную информацию, необходимую для формирования ответа GPT. В качестве конкретной информации для обработки GPT может использовать статьи, отчеты, табличные, графические материалы, данные из аналогичных исследований.
Эта информация предоставляет фактический материал, с которым GPT работает, извлекая данные, делая рефераты, обобщения и перефразировки.
Одним из преимуществ сложных запросов является использование компилятивного потенциала GPT, что значительно снижает вероятность генерации фейкового контента. В результате, сгенерированный контент содержит фактический материал, а не общие фразы, промпт 2.
Пример запроса-инструкции 2
Напишите статью, объемом [2000] знаков, используя [научный стиль изложения] и естественный язык, укажите и сгруппируйте основные проблемы профессиональной подготовки и повышения квалификации персонала [текст, касающийся исследуемой проблемы] избегайте многократного повторения синонимов.