В останні місяці швидкість, з якою були випущені інноваційні великі мовні моделі, вражає. У цій статті ми розглянемо основні подібності та відмінності між GPT4 і ChatGPT, включаючи методи навчання, продуктивність, можливості та обмеження.
GPT4 і ChatGPT базуються на старіших версіях моделей GPT із покращенням архітектури моделі, із застосуванням складніших методів навчання та з більшою кількістю параметрів навчання.
Обидві конструкції базуються на архітектурі трансформатора, яка використовує кодер для обробки вхідних послідовностей і декодер для генерації вихідних послідовностей. Кодер і декодер з'єднані механізмом, який дозволяє декодеру приділяти більшу увагу найважливішим вхідним послідовностям.
Технічний звіт GPT4 OpenAI пропонує мало розуміння архітектури моделі та процесу формування GPT4, посилаючись на «competitive landscape and the safety implications of large-scale models
“. Що ми знаємо, це те, що GPT4 і ChatGPT, ймовірно, навчаються однаково, що значно відрізняється від методів навчання, які використовуються для GPT-2 і GPT-3. Ми знаємо набагато більше про методи навчання ChatGPT, ніж GPT4, тож почнемо з цього.
ChatGPT навчається з діалоговими наборами даних, включаючи демонстраційні дані, де люди-анотатори демонструють очікуваний результат помічника чат-бота у відповідь на конкретні запити. Ці дані використовуються для налаштування GPT3.5 із контрольованим навчанням, створюючи модель політики, яка використовується для створення кількох відповідей, коли надходять запити. Потім люди-анотатори класифікують, яка з відповідей на задану підказку дала найкращі результати, що використовується для навчання моделі винагороди. Потім модель винагороди використовується для ітеративного тонкого налаштування моделі політики за допомогою навчання з підкріпленням.
ChatGPT навчається використовувати Навчання з підкріпленням за допомогою відгуків людини (RLHF), спосіб включити зворотний зв’язок людини для покращення мовної моделі під час навчання. Це дозволяє виводу моделі узгоджуватися з діяльністю, яку запитує користувач, а не просто передбачати наступне слово в реченні на основі сукупності загальних навчальних даних, таких як GPT-3.
OpenAI ще не розкриває подробиць про те, як він тренував GPT4. Їхній технічний звіт не містить «details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar
“. Те, що ми знаємо, так це те, що GPT4 є навченою генеративною багатомодовою моделлю в стилі трансформатора. Як на загальнодоступних даних, так і на даних третіх сторін, ліцензованих і згодом налаштованих за допомогою RLHF. Цікаво, що OpenAI поділився деталями щодо своїх оновлених методів RLHF, щоб зробити відповіді моделі більш точними та меншою ймовірністю дрейфу за межі огорожі безпеки.
Після навчання моделі політики (як у випадку з ChatGPT) RLHF використовується в змагальному навчанні, процесі, який навчає модель на шкідливих прикладах, призначених для того, щоб обманом змусити модель захистити її від таких прикладів у майбутньому. У випадку GPT4 експерти оцінюють відповіді політичної моделі на суперечливі вимоги. Ці відповіді потім використовуються для навчання додаткових моделей винагороди, які ітеративно вдосконалюють модель політики, в результаті чого модель, яка з меншою ймовірністю надасть небезпечні, ухильні або неточні відповіді.
З точки зору функціональності, ChatGPT і GPT4 більше схожі, ніж різні. Як і його попередник, GPT-4 також взаємодіє в розмовному стилі, який прагне узгодити з користувачем. Як ви бачите нижче, відповіді між двома моделями на широке запитання дуже схожі.
OpenAI погоджується, що різниця між моделями може бути незначною, і стверджує, що «різниця проявляється, коли складність завдання досягає достатнього порогу». Враховуючи шість місяців змагальності, яку пройшла базова модель GPT4 на етапі після навчання, це, ймовірно, точна характеристика.
На відміну від ChatGPT, який приймає лише текст, GPT4 приймає як зображення, так і текстові підказки, повертаючи текстові відповіді. На момент написання цієї статті, на жаль, можливість використання введених зображень ще не є загальнодоступною.
Як згадувалося вище, OpenAI повідомляє про значне покращення продуктивності безпеки для GPT4 порівняно з GPT-3.5 (з якого було налаштовано ChatGPT). Однак наразі незрозуміло, чи:
викликані самою моделлю GPT4 або додатковими суперечливими тестами.
Крім того, GPT4 перевершує CPT-3.5 у більшості академічних і професійних іспитів, які складаються людьми. Примітно, що GPT4 оцінюється в 90-му процентилі на єдиному іспиті адвоката порівняно з GPT-3.5, який оцінюється в 10-му процентилі. GPT4 також значно перевершує свого попередника за тестами традиційної мовної моделі та інших моделей SOTA (хоча інколи незначно).
І ChatGPT, і GPT4 мають значні обмеження та ризики. Системний аркуш GPT-4 містить інформацію про детальне дослідження цих ризиків, проведене OpenAI.
Це лише деякі ризики, пов’язані з обома моделями:
Хоча ChatGPT і GPT-4 мають однакові обмеження та ризики, OpenAI доклав особливих зусиль, включаючи численні суперечливі тести, щоб пом’якшити їх для GPT-4. Хоча це надихає, системна таблиця GPT-4 остаточно демонструє, наскільки вразливим був ChatGPT (і, можливо, досі є). Для більш детального пояснення шкідливих ненавмисних наслідків я рекомендую прочитати системний аркуш GPT-4, який починається на сторінці 38 Технічний звіт GPT-4 .
Хоча ми мало знаємо про архітектуру моделі та методи навчання GPT4, здається, існує вдосконалена версія ChatGPT. Фактично, наразі GPT4 може приймати зображення та введення тексту, а результати безпечніші, точніші та креативніші. На жаль, нам доведеться повірити OpenAI на слово, оскільки GPT4 доступний лише як частина підписки ChatGPT Plus.
Залишатися в курсі прогресу, ризиків і обмежень цих моделей дуже важливо, оскільки ми орієнтуємося в цьому захоплюючому, але швидко розвивається просторі великих мовних моделей.
BlogInnovazione.it
Microsoft Excel є довідковим інструментом для аналізу даних, оскільки він пропонує багато функцій для організації наборів даних,…
Walliance, SIM та платформа серед лідерів у Європі у сфері краудфандингу нерухомості з 2017 року, оголошує про завершення…
Filament — це «прискорений» фреймворк розробки Laravel, який надає кілька компонентів повного стеку. Він призначений для спрощення процесу…
«Я повинен повернутися, щоб завершити свою еволюцію: я спроектую себе всередині комп’ютера і стану чистою енергією. Поселившись у…
Google DeepMind представляє вдосконалену версію своєї моделі штучного інтелекту. Нова вдосконалена модель забезпечує не тільки…
Laravel, відомий своїм елегантним синтаксисом і потужними функціями, також забезпечує надійну основу для модульної архітектури. Там…
Cisco та Splunk допомагають клієнтам прискорити їхню подорож до Центру безпеки (SOC) майбутнього за допомогою…
Програми-вимагачі домінували в новинах протягом останніх двох років. Більшість людей добре знають, що напади...