У мережу виклали деталі про архітектуру GPT-4. Пишуть, що цей огляд не офіційний, але достатньо ґрунтовний

У мережі зʼявилися технічні подробиці про мовну модель GPT-4, яка нещодавно стала загальнодоступною. Деталі спершу опублікували у Twitter (наразі тред видалили), а згодом скопіювали на Reddit і Treadreader.

Як йдеться в короткому описі на Reddit, GPT-4 має 1,8 трлн параметрів на 120 рівнях, що в десять разів більше, аніж має GPT-3. GPT-4 використовує модель MoE (Mixture of Experts) із 16 експертами, кожен із яких має приблизно 111 млрд параметрів. MoE дозволяє робити логічне виведення ефективніше, потребуючи близько 280 млрд параметрів і 560 TFLOPs. Для щільної (попередньої) моделі потрібні були 1,8 трлн параметрів і 3700 TFLOPs.

«Якщо у кількох словах, то модель в десять разів більша, краще використовує ресурси та швидше працює, але вартість логічного виведення збільшилася у три рази», — підсумовує видання ITC.

«Судячи з усього, оцінка в 1.8 трлн параметрів на 120 рівнях виявилася правдивою, як і робота в режимі групи експертів. Це не офіційний, але достовірний огляд. Спиратися на нього не варто, але обговорювати можна», — зазначають у популярному Telegram-каналі «addmeto», який пише про новини зі світу технологій.

Модель навчається приблизно на 13 трлн токенів із різних джерел. Здебільшого це інтернет, книги та наукові статті. Щоб зменшити витрати на навчання, OpenAI використовує тензорний і конвеєрний паралелізм. Орієнтовна вартість навчання для GPT-4 становить близько $63 млн.

Хоча більша кількість експертів могла б покращити продуктивність моделі, OpenAI вирішили використати 16 через проблеми з узагальненням та конвергенцією. Вартість логічного висновку GPT-4 утричі вища, ніж у його попередника DaVinci. Модель також включає окремий відеокодер з перехресною увагою для мультимодальних завдань, таких як читання вебсторінок та розшифровка зображень і відео.

Більше інформації про архітектуру GPT-4 можна переглянути за посиланням.


Нагадаємо, OpenAI повідомила, що з 6 липня всі клієнти, які платять за доступ до ChatGPT API, мають доступ до GPT-4. Також у компанії анонсували, що планують припинити підтримку старих моделей інтерфейсів Completions API, користувачам рекомендують впровадити Chat Completions API.

Компанія також робить загальнодоступними API-інтерфейси GPT-3.5 Turbo, DALL E і Whisper. Фахівці працюють над безпечною можливістю тонкого налаштування для GPT-4 та GPT-3.5 Turbo. В OpenAI зазначили, що ця функція буде доступна упродовж цього року.

Похожие статьи:
Мене звуть Володимир, я QA Automation Engineer у компанії Matic. Люблю автоматизувати процеси й постійно пробую нові та цікаві технології....
Олег Кобзар уже десять років працює в IT й нині обіймає позицію Senior JavaScript Developer. А з початком повномасштабної війни він став...
В выпуске: разбираемся как живет Front-end инженер в Slack, смотрим документальный фильм о Vue.js, пробуем Svelte, апргрейдим CSS-скилы...
Наскільки схожа робота IT-фахівця у приватному секторі й робота того, хто працює в лавах Збройних сил? Чи можливо...
220-й выпуск подкаста «Откровенно про IT карьеризм». В подкасте пойдет речь о путешествиях, Азии...
Яндекс.Метрика