Популярный GPT-4 использует технологии 30-летней давности: стали известны и другие тайны
29 июня 2023 в 14:44
117
Сэм Альтман, ChatGPT, GPT-4, искусственный интеллект
Фото: Getty | GPT-4 Сэма Альтмана основывается на технологиях, которые использовала еще Google
Известный бывший хакер, который первым взломал iPhone и Sony Playstation 3, поделился секретами самого известного чат-бота на планете.

Оказывается, языковая модель GPT-4, которую разработала OpenAI, имеет размер 1,76 трлн параметров и использует технологию 30-летней давности, сообщает The Decoder. GPT-4 основан на восьми моделях, каждая из которых имеет 220 млрд параметров, которые связаны в архитектуре Mixture of Experts (MoE). Этой идее почти 30 лет, и она уже использовалась для больших языковых моделей, таких как Google Switch Transformer.

Информация о GPT-4 исходит от Джорджа Хотца, основателя Comma.ai, стартапа по автономному вождению. Хотц — эксперт по искусственному интеллекту, который также известен своим хакерским прошлым: он первым взломал iPhone и Sony Playstation 3.

Другие эксперты по искусственному интеллекту также прокомментировали ленту Хотца в Твиттере, заявив, что его информация, скорее всего, верна.

твиттер, twitter, GPT-4, Mixture of Experts, MoE
Эксперты по искусственному интеллекту подтвердили слова Хотца
Фото: Скриншот
Модель MoE представляет собой тип ансамблевого обучения, который объединяет различные модели, называемые «экспертами», для принятия решения. В модели MoE шлюзовая сеть определяет вес выходных данных каждого «эксперта» на основе входных данных. Это позволяет разным «экспертам» специализироваться на разных частях входного пространства. Эта архитектура особенно полезна для больших и сложных наборов данных, так как она может эффективно разделить проблемное пространство на более простые подпространства.

Архитектура, возможно, упростила обучение GPT-4, позволив разным командам работать в разных частях сети. Это также объясняет, почему OpenAI смогла разработать мультимодальные возможности GPT-4 независимо от доступного в настоящее время продукта и выпустить их отдельно.

Хотц также предположил, что GPT-4 выдает не один результат, а итеративно 16 результатов, которые улучшаются с каждой итерацией. Сообщество разработчиков открытого исходного кода теперь может попытаться воспроизвести эту архитектуру; идеи и технологии были доступны в течение некоторого времени. Тем не менее GPT-4, возможно, показал, насколько далеко может зайти архитектура MoE с правильными обучающими данными и вычислительными ресурсами.