Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Andrej Karpathy

Будівля @EurekaLabsAI. Раніше директор AI @ Tesla, команда засновників @ OpenAI, CS231n/PhD @ Stanford. Мені подобається тренувати великі глибокі нейронні мережі.

У мене була така сама думка, тому я експериментую з цим у nanochat. Наприклад, ось 8 агентів (4 claude, 4 codex), кожен з яких виконує по 1 GPU, що запускає експерименти з nanochat (спроба видалити logit softcap без регресії). Коротко: це не працює і це повний безлад... Але все одно дуже гарно дивитися на :) Я пробував кілька варіантів: 8 незалежних самостійних дослідників, 1 головний науковець, який дає роботу 8 молодшим дослідникам тощо. Кожна дослідницька програма — це гілка git, кожен науковець розділяє її на feature branch, git worktree для ізоляції, прості файли для зв'язку, пропускаю Docker/VM для простоти (я вважаю, що інструкції достатні, щоб уникнути перешкод). Дослідницька організація працює у tmux віконних сітках інтерактивних сесій (як у Teams), щоб було приємно дивитися, бачити їхню індивідуальну роботу і «взяти на себе», якщо потрібно, тобто без -p. Але добре, причина, чому це поки не працює, у тому, що ідеї агентів дуже погані з самого кінця, навіть на найвищому рівні інтелекту. Вони не замислюються над експериментальним дизайном, мають трохи безглузді варіації, не створюють сильних базових ліній і не аблюють, не контролюють час виконання чи флоп. (Наприклад, учора агент «виявив», що збільшення прихованого розміру мережі покращує втрати валідації, що є абсолютно хибним результатом, враховуючи, що більша мережа матиме менші втрати валідації в режимі нескінченних даних, але тоді вона тренується набагато довше, не зрозуміло, навіщо мені це вказати). Вони дуже добре реалізовують будь-яку чітко охоплену ідею, але не генерують її творчо. Але мета в тому, що ви зараз програмуєте організацію (наприклад, «дослідницьку організацію») та її окремих агентів, тож «вихідний код» — це збірка запитів, навичок, інструментів тощо та процесів, які його складають. Наприклад, щоденний стендап вранці тепер є частиною «організаційного коду». А оптимізація попереднього навчання наночату — це лише одне з багатьох завдань (майже як оцінка). Тоді — якщо ваша довільна задача, наскільки швидко ваша дослідницька організація досягає прогресу?

З наближенням хвилі попиту на токени з'являються значні можливості організувати базову пам'ять+обчислення *ідеально* для LLM. Фундаментальне і не очевидне обмеження полягає в тому, що через процес виготовлення чипа ви отримуєте два абсолютно різні пули пам'яті (різних фізичних реалізацій): 1) вбудована SRAM, яка знаходиться безпосередньо поруч із обчислювальними блоками, надзвичайно швидка, але з дуже низькою ємністю, і 2) позачипова DRAM з надзвичайно великою ємністю, але вміст якої можна лише висмоктати через довгу соломинку. Крім того, є багато деталей архітектури (наприклад, систолічні масиви), чисельна техніка тощо. Проєктування оптимального фізичного субстрату, а потім оркестрація пам'яті+обчислення між робочими процесами LLM з максимальним обсягом (inference, prefill/decode, training/finetuning тощо) з найкращою пропускною здатністю/затримкою/$ — це, мабуть, найцікавіша інтелектуальна головоломка сьогодні з найвищими винагородами (\cite 4.6T NVDA). Все це — щоб швидко і дешево отримати багато токенів. Можна стверджувати, що найважчий робочий процес, який має найбільше значення (декодування виведення *і* у довгих контекстах токенів у вузьких агентних циклах), є найскладнішим для одночасного виконання ~обома таборами, які існують сьогодні (HBM-перша сусідня NVIDIA та SRAM-перша Cerebras). У будь-якому разі, команда MatX має клас A++, тож мені приємно мати невелику участь і вітаю з підвищенням!

Ми створюємо LLM-чіп, який забезпечує значно вищу пропускну здатність, ніж будь-який інший чип, при цьому досягаючи найнижчої затримки. Ми називаємо його MatX One. Чіп MatX One базується на розділеному систолічному масиві, який має енергетичну та площинну ефективність, за яку славляться великі систолічні масиви, а також забезпечує високу ефективність на менших матрицях з гнучкими формами. Чіп поєднує низьку затримку SRAM-орієнтованих конструкцій із підтримкою довгого контексту HBM. Ці елементи, а також свіжий підхід до числової техніки, забезпечують вищу пропускну здатність на LLM, ніж будь-яка анонсована система, одночасно відповідаючи затримці SRAM-орієнтованих дизайнів. Вища пропускна здатність і менша затримка дають вам розумніші та швидші моделі за ваші гроші підписки. Ми залучили $500 млн серії B, щоб завершити розробку та швидко масштабувати виробництво, з завершенням роботи менш ніж за рік. Раунд очолили Jane Street, одна з найбільш технологічно підкованих компаній Волл-стріт, та Situational Awareness LP, засновник якої @leopoldasch написав визначальну записку щодо AGI. Серед учасників — фонд @sparkcapital, @danielgross та @natfriedman, @patrickc і @collision, @TriatomicCap, @HarpoonVentures, @karpathy, @dwarkesh_sp та інші. Ми також вітаємо інвесторів у всьому ланцюгу постачання, зокрема Marvell та Alchip. @MikeGunter_ і я заснували MatX, бо вважали, що найкращий чіп для LLM має бути розроблений з перших принципів із глибоким розумінням потреб LLM і того, як вони будуть еволюціонувати. Ми готові відмовитися від продуктивності малих моделей, невеликих обсягів роботи та навіть простоти програмування для створення такого чипа. Зараз у нас команда зі 100 осіб, які думають про все: від вивчення розкладів швидкості до розкладу Swing Modulo Schedule, до guard/round/sticky bits, до сліпих з'єднань — усе це в одній будівлі. Якщо ви хочете допомогти нам спроектувати, проєктувати та впроваджувати багато поколінь чипів у великих обсягах, розгляньте можливість приєднатися до нас.

Найкращі

Рейтинг

Вибране