Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Andrej Karpathy

Xây dựng @EurekaLabsAI. Trước đây là Giám đốc AI @ Tesla, nhóm sáng lập @ OpenAI, CS231n / PhD @ Stanford. Tôi thích đào tạo các mạng nơ-ron sâu lớn.

Tôi đã có cùng một suy nghĩ nên tôi đã chơi với nó trong nanochat. Ví dụ, đây là 8 tác nhân (4 claude, 4 codex), mỗi cái có 1 GPU chạy các thí nghiệm nanochat (cố gắng xóa logit softcap mà không bị hồi quy). Tóm lại là nó không hoạt động và thật lộn xộn... nhưng vẫn rất đẹp để nhìn :) Tôi đã thử một vài thiết lập: 8 nhà nghiên cứu độc lập, 1 nhà khoa học trưởng giao việc cho 8 nhà nghiên cứu trẻ, v.v. Mỗi chương trình nghiên cứu là một nhánh git, mỗi nhà khoa học phân nhánh nó thành một nhánh tính năng, git worktrees để cách ly, các tệp đơn giản cho giao tiếp, bỏ qua Docker/VMs để đơn giản hóa tạm thời (tôi thấy rằng hướng dẫn là đủ để ngăn chặn sự can thiệp). Tổ chức nghiên cứu chạy trong các cửa sổ tmux của các phiên tương tác (như Teams) để nó đẹp mắt, thấy được công việc cá nhân của họ, và "tiếp quản" nếu cần, tức là không có -p. Nhưng lý do mà nó không hoạt động cho đến nay là ý tưởng của các tác nhân thực sự rất tệ ngay từ đầu, ngay cả khi có trí tuệ cao nhất. Họ không suy nghĩ cẩn thận về thiết kế thí nghiệm, họ chạy một số biến thể không hợp lý, họ không tạo ra các cơ sở mạnh mẽ và không loại bỏ các yếu tố một cách hợp lý, họ không kiểm soát cẩn thận thời gian chạy hoặc flops. (chỉ là một ví dụ, một tác nhân hôm qua "khám phá" rằng việc tăng kích thước ẩn của mạng cải thiện tổn thất xác thực, điều này là một kết quả hoàn toàn giả tạo vì một mạng lớn hơn sẽ có tổn thất xác thực thấp hơn trong chế độ dữ liệu vô hạn, nhưng sau đó nó cũng đào tạo lâu hơn, không rõ tại sao tôi phải vào để chỉ ra điều đó). Họ rất giỏi trong việc thực hiện bất kỳ ý tưởng nào được xác định rõ ràng và mô tả nhưng họ không sáng tạo để tạo ra chúng. Nhưng mục tiêu là bạn đang lập trình một tổ chức (ví dụ, một "tổ chức nghiên cứu") và các tác nhân cá nhân của nó, vì vậy "mã nguồn" là tập hợp các lời nhắc, kỹ năng, công cụ, v.v. và các quy trình tạo nên nó. Ví dụ, một cuộc họp hàng ngày vào buổi sáng giờ đây là một phần của "mã tổ chức". Và tối ưu hóa việc tiền huấn luyện nanochat chỉ là một trong nhiều nhiệm vụ (gần như như một đánh giá). Sau đó - với một nhiệm vụ tùy ý, tổ chức nghiên cứu của bạn tạo ra tiến bộ trên đó nhanh như thế nào?

Với cơn sóng nhu cầu về token sắp tới, có những cơ hội đáng kể để tổ chức bộ nhớ + tính toán cơ bản *đúng cách* cho LLMs. Ràng buộc cơ bản và không rõ ràng là do quy trình chế tạo chip, bạn có hai nhóm bộ nhớ hoàn toàn khác nhau (cũng có các triển khai vật lý khác nhau): 1) SRAM trên chip ngay bên cạnh các đơn vị tính toán, cực kỳ nhanh nhưng có dung lượng rất thấp, và 2) DRAM ngoài chip có dung lượng cực kỳ cao, nhưng nội dung của nó chỉ có thể được hút qua một ống dài. Ngoài ra, còn có nhiều chi tiết của kiến trúc (ví dụ: mảng systolic), số học, v.v. Thiết kế nền tảng vật lý tối ưu và sau đó là tổ chức bộ nhớ + tính toán trên các quy trình làm việc khối lượng lớn của LLMs (giải mã trước khi suy diễn, đào tạo / tinh chỉnh, v.v.) với thông lượng / độ trễ / $ tốt nhất có lẽ là câu đố trí tuệ thú vị nhất ngày nay với phần thưởng cao nhất (\cite 4.6T của NVDA). Tất cả đều nhằm có được nhiều token, nhanh và rẻ. Có thể nói, quy trình làm việc có thể quan trọng nhất (giải mã suy diễn *và* trong các ngữ cảnh token dài trong các vòng lặp tác động chặt chẽ) là quy trình khó đạt được đồng thời nhất bởi ~cả hai bên của những gì tồn tại ngày nay (NVIDIA bên HBM trước và Cerebras bên SRAM trước). Dù sao thì đội ngũ MatX là A++ nên tôi rất vui khi có một sự tham gia nhỏ và chúc mừng về việc huy động vốn!

Chúng tôi đang xây dựng một chip LLM cung cấp thông lượng cao hơn nhiều so với bất kỳ chip nào khác trong khi cũng đạt được độ trễ thấp nhất. Chúng tôi gọi nó là MatX One. Chip MatX One dựa trên một mảng systolic có thể chia nhỏ, có hiệu suất năng lượng và diện tích mà các mảng systolic lớn nổi tiếng, đồng thời cũng đạt được mức sử dụng cao trên các ma trận nhỏ hơn với hình dạng linh hoạt. Chip kết hợp độ trễ thấp của các thiết kế SRAM-first với hỗ trợ ngữ cảnh dài của HBM. Những yếu tố này, cộng với một cách tiếp cận mới về số học, mang lại thông lượng cao hơn cho LLM so với bất kỳ hệ thống nào đã được công bố, trong khi đồng thời giữ nguyên độ trễ của các thiết kế SRAM-first. Thông lượng cao hơn và độ trễ thấp hơn mang đến cho bạn các mô hình thông minh và nhanh hơn cho đồng tiền đăng ký của bạn. Chúng tôi đã huy động được 500 triệu USD trong vòng Series B để hoàn tất phát triển và nhanh chóng mở rộng sản xuất, với việc tapeout trong chưa đầy một năm. Vòng này được dẫn dắt bởi Jane Street, một trong những công ty Wall Street am hiểu công nghệ nhất, và Situational Awareness LP, người sáng lập @leopoldasch đã viết bản ghi nhớ chính thức về AGI. Các nhà đầu tư tham gia bao gồm @sparkcapital, quỹ của @danielgross và @natfriedman, @patrickc và @collision, @TriatomicCap, @HarpoonVentures, @karpathy, @dwarkesh_sp, và những người khác. Chúng tôi cũng chào đón các nhà đầu tư từ toàn bộ chuỗi cung ứng, bao gồm Marvell và Alchip. @MikeGunter_ và tôi đã bắt đầu MatX vì chúng tôi cảm thấy rằng chip tốt nhất cho LLM nên được thiết kế từ các nguyên tắc cơ bản với sự hiểu biết sâu sắc về những gì LLM cần và cách chúng sẽ phát triển. Chúng tôi sẵn sàng từ bỏ hiệu suất của các mô hình nhỏ, khối lượng công việc thấp và thậm chí là sự dễ dàng trong lập trình để cung cấp một chip như vậy. Chúng tôi hiện là một đội ngũ 100 người với những người suy nghĩ về mọi thứ từ lịch trình tỷ lệ học, đến Lập lịch Modulo Swing, đến các bit bảo vệ/điều tròn/bít dính, đến các kết nối mù—tất cả trong cùng một tòa nhà. Nếu bạn muốn giúp chúng tôi kiến trúc, thiết kế và triển khai nhiều thế hệ chip với số lượng lớn, hãy xem xét tham gia cùng chúng tôi.

Hàng đầu

Thứ hạng

Yêu thích