Saya membakar 84 juta token pada 28 Februari. Meneliti perusahaan, menyusun memo, menjalankan agen. Itu menjalankan Kimi K2.5, model nirserver melalui API. Dengan tarif Claude atau OpenAI - sekitar $ 9 per juta token yang dicampur - penggunaan yang setara akan menelan biaya $ 756 untuk satu hari kerja. Hari-hari puncak saya mencapai 80 juta token. Rata-rata hari saya berjalan 20 juta. Inferensi cloud dengan harga model perbatasan bertambah dengan cepat.
Minggu ini, Alibaba merilis Qwen3.5-9B, model sumber terbuka yang cocok dengan Claude Opus 4.1 dari Desember 2025. Ini berjalan secara lokal dengan RAM 12GB. Tiga bulan lalu, kemampuan ini membutuhkan pusat data. Sekarang membutuhkan stopkontak.
Laptop seharga $ 5.000 - MacBook Pro dengan memori yang cukup untuk menjalankan Qwen secara lokal - membayar sendiri setelah 556 juta token. Pada tingkat penggunaan saya, itu sekitar satu bulan. Dengan 20 juta token per hari, itu empat minggu. Setelah pengembalian, biaya marjinal turun ke listrik. Ini bukan kompromi intelijen. Penalaran, pengkodean, alur kerja agen, pemrosesan dokumen, instruksi berikut: model 9B cocok dengan batas Desember secara menyeluruh.
@twlvone Komputasi lebih banyak tidak membantu di luar beberapa tingkat akurasi pemanggilan alat
46