MLXs CUDA 后端正在变得更好。 如果你喜欢快速启动时间,这尤其不错。但总体来说,它也相当快。 这是在我的 DGX Spark 上运行的 Qwen3 4B,使用 fp8。 - 在不到 4 秒的时间内处理了 18.5k 个标记 - 以 32.5 个标记/秒的速度生成,使用 18.5k 的上下文
同样非常简单就可以开始使用:
427