Trinity 的使用,尤其是在 openrouter 上免费使用时,真是令人难以置信。 我们实际上在推理集群上处理的吞吐量比我们估计的多了 3 倍。但我们的 TPS 已经下降,因为使用量持续增长。 我们将一些训练计算转移到推理上(这并不像我想象的那么简单),我们应该很快就能恢复到全速。 尽管来吧,给我们所有的支持。