Resultados de benchmark muito interessantes para @openclaw melhor LLM O teste: Percentual de tarefas concluídas com sucesso em testes padronizados de agentes OpenClaw Resultados surpreendentes para mim, o kimi 2,5 está acima do Anthopic Minimax 2.1 na posição #3 Modelos Al Qwen são bem ruins