Resultados de benchmark muito interessantes para o melhor LLM da @openclaw O teste: Percentagem de tarefas concluídas com sucesso em testes padronizados do agente OpenClaw Resultados surpreendentes para mim, o kimi 2.5 está acima do Anthropic Minimax 2.1 em #3 Os modelos Al Qwen são bastante ruins