testowanie wydajności wyników chatgpt 5.4 w porównaniu do claude opus 4.6