DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Haotian | CryptoInsight

Vraiment sans voix, mon deuxième compte Claude a été bloqué sans raison pour la deuxième fois en une semaine. Mais pour être honnête, cette fois, je n'ai ressenti aucune émotion, j'ai même un peu envie de rire. Pourquoi ? Parce que j'ai déjà compris la logique sous-jacente de ces blocages inexplicables, et surtout parce que je dispose d'une stratégie de réponse plus sophistiquée. Surtout après avoir exploré le domaine du Vibe Coding pendant un mois, j'ai déjà établi un système de pensée mature pour maîtriser l'IA, suffisamment pour faire face à ce genre de "perturbation" inattendue. D'abord, parlons des raisons, les causes apparentes sont évidentes : il ne s'agit que de sauts fréquents de nœuds VPN déclenchant des contrôles de sécurité à distance, ou d'un décalage entre le lieu de paiement de la carte Visa et l'IP terminale provoquant une alerte de sécurité, ou encore d'une consommation de Token à haute fréquence sur une courte période que le système juge brutalement comme un Bot malveillant. Mais la raison profonde est unique : @claudeai est un service SaaS de niveau entreprise. Il s'intéresse aux grands clients comme les entreprises du Fortune 500, tandis que nous, utilisateurs Pro ou Max qui dépendons fortement de la version web, ne les intéressons pas du tout, et sont même considérés comme des facteurs de risque incontrôlables. Donc, il n'est absolument pas nécessaire de continuer à s'angoisser à propos des blocages de compte. La leçon la plus importante que l'IA m'a apprise est : ne jamais lier sa productivité essentielle à un compte web extrêmement instable. En fait, la véritable solution est de construire un système de service AI localisé qui ne dépend pas du modèle : 1) Utiliser OpenRouter/Antigravity pour réaliser l'accès au modèle via un routage, dégradant Claude en un moteur de raisonnement de base que l'on peut changer à tout moment, évitant ainsi d'être bloqué ; 2) Utiliser des API tierces pour équiper Claude Code + Skills + Cowork et reconstruire une logique d'interaction, abandonner cette méthode d'interaction web frontale la plus incontrôlable, ne pas s'inquiéter de la perte massive de données de configuration de Prompt/Instructions due à un blocage, et faire en sorte que l'IA réside dans votre système de fichiers pour fournir des services ; 3) Lire directement la bibliothèque de code locale via le protocole MCP, en utilisant Local RAG (Récupération Améliorée Locale) pour appeler en temps réel votre base de connaissances privée, et même exécuter automatiquement des tests, des soumissions Git et des cycles de correction de bugs dans le terminal. En résumé, en un mot, abandonner le mode d'utilisation de l'IA "en cloud" et saisir activement la "souveraineté locale" est la forme ultime du Vibe Coding. Si vous ne maîtrisez qu'un modèle puissant, mais que vous ne pouvez pas maîtriser un droit d'utilisation du modèle qui ne peut pas être retiré, qu'est-ce que le Vibe Coding ?

Lors de la conférence CES, la toute nouvelle architecture Rubin de NVIDIA est devenue le sujet de discussion sur le marché, un autre grand pas en avant après l'architecture MOE, conçue sur mesure pour l'ère de l'IA agentique, etc. J'ai approfondi le sujet et j'ai effectivement ressenti le goût de la "révolution personnelle" de Jensen Huang : 1) Par le passé, NVIDIA s'appuyait sur l'avantage matériel des GPU, profitant de la période où les grands acteurs de l'IA achetaient frénétiquement de la puissance de calcul pour entraîner de grands modèles. À l'époque, la logique était simple : celui qui avait le plus de cartes graphiques pouvait entraîner le meilleur modèle. Mais maintenant, la guerre de l'IA s'est déplacée du champ de bataille de la "puissance de calcul" à celui de "l'inférence", surtout avec l'arrivée de l'ère agentique, où l'IA doit traiter des inférences à haute fréquence, multi-étapes et avec un contexte ultra-long. À ce moment-là, les paramètres du modèle atteignent facilement des trillions, et le débit de données est énorme. Peu importe la rapidité des calculs des GPU, si la mémoire ne transmet pas les données assez rapidement, le GPU tourne à vide, c'est ce qu'on appelle le "mur de la mémoire". En d'autres termes, avoir plus de cartes graphiques ne résout plus le problème, il faut également une grande mémoire et une bande passante pour soutenir cela. Rubin doit résoudre ce problème. 2) Ainsi, le HBM4 lancé par Rubin est le quatrième type de mémoire à large bande, permettant d'atteindre une bande passante de 22 To/s. Mais ce qui est encore plus crucial, c'est qu'il s'associe à la technologie NVLink 6 (bande passante de 260 To/s dans le rack), transformant logiquement 72 cartes en "une seule puce géante". Qu'est-ce que cela signifie ? Auparavant, lorsque vous achetiez une carte graphique, vous achetiez des composants indépendants, et les données entre les cartes circulaient comme des colis devant passer par plusieurs stations de transit. Maintenant, Rubin, grâce à une interconnexion de très haute densité, permet aux données de circuler entre différents GPU sans presque ressentir la distance physique, les 72 travailleurs ne font plus chacun leur propre tâche, mais partagent un seul cerveau. Je pense que c'est là le véritable atout de Rubin : il ne s'agit pas simplement d'accumuler des paramètres matériels, mais de reconstruire le flux de données de l'ensemble du système. 3) Si l'on considère que le MOE (Modèle d'Experts Mixtes) est une attaque de dimension contre le modèle commercial "d'accumulation violente de cartes" d'anciens comme DeepSeek, alors Rubin est clairement une contre-attaque stratégique de Jensen Huang. Il ne s'agit plus de comparer qui utilise le moins de cartes, mais de reconstruire directement le coût d'utilisation de l'IA. Bien sûr, cette manœuvre signifie également qu'NVIDIA doit dire adieu au vieux modèle d'accumulation violente de cartes. Jensen Huang fait un autre calcul : pour que l'ère agentique se concrétise dans des milliers de secteurs, il faut franchir le cap du coût des tokens, ce qui est une tendance que NVIDIA ne peut pas ignorer. Pour Jensen Huang, plutôt que d'attendre que des géants comme Google ou Meta grignotent le marché avec leurs puces auto-développées, ou que des entreprises comme DeepSeek perturbent le marché de l'offre avec leurs modèles, il vaut mieux être celui qui brise le statu quo. 4) La question se pose : comment NVIDIA, après sa révolution personnelle, se positionnera-t-elle ? Le chemin est clair : passer de "vendre des cartes graphiques" à "vendre des systèmes", de servir quelques grands acteurs à rendre l'IA véritablement accessible. Auparavant, lorsque vous achetiez un H100, NVIDIA ne gagnait que sur le prix de la carte graphique. Avec Rubin, on vous dira : vous devez acheter l'ensemble du système NVL72 - 72 GPU, un commutateur NVLink, un système de refroidissement liquide complet, un rack, et même un ensemble de logiciels, le tout vendu en package. Le calcul de Jensen Huang est également clair : bien que le coût matériel après emballage semble plus élevé, il est associé à une efficacité d'inférence extrême, réduisant ainsi le coût unitaire d'utilisation de l'IA pour l'acheteur, ce qui ne fera pas perdre de parts de marché. Mais, mais, mais, ce modèle impose également un seuil plus élevé pour les petits et moyens acteurs. Seules les grandes entreprises et les fournisseurs de services cloud pourront se le permettre, ce qui aggravera encore le monopole de la puissance de calcul. Dans le contexte concurrentiel actuel, c'est un véritable pari, car si la production en série du HBM4 rencontre des problèmes, des alternatives lancées par AMD, Google TPU, etc., pourraient saisir l'opportunité, rendant le rêve de NVIDIA de vendre des systèmes beaucoup plus difficile à réaliser.

Meilleurs

Classement

Favoris