L'abordabilité de Deepseek est un mythe: l'IA révolutionnaire a coûté 1,6 milliard de dollars pour développer
Le nouveau chatbot de Deepseek possède une introduction impressionnante: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre." Cette IA, un produit de la startup chinoise Deepseek, est rapidement devenue un acteur majeur du marché, contribuant même à une baisse significative du cours des actions de NVIDIA. Son succès découle d'une méthodologie d'architecture et de formation unique, incorporant plusieurs technologies innovantes.
Prédiction multi-token (MTP): Contrairement à la prédiction traditionnelle mot par mot, MTP prévoit plusieurs mots simultanément, en analysant différentes parties de phrases pour une précision et une efficacité améliorées.
Mélange d'experts (MOE): Cette architecture utilise plusieurs réseaux de neurones pour traiter les données d'entrée, accélérer la formation d'IA et améliorer les performances. Deepseek V3 utilise 256 réseaux de neurones, activant huit pour chaque tâche de traitement des jetons.
Attention latente multi-tête (MLA): Ce mécanisme se concentre sur les éléments cruciaux des phrases, extrait à plusieurs reprises les détails clés des fragments de texte pour minimiser la perte d'informations et capturer des nuances subtiles.
Deepseek a initialement affirmé avoir formé son puissant réseau neuronal Deepseek V3 pour seulement 6 millions de dollars en utilisant 2048 GPU. Cependant, la semianalyse a révélé une infrastructure beaucoup plus substantielle: environ 50 000 GPU de trémie NVIDIA, dont 10 000 H800, 10 000 H100 et des GPU H20 supplémentaires, répartis sur plusieurs centres de données. Cela représente un investissement total de serveur d'environ 1,6 milliard de dollars, avec des dépenses opérationnelles estimées à 944 millions de dollars.
Deepseek, une filiale du High Flyer de fonds spéculatifs chinois, possède ses centres de données, fournissant un contrôle complet sur l'optimisation des modèles d'IA et la mise en œuvre plus rapide de l'innovation. Cette approche autofinancée améliore la flexibilité et la vitesse de prise de décision. La société attire également les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, recrutent principalement dans les principales universités chinoises.
Alors que la réclamation de frais de formation initiale de 6 millions de dollars de Deepseek semble irréaliste - ne référant qu'à l'utilisation préalable du GPU et à l'exclusion d'autres dépenses - la société a investi plus de 500 millions de dollars dans le développement de l'IA. Sa structure compacte permet une mise en œuvre efficace de l'innovation, contrastant avec la bureaucratie de grandes sociétés.
Le succès de Deepseek présente le potentiel des sociétés d'IA indépendantes bien financées pour rivaliser avec les géants de l'industrie. Bien que ses revendications de «budget révolutionnaire» soient exagérées, ses milliards d'investissements, les percées technologiques et l'équipe forte sont des facteurs indéniables dans son succès. Le contraste est frappant lorsque l'on considère les coûts des concurrents; Deepseek a dépensé 5 millions de dollars sur R1, tandis que ChatGpt4 a coûté 100 millions de dollars. Malgré l'investissement important, les coûts de Deepseek restent nettement inférieurs à ses concurrents.
Derniers articles