DeepSeek R1 : Le modèle d'IA chinois qui bouleverse le marché et redéfinit les standards
Comment le nouveau modèle d'IA chinois DeepSeek R1 redéfinit les règles du jeu avec sa frugalité énergétique et son approche open source, provoquant un séisme sur les marchés et dans l'industrie tech.
Aujourd'hui, je vous propose un format légèrement différent de l'habitude. Je souhaite vous parler de DeepSeek, le modèle chinois qui fait beaucoup parler de lui et dont l'impact sur la tech et les marchés financiers peut sembler difficile à saisir.
Pour rappel, DeepSeek R1 est un LLM (voir newsletter dédiée aux LLMs) développé par la société chinoise DeepSeek. Lancé le 20 janvier 2025, il a provoqué la plus importante chute boursière de l'histoire, entraînant une perte de 589 milliards de capitalisation pour Nvidia.
Pourquoi il est potentiellement révolutionnaire ?
Une faible puissance requise aux conséquences majeures
DeepSeek peut tourner sur des infrastructures très basiques, contrairement aux autres modèles qui nécessitent des infrastructures complexes et coûteuses. Par exemple, pour faire fonctionner GPT-4, le dernier modèle d'OpenAI, il faut une machine équipée de plusieurs GPU Nvidia A100 avec au minimum 40 Go de VRAM — sachant qu'un seul GPU coûte plusieurs milliers d'euros. À l'inverse, DeepSeek est si économe qu'il peut tourner sur du matériel grand public, allant même jusqu'à fonctionner en local sur un iPhone, comme l'a démontré un chercheur d'Apple.
Cette frugalité a un impact énorme car elle remet en cause les acteurs occidentaux. En effet, pourquoi payer un abonnement ChatGPT (censé nous donner accès aux modèles les plus performants mais aussi les plus énergivores) alors qu'on peut obtenir des résultats similaires en local ?
De même, comment justifier la valorisation de Nvidia, qui a fondé sa stratégie sur la production de GPU toujours plus puissants pour l'entraînement de modèles énergivores, si la tendance s'inverse avec la preuve qu'on peut créer des modèles performants nécessitant peu de puissance de calcul ? C’est d’ailleurs ce qui a entrainer la chute spectaculaire de sa capitalisation.
Plus largement, cela pourrait avoir un impact sur les fonds ayant investi dans ces startups d'IA, mais aussi sur le secteur des data centers, dont la prolifération deviendrait moins nécessaire malgré la généralisation de l'IA. Le timing est d'ailleurs ironique, puisque DeepSeek R1 a été lancé quelques jours seulement après l'annonce d'un investissement colossal des États-Unis dans l'IA, notamment pour la construction de plusieurs data centers. Cette annonce ébranle également le secteur de l'énergie, qui devait bénéficier de la construction de ces data centers (pour référence, l'IA a consommé en 2023 l'équivalent de 4,3 GW, soit la consommation annuelle de l'Irlande).
Un modèle open source
Un autre bouleversement majeur est son caractère open-source. Auparavant, la plupart des modèles les plus performants étaient sous licence propriétaire, nécessitant un paiement pour leur utilisation. Avec DeepSeek R1 en open-source, n'importe qui — chercheurs, développeurs ou entreprises — peut l'utiliser, le modifier ou l'améliorer.
L'open-source apporte également une transparence précieuse pour comprendre son fonctionnement et son entraînement. Par exemple, bien que le modèle applique actuellement une censure sur les sujets liés au régime chinois, l'analyse du code permettra de comprendre comment cette censure a été implémentée et potentiellement de la contourner.
De plus, l'aspect open-source permettra au modèle de bénéficier des avancées de la communauté et d'améliorations continues. C'est précisément grâce à cette approche collaborative que des modèles comme Stable Diffusion ou Llama ont pu évoluer si rapidement.
La combinaison d'un modèle open-source et d'une grande performance avec peu de ressources représente une excellente opportunité pour les entreprises souhaitant entraîner des modèles en local sur leurs données, évitant ainsi de les transmettre aux entreprises américaines.
Et pour les Product Managers ?
Les implications sont multiples et pourraient chacune mériter une édition dédiée de la newsletter. En voici 3 particulièrement intéressantes :
Simplification des expérimentations
L'accès à un modèle exécutable sur son propre serveur élimine la plupart des obstacles aux expérimentations. Jusqu'à présent, les IA facturaient généralement à la requête ou au token, entraînant des coûts importants et difficilement prévisibles selon les applications.
Utilisation de données sensibles en environnement sécurisé
Dans certains secteurs, l'utilisation de l'IA est limitée par des restrictions légitimes sur le transfert et l'utilisation de données sensibles. Le traitement local des données dans un environnement hermétique résout cette problématique.
Embedded AI
Jusqu'à présent, les outils utilisant l'IA dépendent fortement du cloud pour traiter les requêtes. Un modèle comme DeepSeek R1, peu gourmand en ressources, peut s'intégrer directement dans un objet. Imaginons un thermostat qui prédit vos besoins et ajuste la température grâce à un modèle hébergé en local. De nombreux objets « connectés » n'auraient plus besoin d'être aussi dépendants du cloud, du moins pour la partie IA.
J’espère que cet article vous aura permis de mieux comprendre l’impact potentiel de DeepSeek R1 dans le monde de l’IA et dans la tech en général.
merci pour cette vulgarisation toujours très bien faite !