En cinq mois seulement, Generalist AI est passé d'un taux de réussite de 64 % à 99 % sur des tâches physiques complexes, selon ses déclarations. Son nouveau modèle GEN-1 ne se contente pas d'être plus fiable et plus rapide : il improvise des solutions inédites face à l'imprévu. Un bond en avant qui soulève autant d'espoirs que de questions sur ce que signifie vraiment « maîtriser » le monde physique.La robotique a longtemps souffert d'un paradoxe embarrassant : les machines qui battent les humains aux échecs ou composent des poèmes en quelques secondes sont incapables de plier un t-shirt sans tomber en panne. Ce hiatus, connu sous le nom de paradoxe de Moravec, rappelle que les tâches les plus « simples » pour un être humain (saisir un objet, ajuster une prise, récupérer après une erreur) sont en réalité d'une complexité redoutable pour un système automatisé. Depuis quelques jours, la startup américaine Generalist AI revendique avoir, sinon résolu ce problème, du moins franchi un seuil décisif avec son modèle GEN-1.
Des lois d'échelle appliquées au monde physique
Pour comprendre l'ampleur du bond accompli, il faut revenir cinq mois en arrière. En novembre 2025, Generalist présentait GEN-0, un modèle dont l'ambition principale était de démontrer que les « scaling laws », ces lois empiriques selon lesquelles plus de données et plus de calcul produisent des modèles plus performants, s'appliquaient aussi à la robotique, exactement comme elles l'ont fait pour les grands modèles de langage (LLM). GEN-0 avait montré pour la première fois que des lois d'échelle existaient en robotique, en établissant que davantage de données d'entraînement et de puissance de calcul conduisaient à des performances généralisées prévisibles. Mais les chiffres restaient insuffisants pour envisager un déploiement commercial sérieux : sans préentraînement, les tâches entraînées de zéro affichaient en moyenne 19 % de réussite, et les modèles GEN-0 affinés atteignaient 64 %, des niveaux insuffisants pour la production industrielle.
GEN-1 change radicalement la donne. À travers une mise à l'échelle supplémentaire des fondations de GEN-0, accélérée par des avancées algorithmiques, le modèle parvient désormais à maîtriser des tâches simples avec des taux de réussite dépassant 99 %, à compléter ces tâches jusqu'à trois fois plus vite que l'état de l'art précédent, et à afficher une gamme de comportements émergents pour se remettre de scénarios inattendus, le tout en n'utilisant qu'environ une heure de données robotiques spécifiques.
La donnée humaine comme matière première
L'un des verrous historiques de la robotique apprenante a toujours été la rareté des données d'entraînement de qualité. Contrairement aux LLM qui ont pu se nourrir de l'intégralité du texte humain disponible sur Internet, les modèles robotiques n'ont pas d'équivalent numérique pour les interactions physiques. La téléopération (contrôler un bras robotique à distance pour lui montrer comment accomplir une tâche) est coûteuse, lente et difficile à passer à l'échelle.
Generalist a contourné ce problème par une approche originale. La société s'est tournée vers des « data hands », des dispositifs de pinces portables qui enregistrent les micro-mouvements et les indices visuels pendant que des humains réalisent des tâches manuelles. L'entreprise affirme avoir collecté plus d'un demi-million d'heures et des pétaoctets de données d'interaction physique pour entraîner son modèle. La subtilité est importante : le modèle de fondation de base est entraîné sans aucune donnée robotique, il utilise uniquement des données issues de dispositifs portables sur des humains effectuant des millions d'activités, ce qui constitue la preuve que ce préentraînement peut mener à des niveaux élevés de maîtrise sans nécessiter de larges ensembles de données de téléopération ou de simulation.
La conséquence est remarquable en termes d'efficacité : lorsque GEN-1 s'adapte à un nouveau robot et à une nouvelle tâche, il le fait simultanément, et en seulement une heure. Le modèle de fondation de base est préentraîné entièrement sur des données humaines ; il ne rencontre le matériel robotique réel que lors de cette dernière heure d'adaptation spécifique à la tâche.
Le triptyque de la maîtrise : fiabilité, vitesse, improvisation
Generalist définit la « maîtrise » robotique selon trois axes complémentaires. Les deux premiers (fiabilité et vitesse) sont les piliers traditionnels de l'automatisation industrielle depuis les années 1960. C'est le troisième qui introduit quelque chose de fondamentalement nouveau.
Sur le plan de la fiabilité, les démonstrations sont éloquentes. GEN-1 peut accomplir plusieurs tâches à des niveaux élevés de fiabilité sur de longues durées sans intervention : préparation de kits de pièces automobiles pendant plus d'une heure, pliage...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
).
