Google lance TensorFlow 3D à l'aide de LiDAR et de capteurs de profondeur pour des expériences AR avancées

Après que les plates-formes de réalité augmentée mobiles d’ARKit et d’ARCore aient déplacé le projet Tango, qui était auparavant révolutionnaire, de Google (la plate-forme AR qui nous a donné les premiers smartphones avec capteurs de profondeur) à l’obsolescence en 2018, nous avons assisté à une résurgence de ce qui était alors une niche composant pour les appareils phares.

Samsung a relancé le capteur de temps de vol avec ses Galaxy Note 10 et Galaxy S10 5G, bien qu’il ait abandonné le capteur dans ses modèles de génération actuelle. Radar a fait une brève apparition via Project Soli dans Google Pixel 4. Plus récemment, Apple a implémenté des capteurs LiDAR dans les gammes iPhone 12 Pro et iPad Pro après avoir percé avec la caméra frontale TrueDepth qui a inauguré l’ère de The Notch.

Désormais, l’équipe de recherche en IA de Google a mis à disposition un ensemble d’outils permettant aux développeurs de tirer parti des données 3D générées par ces capteurs.

Cette semaine, Google a ajouté TensorFlow 3D (TF 3D), une bibliothèque de modèles d’apprentissage en profondeur 3D, y compris la segmentation sémantique 3D, la détection d’objets 3D et la segmentation d’instances 3D, au référentiel TensorFlow pour une utilisation dans les voitures autonomes et les robots, ainsi que pour expériences de RA mobiles pour les appareils avec une compréhension approfondie de la 3D.

Les capteurs LiDAR d’Apple permettent une expérience AR plus avancée via la cartographie 3D. Image par Apple / YouTube

“Le domaine de la vision par ordinateur a récemment commencé à progresser dans la compréhension des scènes 3D, y compris les modèles pour la détection d’objets 3D mobiles, la détection d’objets transparents, etc., mais l’entrée sur le terrain peut être difficile en raison de la disponibilité limitée des outils et des ressources qui peuvent être appliquées aux données 3D », ont déclaré Alireza Fathi (un chercheur scientifique) et AI Rui Huang (un résident IA de Google Research) dans un article de blog officiel. «TF 3D fournit un ensemble d’opérations, de fonctions de perte, d’outils de traitement de données, de modèles et de métriques populaires qui permettent à la communauté de recherche élargie de développer, former et déployer des modèles de compréhension de scène 3D de pointe.

Sur le même sujet Une mystérieuse mise à jour pour les Pixel Buds de Google

Le modèle de segmentation sémantique 3D permet aux applications de différencier un ou plusieurs objets de premier plan et l’arrière-plan de la scène, comme avec les arrière-plans virtuels sur Zoom. Google a mis en œuvre une technologie similaire avec des arrière-plans vidéo virtuels pour YouTube.

En revanche, le modèle de segmentation d’instance 3D identifie un groupe d’objets en tant qu’objets individuels, comme avec les objectifs Snapchat qui peuvent placer des masques virtuels sur plusieurs personnes dans la vue de la caméra.

Sortie du modèle de détection d’objets 3D (à gauche) et du modèle de segmentation d’instances 3D (à droite). Image via Google

Enfin, le modèle de détection d’objets 3D va encore plus loin dans la segmentation des instances en classant également les objets en vue. La bibliothèque TF 3D est disponible via GitHub.

Bien que ces capacités aient été démontrées avec des caméras de smartphone standard, la disponibilité des données de profondeur de LiDAR et d’autres capteurs de temps de vol ouvre de nouvelles possibilités pour des expériences avancées de RA.

Même sans le référentiel 3D, TensorFlow a contribué à des expériences AR astucieuses. Wannaby a tiré parti de TensorFlow pour son outil d’essai de vernis à ongles, et a également aidé Capital One avec une fonctionnalité d’application mobile qui peut identifier les voitures et superposer des informations à leur sujet en RA. Dans la catégorie la plus étrange et sauvage, un développeur indépendant a utilisé TensorFlow pour transformer un morceau de papier enroulé en un sabre laser avec InstaSaber.

TensorFlow 3D permettra une meilleure reconnaissance d’objets 3D, comme cette expérience Capital One.

Ces dernières années, Google a également exploité l’apprentissage automatique via TensorFlow à d’autres fins de RA. En 2017, la société a publié son référentiel MobileNets pour la détection d’images à la Google Lens. Et TensorFlow est également la technologie derrière son API Augmented Faces (qui fonctionne également sur iOS) qui apporte des filtres selfie de type Snapchat à d’autres applications mobiles.

Sur le même sujet Prêt pour une audition surhumaine? Découvrez Google X et le projet Wolverine d'Alphabet »Gadget Flow

Ce n’est pas non plus la première fois que Google exploite les données des capteurs de profondeur pour des expériences AR. Alors que l’API Depth pour ARCore permet l’occlusion, la possibilité pour le contenu virtuel d’apparaître devant et derrière des objets du monde réel, pour les applications mobiles via des caméras de smartphone standard, la technologie fonctionne mieux avec les capteurs de profondeur.

L’apprentissage automatique s’est avéré indispensable pour créer des expériences avancées de RA. En se basant uniquement sur la recherche sur l’IA, Google joue un rôle tout aussi crucial pour l’avenir de la RA que Apple, Facebook, Snap et Microsoft.

Google lance TensorFlow 3D à l’aide de LiDAR et de capteurs de profondeur pour des expériences AR avancées

Articles Récents

DLSS 5 de Nvidia : l’IA qui transforme vos jeux en temps réel divise les joueurs

OpenAI lève 122 milliards : ce que ça change vraiment pour vous en 2026

Oracle licencie 30 000 personnes pour l’IA : ce que ça révèle sur votre emploi

25 doubleurs français gagnent contre une IA qui avait cloné leurs voix

ChatGPT débarque sur CarPlay : pratique au volant, mais avec des limites