Petit lexique de la vidéo générative... du texte à la séquence !
Créer une vidéo à partir de quelques mots, animer un visage figé ou inventer un décor entier en une commande… l’IA générative vidéo a quelque chose de magique. Mais derrière cette magie, un nouveau langage s'installe : prompt, diffusion, seed, GAN… Un vrai jargon ! Fini d'être perdu, à vous de maîtriser les mots qui créent le futur de la vidéo !
Les Concepts Fondamentaux
Intelligence Artificielle (IA) domaine de l'informatique visant à créer des machines capables de simuler l'intelligence humaine (apprendre, raisonner, percevoir).
IA Générative (GenAI) : Branche de l'IA capable de créer de nouveaux contenus (texte, images, sons, vidéos) au lieu de simplement analyser ou classer des données.
Machine Learning (Apprentissage Automatique) sous-domaine de l'IA où les algorithmes apprennent à partir de données pour identifier des motifs et prendre des décisions.
Deep Learning (Apprentissage Profond) technique de Machine Learning basée sur des réseaux de neurones artificiels à plusieurs couches (profondes) pour résoudre des tâches complexes.
Réseau de neurones : modèle informatique inspiré du cerveau humain, composé de « neurones » interconnectés qui traitent l'information.
Modèle IA : le « cerveau » résultant de l'entraînement d'un algorithme sur un ensemble de données. Il effectue les tâches (ex. : générer une vidéo).
Entraînement (Training) processus consistant à « nourrir » un modèle avec d'énormes quantités de données (ex: des vidéos et leurs descriptions) pour qu'il apprenne.
Inférence : phase d'utilisation d'un modèle entraîné pour faire une prédiction ou générer un nouveau contenu (ex: créer une vidéo à partir d'un prompt).
Paramètres : variables internes d'un modèle qui sont ajustées pendant l'entraînement. Leur nombre (souvent en milliards) détermine la complexité du modèle.
Hallucination (IA) : tendance d'un modèle d'IA à générer des informations fausses, absurdes ou incohérentes, mais présentées avec assurance.
Hyperréalisme : style visuel où l’IA cherche à produire des images ou vidéos quasi indiscernables de la réalité.
Interagir avec l'IA
Prompt : instruction (généralement textuelle) donnée à une IA pour lui demander de générer un contenu. C'est l'art de « parler » à la machine.
Prompt Négatif : instruction précisant à l'IA ce qu'il ne faut pas inclure dans la génération (ex: "éviter les visages flous", "pas de rouge").
Prompt Engineering : L’art de rédiger des instructions très précises pour guider l’IA et obtenir exactement le rendu souhaité.
Seed (Graine) : numéro de départ utilisé par l'IA pour générer son « bruit » initial. Utiliser le même seed avec le même prompt permet de recréer une génération quasi identique.
Contrôle de la caméra (Camera Control) : fonctionnalité permettant de spécifier les mouvements de caméra (zoom, travelling, panoramique) dans le prompt pour diriger la vidéo.
Motion Brush / Pinceau de mouvement : outil permettant de « peindre » sur une image fixe pour indiquer quelles zones doivent s'animer et dans quelle direction.
Les Méthodes de Génération
Text-to-Video : processus de génération d'une séquence vidéo entièrement à partir d'une description textuelle (un prompt).
Image-to-Video : processus d'animation d'une image fixe pour la transformer en une courte séquence vidéo, souvent en suivant un prompt textuel.
Video-to-Video : transformation d'une vidéo existante en une autre vidéo, en modifiant son style ou son contenu (ex: transformer une vidéo réelle en dessin animé).
Text-to-3D / 3D-aware Generation : transformer un texte en un modèle 3D ou créer une scène vidéo cohérente en 3 dimensions.
Inpainting (Vidéo) : technique permettant de « gommer » un objet ou une personne d'une vidéo et de demander à l'IA de remplir le vide de manière cohérente.
Outpainting (Vidéo) : technique permettant d'étendre le cadre d'une vidéo, en demandant à l'IA de générer ce qui se trouve au-delà des bordures d'origine.
Style Transfer (Transfert de Style) : appliquer le style visuel d'une image (ex: un tableau de Van Gogh) à une vidéo entière, tout en conservant le mouvement d'origine.
Augmented Video / Video Supervision :Techniques d’amélioration de vidéo où l’IA corrige, améliore ou complète le contenu existant, comme la colorisation ou le suivi d’objets.
Techniques et Défis de la Vidéo
Frame : une seule image fixe composant une vidéo.
FPS (Frames Per Second) : nombre d'images affichées par seconde. Un FPS élevé (ex: 30 ou 60) donne une vidéo fluide.
Keyframe (Image Clé) : image de référence dans une vidéo. En IA, on peut définir des keyframes pour forcer le modèle à franchir des étapes précises
Upscale (Mise à l'échelle) : processus d'augmentation de la résolution (la taille et la qualité) d'une vidéo à l'aide de l'IA, qui "invente" les détails manquants.
Résolution : nombre de pixels composant une image (ex: 1080p, 4K). Les IA génèrent souvent en basse résolution avant d'appliquer un upscale.
Cohérence Temporelle (Temporal Consistency) : défi majeur de l'IA vidéo. C'est la capacité à maintenir l'apparence des objets et des personnages identique et stable d'une image (frame) à l'autre.
Flickering / Scintillement : un défaut visuel courant en IA vidéo où la lumière ou les textures « sautent » de manière incohérente d'une image à l'autre.
Rotoscoping (Rotoscopie IA) : processus (automatisé par l'IA) consistant à détourer un sujet en mouvement, image par image, pour l'isoler de son arrière-plan.
Lip Sync (Synchronisation Labiale) : technique d'IA permettant d'animer la bouche d'un personnage (réel ou généré) pour qu'elle corresponde parfaitement à une piste audio.
Motion Capture (Capture de Mouvement) : enregistrement des mouvements d'un acteur. L'IA peut désormais estimer ce mouvement depuis une simple vidéo (ex: "Pose Estimation").
Deepfake : technique utilisant l'IA pour remplacer le visage ou la voix d'une personne dans une vidéo par ceux d'une autre, de manière hyperréaliste.
Génération de scène (Scene Generation) : capacité de l'IA à créer un environnement 3D ou 2D complet et cohérent (décors, éclairage) à partir d'un prompt.
Génération audio (Audio Generation) : processus où l'IA crée du son (musique, effets sonores, voix) souvent pour accompagner une vidéo générée.
Sous le Capot de l’IA
Modèle de Diffusion (Diffusion Model) : Type de modèle génératif qui crée du contenu en partant d'un « bruit » aléatoire et en le « nettoyant » progressivement pour le faire correspondre à un prompt.
GAN (Generative Adversarial Network) : Architecture d'IA composée de deux réseaux (un « Générateur » et un « Discriminateur ») qui s'affrontent pour créer des contenus très réalistes.
Transformeur (Transformer) : Architecture de réseau de neurones très performante, à la base de nombreux modèles d'IA générative modernes (comme Veo ou GPT).
Espace Latent (Latent Space) : Espace mathématique abstrait dans lequel l'IA "pense" et représente les concepts. La génération consiste à naviguer dans cet espace.
Token : Unité de base de l'information pour une IA (souvent un mot, un sous-mot ou un caractère). La complexité d'un prompt est parfois limitée par un nombre de tokens.
Bruit (Noise) : Signal aléatoire. En diffusion, c'est le point de départ de la génération. On peut aussi en ajouter ("denoising") pour améliorer le réalisme.
ControlNet (ou contrôle de structure) : Outil permettant de guider plus précisément une IA générative en lui fournissant une "structure" (ex: une esquisse, une pose).
LoRA (Low-Rank Adaptation) : Méthode pour "affiner" (fine-tuner) rapidement un gros modèle d'IA sur un style ou un personnage spécifique sans tout ré-entraîner.
Modèle de base (Base Model) : Le modèle d'IA initial, entraîné sur un large dataset, qui sert de fondation avant d'être affiné (fine-tuned) pour des tâches spécifiques.
Dataset / Jeu de données : La vaste collection de données (ex: milliards de vidéos) utilisée pour "nourrir" et entraîner un modèle d'IA.
Outils, Formats et Écosystème
GPU (Graphics Processing Unit) : Processeur graphique (carte graphique). Composant matériel indispensable à l'IA pour ses capacités de calcul parallèle.
Cloud Computing : Utilisation de serveurs distants (dans le "cloud") pour exécuter des applications. La plupart des IA vidéo tournent sur de puissants GPU dans le cloud.
API (Application Programming Interface) : Interface logicielle qui permet à deux applications de communiquer. C'est souvent par une API qu'on accède à un modèle d'IA.
JSON (JavaScript Object Notation) : Format de fichier texte léger, utilisé pour échanger des données (comme des prompts complexes ou des paramètres) avec une API.
Workflow : L'enchaînement des étapes et des outils utilisés pour réaliser un projet créatif, de l'idée initiale au rendu final.
Open Source : Se dit d'un logiciel ou d'un modèle dont le code source est public, permettant à quiconque de l'utiliser ou le modifier (ex: Stable Diffusion).