Tour d'horizon des IA génératives en 2026

Les « IA génératives » désignent les IA qui produisent du contenu : textes, images, vidéos, sons, musiques, code informatique. En quatre ans (2022-2026), elles ont fait des progrès considérables. Ce cours s'adresse aux utilisateurs déjà à l'aise avec les bases, qui veulent en explorer la maîtrise avancée. Les acteurs majeurs en 2026. Pour le texte : GPT-5 (OpenAI) : sortie début 2026, capacité de raisonnement nettement supérieure. Claude 4 Opus (Anthropic) : référence pour l'analyse fine et l'écriture nuancée. Gemini 2 Ultra (Google) : très puissant pour les tâches complexes intégrant recherche web. Mistral Large (France) : référence européenne, qualité comparable à GPT-4. Pour l'image : Midjourney v7 : référence artistique, qualité exceptionnelle. DALL-E 4 (OpenAI, intégré à ChatGPT) : très bon, accessible directement. Stable Diffusion XL : open source, paramétrable. Adobe Firefly : intégré à Photoshop, idéal pour les retouches. Pour la vidéo : Sora 2 (OpenAI) : génère jusqu'à 60 secondes de vidéo cohérente. Veo 2 (Google) : excellent, intégré à Gemini. Runway Gen-3 : référence professionnelle. Kling AI : alternative chinoise puissante. Pour le son et la musique : Suno v4 : chansons complètes (paroles + musique) de qualité commerciale. ElevenLabs : clonage vocal et création de voix de synthèse. Stable Audio 2 : musique d'ambiance, sans paroles. Maîtriser ces outils, ce n'est plus seulement savoir taper un prompt simple. C'est : choisir le bon outil pour la tâche, maîtriser les prompts complexes, savoir itérer, combiner plusieurs outils, et comprendre les questions de droits qui s'y rattachent. C'est ce que ce cours couvre.

À retenir

✓Cours avancé : suppose une maîtrise des bases de ChatGPT/Claude
✓Texte : GPT-5, Claude 4, Gemini 2, Mistral Large — chacun avec ses forces
✓Image, vidéo, son : Midjourney, Sora, Suno restent les références en 2026

Maîtriser les prompts complexes

Un bon prompt avancé ne fait pas « X paragraphes sur Y ». Il décrit précisément le rôle, le contexte, la tâche, le format, et les contraintes. La structure RCFC (Rôle - Contexte - Format - Contraintes) qui marche dans presque tous les cas : ``` RÔLE : Tu es [un expert en X / un journaliste de Y / un coach pour Z] CONTEXTE : [Décrire la situation, le destinataire, les enjeux] TÂCHE : [Ce que tu attends précisément] FORMAT : [Structure attendue, longueur, ton] CONTRAINTES : [Ce qu'il faut éviter, vérifier, limiter] ``` Un exemple concret. Mauvais prompt : « Écris-moi un texte sur les déchets en mer. » Bon prompt : ``` RÔLE : Tu es journaliste pour un magazine de vulgarisation scientifique grand public. CONTEXTE : Le lecteur est un adulte de 50-70 ans, intéressé par l'écologie mais peu spécialiste. Le magazine est lu en complément du Monde, donc niveau d'exigence élevé. TÂCHE : Rédige un article de 800 mots sur la pollution plastique en Méditerranée en 2026, son évolution depuis 2020, et les actions efficaces. FORMAT : 4 sections avec sous-titres, paragraphes courts (4-5 phrases max), un encadré « Que peut faire chacun ? ». CONTRAINTES : Cite au moins 3 sources scientifiques précises. Ne pas être moralisateur. Inclure une note d'espoir réaliste à la fin. Pas de jargon non expliqué. ``` Vous obtenez un article infiniment supérieur à ce que la version courte aurait donné. Cette discipline transforme votre rapport à l'IA. Des techniques avancées supplémentaires : Le « few-shot prompting ». Au lieu de juste demander, donnez à l'IA 2-3 exemples du résultat attendu : « Voici trois bons exemples du style que je veux : [exemple 1] [exemple 2] [exemple 3]. Maintenant fais-moi un quatrième texte du même style sur [nouveau sujet]. » Résultats infiniment plus alignés. La « chaîne de pensée ». Pour les tâches complexes, demandez à l'IA de raisonner à voix haute avant de conclure : « Avant de me donner ta réponse finale, décris ton raisonnement étape par étape. Puis conclus. » Réduit les erreurs sur les sujets exigeants. L'auto-critique. Après avoir reçu une première réponse, demandez : « Maintenant critique cette réponse : qu'est-ce qui est faible, imprécis, ou pourrait être mieux ? Puis propose une version améliorée. » Les meilleures réponses viennent souvent à la troisième itération.

À retenir

✓Structure RCFC : Rôle, Contexte, Format, Contraintes — discipline qui transforme les résultats
✓Few-shot prompting : donner 2-3 exemples pour aligner le style
✓Auto-critique : faire critiquer la première réponse pour obtenir une seconde version améliorée

Génération d'images avancée

Pour aller au-delà de Midjourney « tape une description et regarde », il faut maîtriser les paramètres avancés. Les paramètres clés de Midjourney v7. `--ar 16:9` (aspect ratio) : format paysage, portrait, carré, etc. `--style raw` : moins de retouche artistique automatique, plus de fidélité à votre prompt. `--s 100` à `--s 1000` (stylize) : faible = plus fidèle au prompt, élevé = plus stylisé. `--chaos 50` : niveau de variations entre les 4 images proposées. `--no [élément]` : éliminer un élément (ex. `--no people` pour pas de personnes). `--seed 12345` : reproduire des résultats similaires si vous trouvez quelque chose de bien. La structure d'un prompt image avancé. ``` [SUJET PRINCIPAL] : qui ou quoi est représenté [SCÈNE / ACTION] : que se passe-t-il [ENVIRONNEMENT] : où, contexte spatial [LUMIÈRE] : direction, qualité, intensité, ambiance [STYLE ARTISTIQUE] : peinture, photo, dessin, par référence à un courant [ANGLE DE VUE] : plan large, gros plan, contre-plongée [PALETTE DE COULEURS] : dominantes chromatiques [ÉMOTION OU AMBIANCE] : mélancolique, joyeux, mystérieux --ar X:Y --s 250 --style raw ``` Exemple complet : ``` Un vieil homme aux cheveux blancs, assis seul à une table de café parisien, lisant un journal froissé. Pluie fine derrière les vitres, lumière dorée d'un lampadaire orange. Style aquarelle douce, dans l'esprit des illustrations de Sempé. Plan moyen vu de trois-quarts. Palette : ocres, gris-bleus, touches dorées. Ambiance contemplative et mélancolique. --ar 3:2 --style raw --s 350 ``` La technique de l'« inpainting ». Sur Midjourney comme sur DALL-E (via ChatGPT payant), vous pouvez modifier une partie spécifique d'une image générée sans toucher au reste. Vous sélectionnez la zone à changer, et vous donnez une nouvelle instruction pour cette zone uniquement. Pour parfaire une création sans tout refaire. Les références d'image. Midjourney v7 permet de soumettre une image de référence (votre photo, une œuvre que vous aimez) et de demander une création dans ce style. Très utile pour rester cohérent dans une série d'illustrations. L'outil DALL-E intégré à ChatGPT. Moins puissant que Midjourney mais plus simple : vous discutez en français, vous demandez des modifications, ChatGPT régénère. Idéal pour itérer rapidement sans entrer dans les paramètres techniques.

À retenir

✓Paramètres Midjourney : --ar, --style raw, --s, --no, --seed (à retenir)
✓Structure d'un prompt avancé : sujet, scène, environnement, lumière, style, angle, palette, émotion
✓Inpainting : modifier une zone précise sans tout refaire — puissant

Génération de vidéo : Sora, Veo, Runway

La vidéo générée par IA a fait un bond en 2025-2026. Trois acteurs dominent. Sora 2 (OpenAI). Génère jusqu'à 60 secondes de vidéo HD, cohérente, à partir d'un prompt textuel. Inclus dans ChatGPT Plus (23€/mois) avec une quantité limitée par mois. Excellence sur les scènes complexes, les caméras qui bougent, les changements d'ambiance. Veo 2 (Google). Intégré à Gemini Advanced. Forces : excellente fidélité physique (eau, fumée, tissus), durée jusqu'à 60 secondes. Plus formel que Sora dans son style. Runway Gen-3. La référence professionnelle. Plus cher (qq dizaines d'euros par mois) mais avec un contrôle bien supérieur : édition image-par-image, contrôle de la caméra virtuelle, transitions soignées. La structure d'un prompt vidéo. Au-delà du prompt image, ajoutez : Le mouvement de caméra (« la caméra avance lentement », « plan fixe », « travelling latéral »). La durée et le rythme (« en 8 secondes »). Les changements (« la lumière passe de l'aube au matin », « les feuilles tombent »). Le son (parfois généré séparément, parfois inclus selon les outils). Exemple : ``` Un vieux chêne dans un champ de blé, à l'aube. La caméra avance lentement de loin vers l'arbre pendant 10 secondes. La lumière passe d'un bleu froid à un orange doré. Du brouillon léger flotte à hauteur d'homme. Style cinématographique, grand format, palette chaude. ``` Les limites actuelles (2026). La vidéo IA reste contrainte : impossibilité d'avoir des personnages cohérents sur de longues durées, gestion encore imparfaite des mains, des miroirs, des textes incrustés. Pour un mariage, un film de famille, des contenus narratifs longs, l'humain (caméraman, monteur) reste irremplaçable. Les usages où la vidéo IA brille en 2026 : Illustrations animées pour des présentations. Courtes séquences atmosphériques (clip musical, fond pour un podcast vidéo). Visualisation de concepts (pour expliquer une idée scientifique, par exemple). Hommages personnels (animer une vieille photo, créer un montage d'anniversaire). Storyboards animés (avant le tournage d'une vraie vidéo). Une précaution éthique forte : Sora et Veo limitent (officiellement) la génération de visages de personnes réelles. Mais des modèles open source existent qui le permettent. C'est juridiquement et moralement très risqué : créer une vidéo d'une personne réelle qu'elle n'a jamais filmée est probablement illégal et toujours problématique.

À retenir

✓Sora 2, Veo 2, Runway Gen-3 : les trois références en 2026
✓Ajouter au prompt image : mouvement de caméra, durée, changements, son
✓Vidéo IA limitée pour les longs métrages — l'humain reste irremplaçable pour les vrais récits

Workflows créatifs combinés

La maîtrise vraiment avancée vient de la combinaison de plusieurs outils. Un workflow professionnel typique en 2026. Exemple de workflow : créer une vidéo courte de présentation pour un projet associatif. Étape 1 — ChatGPT (GPT-5) rédige un script de 30 secondes en français, ton chaleureux, basé sur les éléments fournis (mission de l'association, public visé, appel à l'action). Étape 2 — Claude relit le script et propose 3 versions affinées, en variant le ton et le rythme. Étape 3 — Vous choisissez la meilleure version, vous l'adaptez à la main. Étape 4 — ElevenLabs ou ChatGPT (voix premium) lit le script avec une voix de synthèse réaliste, dans la langue et le ton souhaités. Vous pouvez cloner votre propre voix (avec 30 secondes d'enregistrement) pour une cohérence personnelle. Étape 5 — Midjourney génère 8-10 images-clés qui illustrent les moments du script. Étape 6 — Sora 2 ou Runway anime ces images en courtes séquences de 3-5 secondes chacune. Étape 7 — Vous montez ces séquences dans un logiciel simple (CapCut, gratuit, ou DaVinci Resolve pour aller plus loin), en collant la voix off et en ajoutant une musique de fond (générée par Suno). Résultat : une vidéo de 30 secondes professionnelle, en moins de 2 heures. Avant 2024, c'était plusieurs jours de travail pour une petite agence. Une autre combinaison utile : la création d'un livre illustré pour un enfant. Étape 1 — ChatGPT écrit une histoire courte adaptée à l'âge. Étape 2 — Claude affine le texte, propose des variations de chute. Étape 3 — Vous découpez l'histoire en 12 pages avec une scène-clé par page. Étape 4 — Midjourney illustre chaque page, avec un style artistique cohérent (en utilisant la fonction de référence d'image entre pages). Étape 5 — Vous assemblez tout dans Canva (gratuit) et générez un PDF imprimable. Étape 6 — Vous l'imprimez via un service en ligne (Blurb, Pixum) pour quelques euros. Le livre est livré chez vous. Émerveillement garanti chez l'enfant. Une idée philosophique au passage : ce qui rend ces workflows puissants, ce n'est pas l'addition des IA. C'est votre cohérence à les diriger toutes vers un même but. Vous êtes le réalisateur. Si vous n'avez pas une vision claire, les outils produiront du brillant sans âme.

À retenir

✓Workflow type vidéo : script (GPT) → voix (ElevenLabs) → images (Midjourney) → animation (Sora) → montage (CapCut)
✓Tout ce qui prenait plusieurs jours en 2023 se fait en quelques heures en 2026
✓Votre rôle de réalisateur (vision, cohérence) est ce qui fait la différence entre brillant et âmé

Éthique et droits d'usage des créations IA

Au niveau avancé, la question des droits devient sérieuse. Le statut légal des créations IA. En Europe (et de plus en plus aux États-Unis), une œuvre générée uniquement par IA n'est pas protégée par le droit d'auteur. Pas d'auteur humain = pas de droit. En revanche, si vous avez fait un travail créatif significatif (sélection, retouche, assemblage, montage), votre intervention peut être protégée. L'usage commercial. Les conditions varient. ChatGPT (DALL-E) : usage commercial autorisé en version payante (Plus, Team). Midjourney : usage commercial autorisé à partir de l'abonnement Standard (30 $/mois). Suno : commercial autorisé en version payante (10 $/mois). Sora : commercial sous conditions selon les paliers (changeant rapidement). Lisez toujours les conditions générales spécifiques au moment où vous utilisez. Elles changent régulièrement. Les risques de violation de droits tiers. Une IA générative est entraînée sur des millions d'œuvres existantes. Sa production peut parfois reproduire fidèlement le style ou même certains éléments d'œuvres protégées. Plusieurs procès sont en cours (2025-2026) contre OpenAI, Anthropic, Midjourney. En tant qu'utilisateur, vos risques : Si l'IA produit quelque chose qui ressemble trop à une œuvre existante (ex. style ouvertement reconnaissable d'un artiste vivant), et que vous publiez à but commercial, vous pouvez être poursuivi en contrefaçon. Si l'IA inclut une marque déposée (logo Coca-Cola dans une image), vous ne pouvez pas l'utiliser commercialement. Si l'IA crée le visage d'une personne réelle reconnaissable, son consentement est requis pour publication. Les bonnes pratiques. 1. Pour les œuvres commerciales, évitez les références explicites à des artistes vivants (« dans le style de Banksy », « peinture à la manière de Hockney »). 2. Vérifiez les sorties via Google Images inversée pour vérifier qu'elles ne reproduisent pas trop exactement quelque chose d'existant. 3. Indiquez clairement quand un contenu est généré par IA. C'est de plus en plus exigé (loi européenne AI Act 2024), et c'est de la transparence simple. 4. Conservez les prompts utilisés. En cas de litige, ils prouvent votre démarche créative. Une dernière question philosophique. Quand vous publiez une création IA, vous participez à un système économique massif (les revenus reviennent aux entreprises d'IA, qui se sont nourries d'œuvres d'artistes sans toujours les rémunérer). Plusieurs artistes ont protesté. Le débat est ouvert. Vous pouvez choisir de privilégier des outils plus éthiques (Adobe Firefly est entraîné sur des banques d'images payées légalement) ou d'expérimenter avec parcimonie. C'est à vous de définir votre position.

À retenir

✓Une œuvre 100 % IA n'est pas protégée par le droit d'auteur en Europe
✓Usage commercial : exige généralement un abonnement payant — lire les conditions
✓Indiquez clairement les contenus IA (exigence légale croissante) et conservez vos prompts

Maîtriser les IA génératives en 2026

Tour d'horizon des IA génératives en 2026

À retenir

Maîtriser les prompts complexes

À retenir

Génération d'images avancée

À retenir

Génération de vidéo : Sora, Veo, Runway

À retenir

Workflows créatifs combinés

À retenir

Éthique et droits d'usage des créations IA

À retenir