Individuality

Les célébrités vues par une IA

Août 2022

Introduction

Depuis 1 an je m’intéresse aux Intelligences Artificielles (IA). J'essaie de comprendre leurs opérations, leurs évolutions et leurs limites. Au fil de mes recherches, j'ai été impressionnée par celles qui génèrent des images à partir d’un texte.

C'est pourquoi je me suis amusée à développer une expérience qui traite des représentations imagées de portraits de célébrités générées par une IA.

Objectif

Durant cette expérimentation je me suis demandée :

➜ Les images sont-elles compréhensibles ?

➜ L’IA arrive-t-elle à réaliser des portraits ?

➜ Comment évoque-t-elle des personnalités publiques ?

➜ L’IA est-elle fidèle au physique des célébrités ?

➜ Les portraits correspondent-ils aux représentations moyennes de certaines vedettes ?

➜ Les rendus des personnes les plus connues sont-elles plus intelligibles que les autres ?

Etapes

Pour répondre à mes questions il m’a fallu suivre plusieurs étapes :

1. Trouvez une IA qui produit des images à l'aide de texte et apprendre à l'utiliser

2. Chercher la base de données d'images employée et étudier la source des images

3. Générer des portraits de personnalités publiques

4. Analyser les rendus et répondre à mes questions

VQGAN + CLIP

J’ai choisi de travailler avec un Generative Adversarial Network (GAN) et plus spécifiquement VQGAN + CLIP que j’ai repris de précédents projets.

VQGAN utilise une Intelligence Artificielle qui génère une image cohérente grâce à un texte saisi. Il dispose de plusieurs modèles qui sont alimentés par une bibliothèque d'images. Ces modèles interprètent alors les mots du texte aux fins de la production d'une image.

Avec VQGAN, j’ai aussi utilisé CLIP (Contrastive langage image Pre-formation). C’est un modèle qui détermine l’image qui correspond le mieux à une légende parmi toutes les légendes possibles.

ImageNet

Le modèle que j’ai utilisé dans VQGAN + CLIP est ImageNet_16384. Ce modèle fait parti de la base de données d’images ImageNet.

Les images qui composent cette base de données proviennent de différentes sources ce qui montre sa diversité : elle réuni des informaticiens, des linguistes, des algorithmes de moteurs de recherche, des photographes de Flickr et des Turkers mécaniques d'Amazon pour produire collectivement une carte visuelle du monde sous forme d'objets identifiables.

ImageNet travaille avec WordNet : une base de données textuelles. Les noms, verbes, adjectifs et adverbes sont regroupés en ensembles de synonymes cognitifs (synsets), chacun exprimant un concept distinct associé à plus de 1000 images.

Résultat