Lorsqu’on déploie un système d’Intelligence Artificielle, il est très important de vérifier sa fiabilité. Se contenter qu’un résultat soit exprimé dans la forme attendue, sans vérifier sa véracité, est une erreur qui peut coûter cher : hallucinations, erreurs, imprécisions, … vous font perdre du temps, de la patience ou de la crédibilité.
Pour calculer la fiabilité d’une IA, un outil fait foi : la Matrice de confusion.
Les 4 variables clés de la Matrice de confusion
La Matrice de confusion est un tableau qui sert à comparer le résultat prédit par un modèle, et la réalité observée. Il comprend :
- Le Vrai Positif : le modèle prédit correctement une information conforme à la réalité.
- Le Faux Positif : le modèle prédit qu’une information est conforme à la réalité, mais s’est trompé.
- Le Vrai Négatif : le modèle prédit qu’une information n’est pas conforme à la réalité, et il a raison.
- Le Faux Négatif : le modèle prédit qu’une information n’est pas conforme à la réalité, mais il a tort.

Explication détaillée
Dans le tableau d’exemple ci-avant, la question posée à une Intelligence Artificielle est « Est-ce que cet animal est un Poulet ? ». Puis des images de différents animaux lui sont données.
Lorsque l’IA détecte un Poulet sur l’image et répond « C’est un Poulet », c’est un Vrai Positif : l’IA à répondu positivement à la question, et ne s’est pas trompée.
Lorsque l’IA detecte un Poulet sur une image contenant une Vache et répond « C’est un Poulet », c’est un Faux Positif : l’IA a répondu positivement à la question, mais s’est trompée.
Lorsque l’IA détecte une Vache sur une image et répond « Ce n’est pas un Poulet », c’est un Vrai Négatif : l’IA a répondu négativement à la question, et ne s’est pas trompée.
Lorsque l’IA ne détecte pas le Poulet sur une image de Poulet, et répond « Ce n’est pas un Poulet », c’est un Faux Négatif : l’IA a répondu négativement à la question, mais s’est trompée.
Vous l’aurez compris, le risque sans Matrice de confusion est de considérer qu’une Intelligence Artificielle est précise parce-qu’elle répond beaucoup de vrais positifs, alors qu’elle ne saura pas, et que vous ne saurez peut-être pas, identifier ses faux négatifs.
Les 3 indicateurs clés de performance
A partir des 4 variables de la Matrice de confusion, vous allez pouvoir calculer 3 indicateurs permettant de déterminer la qualité des réponses, et donc la fiabilité réelle, de votre système d’Intelligence Artificielle.
L’indicateur d’exactitude (ou « accuracy »)
L’exactitude est votre score général de réussite. Sur 100 photographies mélengeant des vaches et des poulets, combien de fois l’IA aura t-elle réussi à donner la bonne réponse ?
L’exactitude se calcule en additionnant les vrais positifs et les vrais négatifs obtenus (donc les cas dans lesquels l’IA ne s’est pas trompé), puis en divisant le résultat par le nombre de réponses totales.
L’indicateur d’exactitude n’est cependant pas suffisant à lui seul : imaginons que le jeu de données contienne 95 vaches et 5 poulets, si l’IA répond tout le temps « Ce n’est pas un Poulet », elle aura raison à 95%, mais elle n’aura jamais réussi à détecter un seul poulet.
L’indicateur de précision
La précision est une score de confiance : si l’IA me dit que l’animal est un poulet, à quel point puis-je la croire ?
La précision se calcule en divisant le nombre de vrais positifs par la somme des vrais positifs et des faux positifs.
Si la précision est faible, l’IA détectera trop souvent des vaches comme étant des poulets. Elle donnera donc plus de réponses positives qu’elle ne le devrait.
L’indicateur de sensibilité
L’indicateur de sensibilité, lui, concerne la couverture de bonnes réponses obtenues parmi celles attendues : sur tous les poulets présents dans mes images, combien l’IA en a t-elle vraiment détecté ?
La sensibilité se calcule en divisant le nombre de vrais positifs par la somme des vrais positifs et des faux négatifs (les poulets que l’IA n’a pas trouvé, mais aurait dû).
Si la sensibilité est trop faible, l’IA laissera passer / oubliera trop de poulets.
Différences entre précision, sensibilité et exactitude
| Indicateur | Ce qu’il mesure vraiment | Son objectif prioritaire |
| Exactitude | La justesse totale | Être globalement fiable sur l’ensemble du troupeau (Poulets + Vaches). |
| Précision | La qualité de l’étiquetage | S’assurer que si on met une étiquette « Poulet », c’est bien un poulet et non une vache. |
| Sensibilité | L’exhaustivité | S’assurer que je détecte suffisamment de poulets dans mon total. |
Être parfait dans tous les indicateurs est très compliqué. En fonction de vos objectifs, du besoin métier et des attentes, il faudra savoir jongler entre les indicateurs :
- Mes clients veulent m’acheter des poulets, il faut mieux que je sois très préçis (qu’aucune vache ne soit détecté en poulet), quitte à ce que certains poulets ne soient pas non plus détectés ;
- Je dois compter mes poulets et mes vaches, il faut que j’ai fort taux d’exactitude pour que l’erreur dans le décompte soit marginale.
- Je dois compter seulement mes poulets, un taux élevé de sensibilité m’assurera d’avoir correctement compté mes poulets, mais je devrais en retrancher les vaches comptées par erreur.
Attention aux biais algorithmiques !
La fiabilité d’une IA se cache dans ses détails : si l’IA est entraînée uniquement avec des images de poulet blanc, elle risque d’avoir une sensibilité catastrophique sur les poulets d’une autre couleur (les considérer comme des ombres ou comme des vaches).
C’est le rôle du référent IA que de s’assurer que dans les faux positifs et faux négatifs ne se cachent pas des discriminations !



