Alors que l’adoption de l’IA par les entreprises devient une réalité de plus en plus prégnante, rares sont les sociétés qui affirment avoir généralisé des pratiques de gouvernance de données structurées et répétables à l’échelle de l’entreprise. Or les données, base de l’apprentissage automatique de l’IA, sont trop souvent insuffisamment caractérisées. Les informations telles que les définitions, les catégories, les valeurs de référence, les règles d’usage, le niveau de qualité, la traçabilité et les responsabilités associées sont encore trop souvent incomplètes voire inexistantes. Pourtant, compte tenu des enjeux, il semble incontournable d'être en capacité de répondre aux questions suivantes.
Quoi? Pourquoi? Combien?
Quelles sont les caractéristiques des données utilisées pour l’apprentissage automatique (définitions, classifications, règles associées, valeurs de référence, …)? Pourquoi ces données ? Sont-elles adaptées à l’usage souhaité ? Quels sont les biais qui peuvent être induits par ces données et quels peuvent être les impacts sur des modèles ? Les données sont-elles suffisamment complètes pour l’apprentissage ? Combien de cas représent-elles / Quelle est la variété des cas représentés ? Restent-elles cohérentes dans le temps ? Quel est leur niveau de qualité ?
Qui ?
Qui sont les personnes ayant des responsabilités (Owner, Steward, Quality manager,…) sur les données utilisées pour l’apprentissage ? Qui sont les acteurs en charge de contrôler les données produites ?
Où? Comment?
D’où viennent ces données ? Quel est leur lignage/provenance ? Comment ont-elles été produites ?
Quand ?
Quand ont eu lieu les dernières mises à jour ? Quel est le niveau de fraîcheur des données ? Quand ont-elles été utilisées pour la dernière fois ?
Les perspectives ouvertes par l'IA présagent de bénéfices majeurs dans tous les domaines de l'industrie et de la société. Pour les entreprises, les gains identifiés sont à divers niveaux : efficacité opérationnelle, innovation ou encore gestion des risques. Dans le secteur public, les premières applications dans les domaines de la santé, de l'éducation et de l'environnement présagent d'impacts majeurs. Le livre blanc publié en février 2020 par l'UE précise "À l’instar de la machine à vapeur ou de l’électricité dans le passé, l’IA est en train de transformer notre monde".
Et dans le même temps, il existe des exemples d'effets négatifs de l'utilisation de l'IA : discriminations à l’égard d’individus et de groupes de personnes ou encore violation de droits (tel que le respect de la vie privée) liés à l’usage de l’IA. Quelques exemples emblématiques des préjudices provoqués par l'IA incluent la solution de recrutement Amazon dont l'algorithme favorisait les hommes ou encore les solutions de reconnaissance faciale utilisés par les géants de la tech dont les résultats varient en fonction du genre et de la couleur de peau. Les études de Joy Buolamwini de MIT Media Lab sont révélatrices à cet égard. Dans ces cas, comme dans autres, les données utilisées pour l’apprentissage de l’IA ont introduit un biais dans l’algorithme.
En pratique, la qualité de l'apprentissage dépend de la qualité des données utilisées. Plusieurs publications, dont l'article de Thomas C. Redman intitulé "If Your Data Is Bad, Your Machine Learning Tools Are Useless", sont claires sur le sujet. En effet, les données peuvent être incomplètes (par exemple une part disproportionnée de cas utilisés pour la reconnaissance faciale) ou représentent une réalité historique qu’il ne faut pas nécessairement reproduire pour le futur (par exemple la majorité des personnes qui ont été recrutés pour ce poste par le passé sont des hommes). Au delà de la qualité, l'explicabilité, l'efficacité et la stabilité des algorithmes dépendent également des données utilisées.
Une étude récente commentée par Tom Davenport montre la progression rapide de l’IA dans tous les secteurs de l’industrie. D’autres études confirment cette tendance. Les bénéfices de l'IA aussi bien que ses potentiels impacts sociétaux justifient que les entreprises déploient les efforts nécessaires pour adresser la gouvernance des données à l’échelle de l’entreprise. Le jeu en vaut largement la chandelle !
Shelemat DANIEL, Août 2020