Fini les « 2.000 selon la police, 20.000 selon les participants », cette intelligence artificielle est là pour compter les foules

par Gauvain Dossantos
publié le samedi 28 janvier 2017 à 18:17 •
5 min de lecture

Après l’investiture de Trump, le Président américain a accusé les médias de mentir sur le nombre de gens présents à la cérémonie. Pourtant les images ne mentaient pas: il y avait moins de monde à son intronisation qu’à celle de Barack Obama. Pour éviter ce genre de problème, il y aura bientôt une intelligence artificielle capable de compter les foules.

C’est la blague qui ressort après chaque manifestation: « ils étaient 20.000 selon la police, 200.000 selon les manifestants ». À croire que personne n’est capable d’estimer correctement le nombre de participants à un événement.

Mais en réalité, ce nombre est un argument politique. Il est la preuve qu’une idée est défendue par un nombre important de gens. Plus ce nombre est grand, plus l’idée en question est légitimée. Même chose pour Donald Trump. En affirmant qu’il y avait eu « le plus grand public pour assister à une inauguration, c’est tout », le nouveau président des États-Unis sous-entendait qu’il était un président apprécié, soit légitime.

Mais une nouvelle intelligence artificielle (AI) développée par l’UCF, l’Université de Floride centrale, pourrait bien mettre un terme à ces débats sur le chiffre. Ce logiciel basé sur l’apprentissage automatique pourrait fournir des estimations automatisées des foules en une demi-heure, là où l’humain prend plusieurs jours voir une semaine entière.

“This was the largest audience to ever witness an inauguration — period,” Trump White House press secretary falsely claims. Patently false. pic.twitter.com/QL971jmyMt
— Bradd Jaffy (@BraddJaffy) 21 janvier 2017

Estimation plus correcte

Les professionnels du comptage de foule procèdent généralement par estimation. Ils ne comptent pas les têtes une à une. Normalement, ils comptent le nombre de gens dans certaines zones des images de foules – zones dont ils connaissent la taille réelle – et ensuite, ils extrapolent pour arriver à une estimation du nombre total de la foule dans la zone plus grande.

Les AI développées par l’UCF fonctionneront différemment. Ces logiciels subdiviseront une image de foule donnée en petites parts dans lesquelles ils compteront chaque tête. Ils se baseront sur la répétition d’éléments de texture (les têtes, par exemple) et l’analyse du domaine fréquentiel. Les comptages individuels seront ensuite calculés en moyenne sur la base d’hypothèses sur la densité de foule. Ce qui inclue encore un certain pourcentage d’erreur.

Mubarak Shah, professeur d’informatique et directeur du Centre de recherche en vision informatique de l’Université de la Floride centrale, explique que l’AI peut encore faire des erreurs allant jusqu’à 30% de différence avec la réalité du terrain. « Nous ne sommes pas sûrs que ce soit mieux que les compteurs professionnels », déclare-t-il à Spectrum. Pour l’instant.

Deep learning

Car cette intelligence artificielle devrait être améliorée. Notamment grâce au deep learning, une méthode d’apprentissage automatique basée sur les données qui permet aux logiciels d’évoluer tout seul et de devenir plus performants. Le deep learning ou apprentissage profond est très utilisé dans le domaine de l’analyse sonore ou visuel, soit tout ce qui touche à la reconnaissance faciale ou vocale.

En gros, ce logiciel va s’entraîner à mater des photos de foule pour être chaque fois plus précis. Cette intelligence artificielle va booster son propre logiciel de réseau neuronal, son cerveau en quelque sorte, en filtrant les données pertinentes à travers de nombreuses couches de traitement.

Le deep-learning est une méthode dans laquelle de gros monstres de la tech, comme les GAFAM (Google, Amazon, Facebook, Apple et Microsoft), ont déjà mis un sérieux paquet de blé. Mais pour que cette méthode soit efficace, il lui faut un très grand nombre de photos que l’AI pourra comparer encore et encore.

Du #MachineLearning au #DeepLearning : décryptage au salon @bigdataparis https://t.co/nP0PnyuzMc pic.twitter.com/NNfVE461ij
— IBM Analytics (@IBMAnalyticsFr) 28 janvier 2017

Prise de vue

Le seul problème – qui est le même que celui rencontré par les humains – c’est la photo. Pour estimer une foule, il faut une bonne photo qui ne soit pas trop prise en biais afin que l’on puisse voir tout le monde. Le mieux, ce sont les photos prises à la verticale, par un drone, un satellite ou un hélicoptère.

Le problème, c’est que la législation concernant le survol de manifestations avec un drone est encore très stricte et qu’il est souvent interdit de balader son drone au-dessus des foules. Ce qui complique la tâche. Les images prises en oblique obligent les AI à prendre en compte la perspective, l’angle et l’échelle des participants. Un casse-tête supplémentaire pour les chercheurs.

Mais quoi qu’il en soit, cette AI fait déjà des envieux. Le Qatar veut son AI pour gérer les foules qui viendront au Mondial de foot de 2022. Et l’Arabie Saoudite en a déjà commandé une pour compter les pèlerins qui se rendent chaque année à La Mecque. Avec ce logiciel, le gouvernement pourrait par exemple éviter de futurs bousculades comme celle de 2015 qui avait fait plus de 700 morts.