Un Roomba a enregistré une femme sur les toilettes.  Comment les captures d'écran se sont-elles retrouvées sur Facebook ?

Blog

MaisonMaison / Blog / Un Roomba a enregistré une femme sur les toilettes. Comment les captures d'écran se sont-elles retrouvées sur Facebook ?

Nov 12, 2023

Un Roomba a enregistré une femme sur les toilettes. Comment les captures d'écran se sont-elles retrouvées sur Facebook ?

Les entreprises de robots aspirateurs disent que vos images sont en sécurité, mais une offre mondiale tentaculaire

Les entreprises de robots aspirateurs disent que vos images sont en sécurité, mais une chaîne d'approvisionnement mondiale tentaculaire pour les données de nos appareils crée un risque.

À l'automne 2020, des travailleurs de concerts au Venezuela ont publié une série d'images sur des forums en ligne où ils se sont réunis pour parler boutique. Les photos étaient banales, bien que parfois intimes, des scènes domestiques capturées sous des angles faibles, y compris certaines que vous ne voudriez vraiment pas partager sur Internet.

Dans un plan particulièrement révélateur, une jeune femme vêtue d'un t-shirt lavande est assise sur les toilettes, son short baissé jusqu'à mi-cuisse.

Les images n'ont pas été prises par une personne, mais par des versions de développement de l'aspirateur robot de la série Roomba J7 d'iRobot. Ils ont ensuite été envoyés à Scale AI, une startup qui engage des travailleurs du monde entier pour étiqueter les données audio, photo et vidéo utilisées pour former l'intelligence artificielle.

C'était le genre de scènes que les appareils connectés à Internet capturent et renvoient régulièrement dans le cloud, mais généralement avec des contrôles de stockage et d'accès plus stricts. Pourtant, plus tôt cette année, MIT Technology Review a obtenu 15 captures d'écran de ces photos privées, qui avaient été publiées sur des groupes de médias sociaux fermés.

Les photos varient en type et en sensibilité. L'image la plus intime que nous ayons vue était la série d'images fixes vidéo montrant la jeune femme sur les toilettes, son visage bloqué dans l'image principale mais non masqué dans le défilement granuleux des plans ci-dessous. Dans une autre image, un garçon qui semble avoir huit ou neuf ans et dont le visage est clairement visible est étendu sur le ventre sur le sol d'un couloir. Une touffe de cheveux triangulaire se déverse sur son front alors qu'il regarde, avec un amusement apparent, l'objet qui l'enregistre juste en dessous du niveau des yeux.

Les autres plans montrent des pièces de maisons du monde entier, certaines occupées par des humains, une par un chien. Les meubles, la décoration et les objets situés en hauteur sur les murs et les plafonds sont délimités par des boîtes rectangulaires et accompagnés d'étiquettes telles que "tv", "plant_or_flower" et "plafonnier".

iRobot - le plus grand fournisseur mondial d'aspirateurs robotiques, qu'Amazon a récemment acquis pour 1,7 milliard de dollars dans le cadre d'un accord en cours - a confirmé que ces images avaient été capturées par ses Roombas en 2020. Toutes provenaient de "robots de développement spéciaux avec des modifications matérielles et logicielles qui ne sont pas et n'ont jamais été présentes sur les produits de consommation iRobot à l'achat", a déclaré la société dans un communiqué. Ils ont été remis à des "collecteurs et employés rémunérés" qui ont signé des accords écrits reconnaissant qu'ils renvoyaient des flux de données, y compris des vidéos, à l'entreprise à des fins de formation. Selon iRobot, les appareils étaient étiquetés avec un autocollant vert vif indiquant "enregistrement vidéo en cours", et il appartenait à ces collecteurs de données rémunérés de "supprimer tout ce qu'ils jugeaient sensible de tout espace dans lequel le robot opère, y compris les enfants".

Avez-vous participé aux efforts de collecte de données d'iRobot ? Nous aimerions recevoir de vos nouvelles. Veuillez contacter au[email protected].

En d'autres termes, selon l'estimation d'iRobot, toute personne dont les photos ou les vidéos apparaissaient dans les flux avait accepté de laisser leur Roombas les surveiller. iRobot a refusé de laisser MIT Technology Review consulter les accords de consentement et n'a mis aucun de ses collectionneurs ou employés rémunérés à disposition pour discuter de leur compréhension des termes.

Bien que les images partagées avec nous ne proviennent pas de clients iRobot, les consommateurs consentent régulièrement à ce que nos données soient surveillées à des degrés divers sur des appareils allant des iPhones aux machines à laver. C'est une pratique qui n'a fait que se généraliser au cours de la dernière décennie, car l'intelligence artificielle gourmande en données a été de plus en plus intégrée dans une toute nouvelle gamme de produits et services. Une grande partie de cette technologie est basée sur l'apprentissage automatique, une technique qui utilise de grandes quantités de données, y compris nos voix, nos visages, nos maisons et d'autres informations personnelles, pour entraîner des algorithmes à reconnaître des modèles. Les ensembles de données les plus utiles sont les plus réalistes, ce qui rend les données provenant d'environnements réels, comme les maisons, particulièrement précieuses. Souvent, nous nous engageons simplement en utilisant le produit, comme indiqué dans les politiques de confidentialité avec un langage vague qui donne aux entreprises une large latitude dans la manière dont elles diffusent et analysent les informations des consommateurs.

Les données collectées par les robots aspirateurs peuvent être particulièrement invasives. Ils ont "un matériel puissant, des capteurs puissants", explique Dennis Giese, doctorant à la Northeastern University qui étudie les vulnérabilités de sécurité des appareils de l'Internet des objets, y compris les robots aspirateurs. "Et ils peuvent conduire dans votre maison - et vous n'avez aucun moyen de contrôler cela." Cela est particulièrement vrai, ajoute-t-il, pour les appareils dotés de caméras avancées et d'intelligence artificielle, comme la série Roomba J7 d'iRobot.

Une enquête du MIT Technology Review a récemment révélé comment des images d'un mineur et d'un testeur sur les toilettes se sont retrouvées sur les réseaux sociaux. iRobot a déclaré qu'il avait le consentement de collecter ce type de données à l'intérieur des maisons, mais les participants disent le contraire.

Ces données sont ensuite utilisées pour construire des robots plus intelligents dont le but pourrait un jour aller bien au-delà de l'aspirateur. Mais pour rendre ces ensembles de données utiles pour l'apprentissage automatique, les humains individuels doivent d'abord visualiser, catégoriser, étiqueter et ajouter un contexte à chaque bit de données. Ce processus est appelé annotation de données.

"Il y a toujours un groupe d'humains assis quelque part, généralement dans une pièce sans fenêtre, faisant juste un tas de pointer-cliquer : "Oui, c'est un objet ou pas un objet" », explique Matt Beane, professeur adjoint au programme de gestion de la technologie à l'Université de Californie à Santa Barbara, qui étudie le travail humain derrière la robotique.

Les 15 images partagées avec MIT Technology Review ne sont qu'une infime partie d'un vaste écosystème de données. iRobot a déclaré avoir partagé plus de 2 millions d'images avec Scale AI et une quantité inconnue de plus avec d'autres plateformes d'annotation de données ; la société a confirmé que Scale n'est que l'un des annotateurs de données qu'elle a utilisés.

James Baussmann, porte-parole d'iRobot, a déclaré dans un e-mail que la société avait "pris toutes les précautions pour s'assurer que les données personnelles sont traitées en toute sécurité et conformément à la loi applicable", et que les images partagées avec MIT Technology Review ont été "partagées en violation d'un accord de non-divulgation écrit entre iRobot et un fournisseur de services d'annotation d'images". Dans une déclaration envoyée par e-mail quelques semaines après avoir partagé les images avec la société, le PDG d'iRobot, Colin Angle, a déclaré que "iRobot met fin à sa relation avec le fournisseur de services qui a divulgué les images, enquête activement sur la question et prend des mesures pour aider à prévenir une fuite similaire par tout fournisseur de services à l'avenir. " L'entreprise n'a pas répondu aux questions supplémentaires sur la nature de ces mesures.

En fin de compte, cependant, cet ensemble d'images représente quelque chose de plus grand que les actions d'une entreprise individuelle. Ils parlent de la pratique répandue et croissante du partage de données potentiellement sensibles pour former des algorithmes, ainsi que du voyage surprenant et planétaire qu'une seule image peut entreprendre - dans ce cas, des foyers en Amérique du Nord, en Europe et en Asie aux serveurs d'iRobot basé au Massachusetts, de là à Scale AI basé à San Francisco, et enfin aux travailleurs de données sous contrat de Scale dans le monde entier (y compris, dans ce cas, des travailleurs vénézuéliens qui ont publié les images sur des groupes privés sur Facebook, Discord et ailleurs).

Ensemble, les images révèlent toute une chaîne d'approvisionnement en données - et de nouveaux points où des informations personnelles pourraient fuir - dont peu de consommateurs sont même conscients.

"On ne s'attend pas à ce que des êtres humains examinent les images brutes", souligne Justin Brookman, directeur de la politique technologique chez Consumer Reports et ancien directeur des politiques de l'Office of Technology Research and Investigation de la Federal Trade Commission. iRobot ne dirait pas si les collecteurs de données savaient que les humains, en particulier, visionneraient ces images, bien que la société ait déclaré que le formulaire de consentement indiquait clairement que les "fournisseurs de services" le seraient.

"On ne s'attend pas à ce que des êtres humains examinent les images brutes."

"Nous traitons littéralement les machines différemment des humains", ajoute Jessica Vitak, spécialiste de l'information et professeure au département de communication de l'Université du Maryland et à son College of Information Studies. "C'est beaucoup plus facile pour moi d'accepter un joli petit aspirateur, vous savez, qui se déplace dans mon espace [que] quelqu'un qui se promène dans ma maison avec une caméra."

Et pourtant, c'est essentiellement ce qui se passe. Ce n'est pas seulement un robot aspirateur qui vous regarde sur les toilettes, une personne peut aussi vous regarder.

Les robots aspirateurs n'ont pas toujours été aussi intelligents.

Le premier modèle, l'Electrolux Trilobite de fabrication suédoise, est arrivé sur le marché en 2001. Il utilisait des capteurs à ultrasons pour localiser les murs et tracer les schémas de nettoyage ; des capteurs de choc supplémentaires sur ses côtés et des capteurs de falaise en bas l'ont aidé à éviter de heurter des objets ou de tomber des escaliers. Mais ces capteurs étaient défectueux, amenant le robot à manquer certaines zones ou à en répéter d'autres. Le résultat était des travaux de nettoyage inachevés et insatisfaisants.

L'année suivante, iRobot a lancé le Roomba de première génération, qui s'appuyait sur des capteurs de chocs et des capteurs de virage de base similaires. Beaucoup moins cher que son concurrent, il est devenu le premier robot aspirateur à succès commercial.

Aujourd'hui, les modèles les plus basiques fonctionnent toujours de la même manière, tandis que les nettoyeurs de milieu de gamme intègrent de meilleurs capteurs et d'autres techniques de navigation comme la localisation et la cartographie simultanées pour trouver leur place dans une pièce et tracer de meilleurs chemins de nettoyage.

Les appareils haut de gamme sont passés à la vision par ordinateur, un sous-ensemble de l'intelligence artificielle qui se rapproche de la vue humaine en entraînant des algorithmes pour extraire des informations à partir d'images et de vidéos, et/ou au lidar, une technique de détection à base de laser utilisée par la NASA et largement considérée comme la technologie de navigation la plus précise mais la plus chère sur le marché aujourd'hui.

La vision par ordinateur dépend de caméras haute définition, et selon nos calculs, environ une douzaineentreprises ont intégré des caméras frontales dans leurs robots aspirateurs pour la navigation et la reconnaissance d'objets, ainsi que, de plus en plus, pour la surveillance à domicile. Cela inclut les trois premiers robots aspirateurs en part de marché : iRobot, qui détient 30 % du marché et a vendu plus de 40 millions d'appareils depuis 2002 ; Ecovacs, avec environ 15 % ; et Roborock, qui détient environ 15 % supplémentaires, selon la société d'information commerciale Strategy Analytics. Il comprend également des fabricants d'appareils électroménagers familiers comme Samsung, LG et Dyson, entre autres. Au total, quelque 23,4 millions d'aspirateurs robots ont été vendus en Europe et dans les Amériques rien qu'en 2021, selon Strategy Analytics.

Dès le départ, iRobot a tout misé sur la vision par ordinateur, et son premier appareil doté de telles capacités, le Roomba 980, a fait ses débuts en 2015. C'était également le premier des appareils compatibles Wi-Fi d'iRobot, ainsi que le premier qui pouvait cartographier une maison, ajuster sa stratégie de nettoyage en fonction de la taille de la pièce et identifier les obstacles de base à éviter.

La vision par ordinateur "permet au robot de … voir toute la richesse du monde qui l'entoure", explique Chris Jones, directeur de la technologie d'iRobot. Cela permet aux appareils d'iRobot "d'éviter les cordons au sol ou de comprendre qu'il s'agit d'un canapé".

Mais pour que la vision par ordinateur dans les robots aspirateurs fonctionne vraiment comme prévu, les fabricants doivent l'entraîner sur des ensembles de données divers et de haute qualité qui reflètent la vaste gamme de ce qu'ils pourraient voir. "La diversité de l'environnement domestique est une tâche très difficile", déclare Wu Erqi, directeur principal de la R&D de Roborock, basé à Pékin. Les systèmes routiers "sont assez standard", dit-il, donc pour les constructeurs de voitures autonomes, "vous saurez à quoi ressemble la voie… [et] à quoi ressemble le panneau de signalisation". Mais chaque intérieur de maison est très différent.

"Le mobilier n'est pas standardisé", ajoute-t-il. "Vous ne pouvez pas vous attendre à ce qu'il y aura sur votre sol. Parfois, il y a une chaussette là-bas, peut-être des câbles" - et les câbles peuvent sembler différents aux États-Unis et en Chine.

MIT Technology Review s'est entretenu avec ou a envoyé des questions à 12 entreprises vendant des aspirateurs robots et a constaté qu'elles répondent différemment au défi de collecter des données de formation.

Dans le cas d'iRobot, plus de 95 % de son ensemble de données d'images provient de maisons réelles, dont les résidents sont soit des employés d'iRobot, soit des bénévoles recrutés par des fournisseurs de données tiers (qu'iRobot a refusé d'identifier). Les personnes utilisant des appareils de développement acceptent d'autoriser iRobot à collecter des données, y compris des flux vidéo, pendant que les appareils fonctionnent, souvent en échange d'"incitations à la participation", selon un communiqué d'iRobot.La société a refusé de préciser quelles étaient ces incitations, affirmant seulement qu'elles variaient "en fonction de la longueur et de la complexité de la collecte de données".

Les données de formation restantes proviennent de ce qu'iRobot appelle la "collecte de données par étapes", dans laquelle l'entreprise construit des modèles qu'elle enregistre ensuite.

iRobot a également commencé à offrir aux consommateurs réguliers la possibilité de participer à la contribution de données de formation via son application, où les gens peuvent choisir d'envoyer des images spécifiques d'obstacles aux serveurs de l'entreprise pour améliorer ses algorithmes. iRobot dit que si un client participe à cette formation "user-in-the-loop", comme on l'appelle, l'entreprise ne reçoit que ces images spécifiques, et aucune autre. Baussmann, le représentant de la société, a déclaré dans un e-mail que ces images n'avaient pas encore été utilisées pour former des algorithmes.

Contrairement à iRobot, Roborock a déclaré qu'il "produisait [s] [ses] propres images dans [ses] laboratoires" ou "travaillait [s] avec des fournisseurs tiers en Chine qui sont spécifiquement invités à capturer et à fournir des images d'objets sur les sols à des fins de formation. " Pendant ce temps, Dyson, qui vend deux modèles d'aspirateurs robots haut de gamme, a déclaré qu'il recueillait des données provenant de deux sources principales : "des essayeurs à domicile au sein du département de recherche et développement de Dyson avec une habilitation de sécurité" et, de plus en plus, des données de formation synthétiques ou générées par l'IA.

La plupart des entreprises de robots aspirateurs avec lesquelles MIT Technology Review s'est entretenue ont explicitement déclaré qu'elles n'utilisaient pas les données des clients pour former leurs algorithmes d'apprentissage automatique. Samsung n'a pas répondu aux questions sur la source de ses données (bien qu'il ait écrit qu'il n'utilisait pas Scale AI pour l'annotation des données), tandis qu'Ecovacs qualifie la source de ses données de formation de "confidentielle". LG et Bosch n'ont pas répondu aux demandes de commentaires.

"Vous devez supposer que les gens… se demandent de l'aide. La politique dit toujours que vous n'êtes pas censé le faire, mais c'est très difficile à contrôler."

Certains indices sur d'autres méthodes de collecte de données proviennent de Giese, le pirate IoT, dont le bureau à Northeastern est rempli d'aspirateurs robots qu'il a rétro-conçus, lui donnant accès à leurs modèles d'apprentissage automatique. Certains sont produits par Dreame, une société chinoise relativement nouvelle basée à Shenzhen qui vend des appareils abordables et riches en fonctionnalités.

Giese a découvert que les aspirateurs Dreame avaient un dossier intitulé "AI server", ainsi que des fonctions de téléchargement d'images. Les entreprises disent souvent que "les données des caméras ne sont jamais envoyées vers le cloud et peu importe", dit Giese, mais "quand j'ai eu accès à l'appareil, j'ai pu prouver que ce n'était pas vrai". Même s'ils n'ont pas téléchargé de photos, ajoute-t-il, "[la fonction] est toujours là."

Alors que la demande d'étiquetage des données explosait, une catastrophe économique a transformé le Venezuela en point zéro pour un nouveau modèle d'exploitation du travail.

Dreame fabrique des robots aspirateurs qui sont également renommés et vendus par d'autres sociétés, ce qui indique que cette pratique pourrait également être utilisée par d'autres marques, explique Giese.

Dreame n'a pas répondu aux questions par e-mail sur les données collectées à partir des appareils des clients, mais dans les jours qui ont suivi la sensibilisation initiale de MIT Technology Review, la société a commencé à modifier ses politiques de confidentialité, y compris celles liées à la manière dont elle collecte les informations personnelles, et à publier plusieurs mises à jour du micrologiciel.

Mais sans une explication des entreprises elles-mêmes ou un moyen, en plus du piratage, de tester leurs affirmations, il est difficile de savoir avec certitude ce qu'elles collectent auprès des clients à des fins de formation.

Les données brutes requises pour les algorithmes d'apprentissage automatique entraînent un besoin de main-d'œuvre, et beaucoup de travail. C'est là qu'intervient l'annotation de données. Industrie jeune mais en pleine croissance, l'annotation de données devrait atteindre 13,3 milliards de dollars en valeur marchande d'ici 2030.

Le domaine a décollé en grande partie pour répondre à l'énorme besoin de données étiquetées pour former les algorithmes utilisés dans les véhicules autonomes. Aujourd'hui, les étiqueteurs de données, qui sont souvent des contractuels mal rémunérés dans les pays en développement, contribuent à alimenter une grande partie de ce que nous tenons pour acquis comme étant « automatisé » en ligne. Ils gardent le pire d'Internet hors de nos flux de médias sociaux en catégorisant et en signalant manuellement les messages, améliorent le logiciel de reconnaissance vocale en transcrivant un son de faible qualité et aident les robots aspirateurs à reconnaître les objets dans leur environnement en marquant des photos et des vidéos.

Parmi la myriade d'entreprises qui ont vu le jour au cours de la dernière décennie, Scale AI est devenu le leader du marché. Fondée en 2016, elle a construit un modèle commercial autour de la passation de contrats avec des travailleurs à distance dans des pays moins riches à des tarifs bon marché basés sur des projets ou des tâches sur Remotasks, sa plateforme propriétaire de crowdsourcing.

En 2020, Scale y a posté une nouvelle mission : Project IO. Il présentait des images capturées depuis le sol et inclinées vers le haut à environ 45 degrés, et montrait les murs, les plafonds et les sols de maisons du monde entier, ainsi que tout ce qui se trouvait à l'intérieur ou sur eux, y compris des personnes, dont les visages étaient clairement visibles pour les étiqueteurs.

Les étiqueteurs ont discuté du projet IO sur Facebook, Discord et d'autres groupes qu'ils avaient créés pour partager des conseils sur la gestion des retards de paiement, parler des missions les mieux rémunérées ou demander de l'aide pour étiqueter des objets délicats.

iRobot a confirmé que les 15 images publiées dans ces groupes et ensuite envoyées à MIT Technology Review provenaient de ses appareils, partageant une feuille de calcul répertoriant les dates précises de leur réalisation (entre juin et novembre 2020), les pays d'où elles provenaient (États-Unis, Japon, France, Allemagne et Espagne) et les numéros de série des appareils qui ont produit les images, ainsi qu'une colonne indiquant qu'un formulaire de consentement avait été signé par l'utilisateur de chaque appareil. (Scale AI a confirmé que 13 des 15 images provenaient "d'un projet de R&D sur lequel [il] a travaillé avec iRobot il y a plus de deux ans", bien qu'il ait refusé de clarifier les origines ou d'offrir des informations supplémentaires sur les deux autres images.)

iRobot dit que le partage d'images dans les groupes de médias sociaux viole les accords de Scale avec lui, et Scale dit que les travailleurs contractuels partageant ces images ont violé leurs propres accords.

"Le problème sous-jacent est que votre visage est comme un mot de passe que vous ne pouvez pas changer. Une fois que quelqu'un a enregistré la 'signature' de votre visage, il peut l'utiliser pour toujours pour vous trouver sur des photos ou des vidéos."

Mais de telles actions sont presque impossibles à surveiller sur les plateformes de crowdsourcing.

Quand je demande à Kevin Guo, PDG de Hive, un concurrent de Scale qui dépend également de contractuels, s'il est au courant que des étiqueteurs de données partagent du contenu sur les réseaux sociaux, il est franc. "Ce sont des travailleurs distribués", dit-il. "Vous devez supposer que les gens… se demandent de l'aide. La politique dit toujours que vous n'êtes pas censé le faire, mais c'est très difficile à contrôler."

Cela signifie que c'est au fournisseur de services de décider d'assumer ou non certains travaux. Pour Hive, dit Guo, "nous ne pensons pas avoir les bons contrôles en place compte tenu de notre main-d'œuvre" pour protéger efficacement les données sensibles. Hive ne travaille avec aucune entreprise de robots aspirateurs, ajoute-t-il.

"C'est un peu surprenant pour moi que [les images] aient été partagées sur une plateforme de crowdsourcing", déclare Olga Russakovsky, chercheuse principale au Visual AI Lab de l'Université de Princeton et cofondatrice du groupe AI4All. Garder l'étiquetage en interne, où "les gens sont soumis à des NDA strictes" et "sur les ordinateurs de l'entreprise", permettrait de sécuriser les données beaucoup plus, souligne-t-elle.

En d'autres termes, s'appuyer sur des annotateurs de données éloignés n'est tout simplement pas un moyen sûr de protéger les données. "Lorsque vous avez des données que vous avez obtenues de clients, elles résident normalement dans une base de données avec protection d'accès", explique Pete Warden, un chercheur de premier plan en vision par ordinateur et doctorant à l'Université de Stanford. Mais avec la formation à l'apprentissage automatique, les données clients sont toutes combinées "dans un gros lot", élargissant le "cercle des personnes" qui y ont accès.

Pour sa part, iRobot dit qu'il ne partage qu'un sous-ensemble d'images de formation avec des partenaires d'annotation de données, signale toute image contenant des informations sensibles et informe le responsable de la confidentialité de l'entreprise si des informations sensibles sont détectées. Baussmann qualifie cette situation de "rare" et ajoute que lorsque cela se produit, "l'intégralité du journal vidéo, y compris l'image, est supprimée des serveurs iRobot".

La société a précisé : "Lorsqu'une image est découverte dans laquelle un utilisateur se trouve dans une position compromettante, y compris de la nudité, de la nudité partielle ou une interaction sexuelle, elle est supprimée, en plus de TOUTES les autres images de ce journal." Il n'a pas précisé si ce signalement serait effectué automatiquement par algorithme ou manuellement par une personne, ni pourquoi cela ne s'est pas produit dans le cas de la femme aux toilettes.

La politique d'iRobot, cependant, ne juge pas les visages sensibles, même si les personnes sont mineures.

"Afin d'apprendre aux robots à éviter les humains et les images d'humains" - une fonctionnalité qu'elle a promue auprès des clients soucieux de la vie privée - l'entreprise "doit d'abord apprendre au robot ce qu'est un humain", a expliqué Baussmann. "En ce sens, il faut d'abord collecter des données d'humains pour former un modèle." L'implication est que les visages doivent faire partie de ces données.

Mais les images faciales ne sont peut-être pas nécessaires pour que les algorithmes détectent les humains, selon William Beksi, professeur d'informatique qui dirige le laboratoire de vision robotique de l'Université du Texas à Arlington : les modèles de détecteurs humains peuvent reconnaître les personnes en se basant "juste [sur] le contour (silhouette) d'un humain".

"Si vous étiez une grande entreprise et que vous étiez préoccupé par la confidentialité, vous pourriez prétraiter ces images", explique Beksi. Par exemple, vous pouvez flouter les visages humains avant même qu'ils ne quittent l'appareil et "avant de les donner à quelqu'un pour qu'il les annote".

"Cela semble être un peu bâclé", conclut-il, "surtout d'avoir des mineurs enregistrés dans les vidéos".

Dans le cas de la femme aux toilettes, un étiqueteur de données s'est efforcé de préserver son intimité en plaçant un cercle noir sur son visage. Mais dans aucune autre image représentant des personnes, les identités n'étaient masquées, que ce soit par les étiqueteurs de données eux-mêmes, par Scale AI ou par iRobot. Cela inclut l'image du jeune garçon étendu sur le sol.

Baussmann a expliqué qu'iRobot protégeait "l'identité de ces humains" en "dissociant toutes les informations d'identification des images... donc si une image est acquise par un mauvais acteur, ils ne peuvent pas remonter pour identifier la personne sur l'image".

Mais capturer des visages est intrinsèquement contraire à la vie privée, affirme Warden. "Le problème sous-jacent est que votre visage est comme un mot de passe que vous ne pouvez pas changer", dit-il. "Une fois que quelqu'un a enregistré la 'signature' de votre visage, il peut l'utiliser pour toujours pour vous retrouver sur des photos ou des vidéos."

De plus, "les législateurs et les responsables de la confidentialité considéreraient la biométrie, y compris les visages, comme des informations sensibles", déclare Jessica Rich, une avocate spécialisée dans la protection de la vie privée qui a été directrice du Bureau de la protection des consommateurs de la FTC entre 2013 et 2017. C'est particulièrement le cas si des mineurs sont filmés, ajoute-t-elle : "Obtenir le consentement de l'employé [ou des testeurs] n'est pas la même chose que d'obtenir le consentement de l'enfant. L'employé n'a pas la capacité de consentir à la collecte de données sur d'autres personnes, sans parler des enfants qui apparaissent être impliqué. » Rich dit qu'elle ne faisait référence à aucune entreprise en particulier dans ces commentaires.

En fin de compte, le vrai problème n'est sans doute pas que les étiqueteurs de données ont partagé les images sur les réseaux sociaux. C'est plutôt que ce type d'ensemble de formation à l'IA, en particulier celui représentant des visages, est beaucoup plus courant que la plupart des gens ne le pensent, note Milagros Miceli, sociologue et informaticien qui interroge depuis des années des travailleurs distribués sous contrat avec des sociétés d'annotation de données. Miceli faisait partie d'une équipe de recherche qui a parlé à plusieurs étiqueteurs qui ont vu des images similaires, prises depuis les mêmes points de vue bas et montrant parfois des personnes à différents stades de déshabillage.

Les étiqueteurs de données ont trouvé ce travail "vraiment inconfortable", ajoute-t-elle.

Les fabricants d'aspirateurs robots eux-mêmes reconnaissent les risques accrus en matière de confidentialité présentés par les caméras intégrées. "Lorsque vous avez pris la décision d'investir dans la vision par ordinateur, vous devez faire très attention à la confidentialité et à la sécurité", déclare Jones, directeur technique d'iRobot. "Vous offrez cet avantage au produit et au consommateur, mais vous devez également traiter la confidentialité et la sécurité comme une priorité absolue."

En fait, iRobot déclare au MIT Technology Review qu'il a mis en place de nombreuses mesures de protection de la vie privée et de la sécurité sur les appareils de ses clients, notamment l'utilisation du cryptage, la correction régulière des vulnérabilités de sécurité, la limitation et la surveillance de l'accès des employés internes aux informations et la fourniture aux clients d'informations détaillées sur les données qu'il collecte.

Mais il existe un large fossé entre la façon dont les entreprises parlent de la vie privée et la façon dont les consommateurs la comprennent.

Il est facile, par exemple, de confondre confidentialité et sécurité, déclare Jen Caltrider, la chercheuse principale derrière le projet "*Privacy Not Include" de Mozilla, qui examine les appareils grand public pour la confidentialité et la sécurité. La sécurité des données fait référence à la sécurité physique et cybernétique d'un produit, ou à sa vulnérabilité à un piratage ou à une intrusion, tandis que la confidentialité des données concerne la transparence - connaître et pouvoir contrôler les données dont disposent les entreprises, comment elles sont utilisées, pourquoi elles sont partagées, si et pendant combien de temps elles sont conservées, et combien une entreprise collecte pour commencer.

Confondre les deux est pratique, ajoute Caltrider, car "la sécurité s'est améliorée, tandis que la confidentialité s'est bien dégradée" depuis qu'elle a commencé à suivre les produits en 2017. "Les appareils et les applications collectent désormais beaucoup plus d'informations personnelles", dit-elle.

Les représentants de l'entreprise utilisent aussi parfois des différences subtiles, comme la distinction entre "partager" des données et les vendre, qui rendent la façon dont ils gèrent la confidentialité particulièrement difficile à analyser pour les non-experts. Lorsqu'une entreprise déclare qu'elle ne vendra jamais vos données, cela ne signifie pas qu'elle ne les utilisera pas ou ne les partagera pas avec d'autres à des fins d'analyse.

Ces définitions étendues de la collecte de données sont souvent acceptables dans le cadre des politiques de confidentialité formulées de manière vague par les entreprises, qui contiennent pratiquement toutes un langage permettant l'utilisation de données dans le but d'"améliorer les produits et services" - un langage que Rich appelle si large qu'il "permet pratiquement tout".

"Les développeurs ne sont traditionnellement pas très bons [dans] les trucs de sécurité." Leur attitude devient "Essayez d'obtenir la fonctionnalité, et si la fonctionnalité fonctionne, expédiez le produit. Et puis les scandales éclatent."

En effet, MIT Technology Review a examiné 12 politiques de confidentialité des robots aspirateurs, et toutes eux, y compris ceux d'iRobot, contenaient un langage similaire sur "l'amélioration des produits et des services". La plupart des entreprises auxquelles MIT Technology Review a demandé des commentaires n'ont pas répondu aux questions sur la question de savoir si "l'amélioration du produit" inclurait des algorithmes d'apprentissage automatique. Mais Roborock et iRobot le disent.

Et parce que les États-Unis n'ont pas de loi complète sur la confidentialité des données - au lieu de s'appuyer sur un méli-mélo de lois d'État, notamment la California Consumer Privacy Act - ces politiques de confidentialité sont ce qui façonne les responsabilités légales des entreprises, dit Brookman. "Beaucoup de politiques de confidentialité diront, vous savez, nous nous réservons le droit de partager vos données avec certains partenaires ou fournisseurs de services", note-t-il. Cela signifie que les consommateurs acceptent probablement que leurs données soient partagées avec d'autres entreprises, qu'elles les connaissent ou non.

Brookman explique que les barrières juridiques que les entreprises doivent franchir pour collecter des données directement auprès des consommateurs sont assez faibles. La FTC, ou les procureurs généraux des États, peuvent intervenir s'il y a des pratiques "déloyales" ou "trompeuses", note-t-il, mais celles-ci sont définies de manière étroite : à moins qu'une politique de confidentialité ne dise spécifiquement "Hé, nous n'allons pas laisser les sous-traitants consulter vos données" et qu'ils les partagent de toute façon, dit Brookman, les entreprises sont "probablement d'accord avec la tromperie, qui est le principal moyen" pour la FTC de "faire respecter la confidentialité historiquement". Prouver qu'une pratique est déloyale, quant à lui, entraîne des charges supplémentaires, y compris la preuve du préjudice. "Les tribunaux ne se sont jamais vraiment prononcés là-dessus", ajoute-t-il.

La plupart des politiques de confidentialité des entreprises ne mentionnent même pas les données audiovisuelles capturées, à quelques exceptions près. La politique de confidentialité d'iRobot indique qu'il ne collecte des données audiovisuelles que si un individu partage des images via son application mobile. La politique de confidentialité de LG pour le Hom-Bot Turbo+ compatible avec la caméra et l'IA explique que son application collecte des données audiovisuelles, y compris "des informations audio, électroniques, visuelles ou similaires, telles que des photos de profil, des enregistrements vocaux et des enregistrements vidéo". Et la politique de confidentialité du robot aspirateur Jet Bot AI+ de Samsung avec lidar et Powerbot R7070, tous deux équipés d'appareils photo, collectera "les informations que vous stockez sur votre appareil, telles que les photos, les contacts, les journaux de texte, les interactions tactiles, les paramètres et les informations de calendrier" et "les enregistrements de votre voix lorsque vous utilisez des commandes vocales pour contrôler un service ou contacter notre équipe du service client". Pendant ce temps, la politique de confidentialité de Roborock ne fait aucune mention des données audiovisuelles, bien que les représentants de l'entreprise disent au MIT Technology Review que les consommateurs en Chine ont la possibilité de les partager.

La cofondatrice d'iRobot, Helen Greiner, qui dirige maintenant une startup appelée Tertill qui vend un robot de désherbage de jardin, souligne qu'en collectant toutes ces données, les entreprises n'essaient pas de violer la vie privée de leurs clients. Ils essaient simplement de créer de meilleurs produits ou, dans le cas d'iRobot, de "faire un meilleur nettoyage", dit-elle.

Pourtant, même les meilleurs efforts d'entreprises comme iRobot laissent clairement des lacunes dans la protection de la vie privée. "Cela ressemble moins à de la méchanceté, mais juste à de l'incompétence", déclare Giese, le hacker IoT. "Les développeurs ne sont traditionnellement pas très bons [dans] les trucs de sécurité." Leur attitude devient "Essayez d'obtenir la fonctionnalité, et si la fonctionnalité fonctionne, expédiez le produit."

"Et puis les scandales éclatent", ajoute-t-il.

L'appétit pour les données ne fera qu'augmenter dans les années à venir. Les aspirateurs ne sont qu'un petit sous-ensemble des appareils connectés qui prolifèrent dans nos vies, et les plus grands noms des aspirateurs robots, notamment iRobot, Samsung, Roborock et Dyson, expriment des ambitions bien plus grandes que le nettoyage automatisé des sols. La robotique, y compris la robotique domestique, a longtemps été le vrai prix.

Considérez comment Mario Munich, alors vice-président senior de la technologie chez iRobot, a expliqué les objectifs de l'entreprise en 2018. Dans une présentation sur le Roomba 980, le premier aspirateur à vision par ordinateur de l'entreprise, il a montré des images du point de vue de l'appareil, y compris celle d'une cuisine avec une table, des chaises et des tabourets, à côté de la façon dont elles seraient étiquetées et perçues par les algorithmes du robot. "Le défi n'est pas avec l'aspirateur. Le défi est avec le robot", a expliqué Munich. "Nous aimerions connaître l'environnement afin de pouvoir modifier le fonctionnement du robot."

Cette plus grande mission est évidente dans ce que les annotateurs de données de Scale ont été invités à étiqueter - pas des éléments sur le sol qui devraient être évités (une fonctionnalité que promeut iRobot), mais des éléments comme "armoire", "comptoir de cuisine" et "étagère", qui ensemble aident l'appareil de la série Roomba J à reconnaître tout l'espace dans lequel il fonctionne.

Les entreprises qui fabriquent des robots aspirateurs investissent déjà dans d'autres fonctionnalités et appareils qui nous rapprocheront d'un avenir robotisé. Les derniers Roombas peuvent être contrôlés par la voix via Nest et Alexa, et ils reconnaissent plus de 80 objets différents dans la maison. Pendant ce temps, l'aspirateur robot Deebot X1 d'Ecovacs a intégré l'assistance vocale exclusive de l'entreprise, tandis que Samsung est l'une des nombreuses entreprises développant des "robots compagnons" pour tenir compagnie aux humains. Miele, qui vend le RX2 Scout Home Vision, s'est concentré sur d'autres appareils intelligents, comme son four intelligent avec caméra.

Et si l'acquisition d'iRobot par Amazon pour 1,7 milliard de dollars va de l'avant, sous réserve de l'approbation de la FTC, qui examine l'effet de la fusion sur la concurrence sur le marché de la maison intelligente, les Roombas seront probablement encore plus intégrés dans la vision d'Amazon pour la maison intelligente toujours active du futur.

Il n'est peut-être pas surprenant que les politiques publiques commencent à refléter la préoccupation croissante du public à l'égard de la confidentialité des données. De 2018 à 2022, il y a eu une augmentation marquée du nombre d'États qui envisagent et adoptent des protections de la vie privée, telles que la California Consumer Privacy Act et la Illinois Biometric Information Privacy Act. Au niveau fédéral, la FTC envisage de nouvelles règles pour sévir contre la surveillance commerciale nuisible et les pratiques laxistes en matière de sécurité des données, y compris celles utilisées dans les données de formation. Dans deux cas, la FTC a pris des mesures contre l'utilisation non divulguée des données des clients pour former l'intelligence artificielle, forçant finalement les entreprises, Weight Watchers International et le développeur d'applications photo Everalbum, à supprimer à la fois les données collectées et les algorithmes construits à partir de celles-ci.

Pourtant, aucun de ces efforts au coup par coup ne s'attaque au marché croissant de l'annotation des données et à sa prolifération d'entreprises basées dans le monde entier ou sous contrat avec des travailleurs internationaux, qui opèrent avec peu de surveillance, souvent dans des pays où les lois sur la protection des données sont encore moins nombreuses.

Lorsque j'ai parlé cet été à Greiner, elle a dit qu'elle ne s'inquiétait pas personnellement des implications d'iRobot pour la vie privée, bien qu'elle comprenne pourquoi certaines personnes pourraient se sentir différemment. En fin de compte, elle a défini la confidentialité en termes de choix du consommateur : toute personne ayant de réelles préoccupations ne pouvait tout simplement pas acheter cet appareil.

"Chacun doit prendre ses propres décisions en matière de confidentialité", m'a-t-elle dit. "Et je peux vous dire qu'en très grande majorité, les gens prennent la décision d'avoir les fonctionnalités tant qu'elles sont livrées à un prix rentable."

Mais tout le monde n'est pas d'accord avec ce cadre, en partie parce qu'il est si difficile pour les consommateurs de faire des choix en toute connaissance de cause. Le consentement devrait être plus qu'un simple « morceau de papier » à signer ou une politique de confidentialité à parcourir, déclare Vitak, spécialiste de l'information à l'Université du Maryland.

Un véritable consentement éclairé signifie « que la personne comprend parfaitement la procédure, qu'elle comprend parfaitement les risques… comment ces risques seront atténués et… quels sont ses droits », explique-t-elle. Mais cela se produit rarement de manière globale, en particulier lorsque les entreprises commercialisent d'adorables robots assistants promettant des sols propres en un clic.

Avez-vous plus d'informations sur la façon dont les entreprises collectent des données pour former l'IA ? Avez-vous participé aux efforts de collecte de données d'iRobot ou d'autres sociétés de robots aspirateurs ? Nous aimerions avoir de vos nouvelles et respecterons les demandes d'anonymat. Veuillez contacter [email protected].

Recherche supplémentaire par Tammy Xu.

Correction : Electrolux est une société suédoise, et non une société suisse comme écrit à l'origine. Milagros Miceli faisait partie d'une équipe de recherche qui s'est entretenue avec des étiqueteurs de données qui avaient vu des images similaires provenant d'aspirateurs robots.

"J'ai soudainement changé d'avis sur la question de savoir si ces choses vont être plus intelligentes que nous."

Hinton prendra la parole à EmTech Digital mercredi.

ChatGPT a suscité des spéculations sur l'intelligence artificielle générale. Mais la prochaine véritable phase de l'IA se situera dans des domaines et des contextes spécifiques.

Regardez Hinton s'entretenir avec Will Douglas Heaven, rédacteur en chef de MIT Technology Review pour l'IA, chez EmTech Digital.

Découvrez les offres spéciales, les meilleures histoires, les événements à venir et plus encore.

Merci d'avoir soumis votre e-mail !

On dirait que quelque chose s'est mal passé.

Nous rencontrons des difficultés pour enregistrer vos préférences. Essayez d'actualiser cette page et de les mettre à jour une fois de plus. Si vous continuez à recevoir ce message, contactez-nous à l'adresse [email protected] avec une liste des newsletters que vous souhaitez recevoir.

Avez-vous participé aux efforts de collecte de données d'iRobot ? Nous aimerions recevoir de vos nouvelles. Veuillez contacter au[email protected] . [email protected] " "Vous devez supposer que les gens… se demandent de l'aide. La politique dit toujours que vous n'êtes pas censé le faire, mais c'est très difficile à contrôler." "Le problème sous-jacent est que votre visage est comme un mot de passe que vous ne pouvez pas changer. Une fois que quelqu'un a enregistré la « signature » ​​de votre visage, il peut l'utiliser pour toujours pour vous trouver sur des photos ou des vidéos. » Avez-vous plus d'informations sur la façon dont les entreprises collectent des données pour former l'IA ? Avez-vous participé aux efforts de collecte de données d'iRobot ou d'autres sociétés de robots aspirateurs ? Nous aimerions avoir de vos nouvelles et respecterons les demandes d'anonymat. Veuillez contacter [email protected] Nous aimerions avoir de vos nouvelles et respecterons les demandes d'anonymat. Veuillez contacter [email protected]