8 commentaires

Six défis pour le Big Data

Le paradigme (ou le buzz word, selon le point de vue) du Big Data a été formulé autour des 3V (volume, vélocité et variété).

Alors que chercheurs et ingénieurs dans le monde entier travaillent à maîtriser les 3V de ce véritable data tsunami, il est important de s’interroger sur de nouveaux questionnements scientifiques moins évidents qui pourraient structurer la recherche dans ce domaine.

Lors de l’introduction d’une journée scientifique du Phi-Tab (laboratoire commun lancé entre Orange et l’Institut Mines-telecom), j’ai tenté de formuler quelques enjeux pour la recherche sur le big data

 


Big Algebra

Lorsqu’il élabore une solution big data pour résoudre un problème donné, le « data scientist » ressemble beaucoup à un alchimiste. Préparation des données, choix et paramètrage de la méthode de traitement de données (ou, le plus souvent, d’une succession de méthodes), choix et paramètrage des outils de visualisation des résultats, interprétation des résultats et de leurs incertitudes…. autant d’étapes complexes et enchevétrées où son savoir faire et son expertise vont être employés.

chymieLa « chymie » avant l’invention des équations chimiques modernes – Encyclopédie de Diderot et d’Alembert – Source Wikipedia

L’invention de la notation permettant de décrire les équations chimiques a été  un véritable coup d’accélérateur permettant l’apparition de la chimie moderne, comme l’invention des notations de l’algèbre moderne avait été  un véritable coup d’accélérateur au développement des mathématique.

Pour noter, partager, raisonner sur les opérations du big data, ne faut-il pas inventer une notation algébrique adaptée ? Pour programmer  simplement une suite de traitement big data, ne faut-il pas développer un langage informatique adapté?

Sur le dernier point, on peut se demander si  l’APL, langage mythique datant des années 70,  ne pourrait pas reprendre du service… au prix d’un sérieux lifting bien sûr !


Big Noise

Les spécialistes du « Data Mining » savent bien que l’accumulation de données ne suffit pas pour extraire des informations utiles. Comme le disais Pierre Dac (ou Alphonse Allais?), « Tout est dans tout… et inversement ».  Le site « Spurrious Correlations » le démontre avec humour : on trouvera toujours un « signal » (dans ce cas une simple correlation due au hasard) dans une très grande masse de données.

La question de séparer le « signal » du « bruit »,  l’ « information » du « hasard » dans une grande masse de donnée reste largement ouverte au sein du monde scientifique.


Image2

Des Datas aux informations (Inspiré de Big Data’s Argyle Principle)

Si des décisions d’ordre économique ou politique sont prises sur la base d’analyses « big data » par des humains (ou des machines comme dans le trading haute fréquence), des techniques de « spam/scam numériques » vont apparaître, qui consisteront à générer massivement de fausses « données » dans le but de manipuler des informations agrégées ou biaiser les décisions prises (ex  un générateur de faux tweets pour créer un buzz qui sortira tout naturellement des robots d’analyse de tweeter ; un pluggin de navigateur qui émet de fausses requêtes Google pour obscurcir la vue de Google de ce que fait réellement l’utilisateur du moteur de recherche, ce qui sape le modèle de données de Google et  adsense).

Le « problème inverse » est aussi un sujet scientifique à développer largement : comment, en injectant le minimum d’information biaisée ou fausse, peut-on modifier le résultat d’une chaîne de « data mining », et en biaiser les conclusions dans un sens favorable au truqueur ? Comment prévenir et détecter de tels comportements?

La lutte contre le « spam de données »  va rapidement devenir nécessaire pour préserver la valeur du big data et les enjeux de d‘authentification des sources, de « traçabilité » des chaînes de décisions digitales seront cruciaux.


 

Big time

Par ailleurs, l’intégration de la dimension temporelle est mal traitée dans le big data. A titre d’exemple, identifier que le taux de natalité dépend d’évènements -divers d’ailleurs- ayant eu lieu 9 mois avant (facteurs ayant influencé la conception), et éventullement de facteurs ayant eu lieu 20 ou 30 ans auparavant (éducation, conflits…) n’est pas à la portée de l’outillage habituel du big data. Dans le même ordre d’idée, pouvoir extraire en temps réel des informations dans un large flux de données ou d’évènements (fast data) reste difficile. Enfin, l’explosion prévisible des capteurs de l’internet des objets va générer une croissance du flux de données capturés par l’internet qui dépassera, et de loin, la croissance de notre capacité à stocker ces données. Il faudra donc choisir quelles données brutes stocker, et quelles données oublier.
Les_feuilles_mortes_(1673996046)

Source Wikimedia

La question  du temps  devient une dimension essentielle de la recherche en Big Data, pour discerner « la causalité » de « la correlation » mais aussi pour permettre des cycles d’analyse/décision/action temps réel et pour décider quelles données stocker.


Big structures

Les technologies du big data et du data mining ont historiquement d’abord traité des données de nature et de structures très simpes : tableaux de chiffres (par exemple l’âge, le  salaire, le nombre d’appels teléphoniques passés…), tableaux d’attributs (masculin ou féminin,  ville du domicile…), graphes (qui est en relation avec qui?)… En termes informatiques, on parlerait de « typage » simple des structures de données.


Social_Network_Analysis_Visualization

Visualisation d’un réseau social – Source Wikimedia

 

Mais les problèmes de très grandes masses de données couvrent des types de données de nature et de structures bien plus variées : images, videos, larges corpus de livres tels que ceux présents au sein de la Bibliothèque Nationale de France, représentations de l’espace géographie présentes au sein de systèmes d’information géoraphiques, représentations des paramètres du monde physique, de l’échelle sub-atomique à l’échelle astrophysique, représentations des paramètres du monde du vivant, depuis le déploiement d’une protéine, jusqu’à la dynamique complexe de la biosphère dans son intégralité, représentations d’objets technologiques sophistiqués…

La première ère du traitement de données massives portait largement sur des tableaux et des graphes « plats » qui sont des structures de données relativement  simples : le futur devra s’intéresser à des structures de données plus complexes et hiéarchiques. Les architectures  et outils pour capturer, stocker, et analyser une telle diversité de structures de données massive restent largement à inventer.


Big reality

L’explosion du Big Data permet effectivement de quantifier une part croissante de notre monde physique et d’alimenter des modèles et décisions dans un nombre croissant de domaines : le Big Data permet l’outillier l’analyse de phénomènes physiques comme la météo ou l’astronomie, des enjeux de connaissance comme le traitement du Web ou de documents,  l’analyse des interactions comme par exemple les analyses basées sur les graphes sociaux. Neanmoins,  le grand mirage de l’Internet amplifié par le prisme du big data entraîne un  grand risque de considérer que le réel se réduit à ce qui est représenté sous forme de données. Du coup, ce qui n’a pas été mesuré est absent des analyses.

 

 20141230_112704 Small

 

Le « mirage» du big data ne doit pas nous rendre aveugle  à ce qui , dans le monde réel, n’a pas encore été quantifié.


 

Big human

Un dernier point  d’attention porte sur les multiples facteurs humains liés au big data. Les mécanismes de fascination ou de rejet provoqués par ces nouvelles technologies entraîneront immanquablement un cortège de mythes et de peurs.

Face à la capacité limitée du cerveau humain pour se représenter de grandes quantités d’information, de nouveaux problèmes de visualisation et de représentation des données massives se poseront.

Nos mécanismes cognitifs, qui se sont construits depuis des millions d’années pour tirer le maximum d’information d’un très faible nombre de données, y compris notre intuition, seront mis à l’épreuve par ces nouvelles capacités d’analyse de données massives.

Einstein_1921_by_F_Schmutzer_-_restoration

The only really valuable thing is intuition (Albert Einstein). Source Wikimedia

Les sciences statistiques ont montré au XVIIIème siècle les limites de notre intuition : la question de l’intégration des capacités du big data pour enrichir nos mécanismes cognitifs est ouverte.


Big Data évolution ou révolution?

Au final, le big data n’est qu’une évolution technologique autour d’un simple changement d’échelle : faire rapidement et massivement ce que nous savions faire pour un petit nombre de données. Mais ce changement d’échelle est à la source d’un changement de paradigme profond, dans le champs scientifique, dans le domaine des applications, sur le plan économique et dans l’outillage du politique.

Mais la vraie révolution ne serait-elle pas dans le champs de l’humain : une nouvelle perception du monde, une redéfinition de l’intuition,  un nouvel espace symbolique avec ses peurs et ses mythes ?

Bon, ça ne vaut certainement pas les 23 problèmes de Hilbert (1), mais je serais curieux de recevoir les avis de la communauté sur ces enjeux.

(1) Incidemment, Hilbert a beaucoup travaillé sur les relations entre mathématiques et intuition… s’il avait connu les Big Data, nul doute qu’il aurait aussi pensé les relations entre « big mathématiques » et intuition.

Vos commentaires

    • 17/04/2015 – 08h32 | spopoff

      Bonjour,

      Est-ce que Big-Data nécessite un Big-Programme ? Je ne pense pas, par contre il faut de l’aide pour se mouvoir dans cette soupe. L’approche agent, au sens SMA, me semble une approche pertinent.

      Salutations

    • 17/04/2015 – 10h18 | Gilles Privat

      L’exploitation de nouvelles formes de structuration des données est effectivement un des défis essentiels, dans le sens de passer d’une structuration à grain fin et a priori (comme celle des bases de données relationnelles) à une structuration multi-échelles et a posteriori. Les « Linked Data », c’est à dire à la base les graphes, sous toutes leurs formes et au travers de tous les outils qu’ils offrent, sont appelés à être le support fondamental de cette structuration , en permettant de contextualiser les données et de leur donner sens de manière post hoc et partiellement émergente. Cela s’est fait d’abord pour les documents (avec le web des années 90), puis pour les personnes (avec les réseaux sociaux), le défi est désormais de l’étendre aux données issues de capteurs sur les « choses » et l’environnement physique (la « big reality »!), le nouveau continent à découvrir pour le big data!

    • 23/04/2015 – 05h59 | Pascal Esclade

      Certes les schemes de description sur les données manquent mais ce qui a fait avancer la science c’est à mon avis plutôt les equations. Aussi bien sur le plan du forecast pour lequel Einstein a été l’initiateur du changement de paradigme de la science passant du stade de découvreur à travers des expérimentation nombreuses et orientée par la curiosité à la prédiction/vérification à partir d’équations unnifiées, que dans le cadre du traitement de signal où l’équation associée au changement d’espace (Fourrier transform et associées) ont permis le MPEG, une version extrêmement purifée d’un flot de données dont les caractéristiques sont extrêmement complexes (pixel, luminance, chrominance,gradient, texture et autre bruits d’ordres plus élevés, contrours, continuités, dépendance du pixel et de la profondeur, direction des rayons, relations multispectrales…) .
      Gageons qu’en commençant à écrire la grande equation du comportment des civilisations et en les réfinant au niveau des peuples, de groupes divers et de l’individu on transcendera l’approche disparate Data qui nous noie aujourd’hui. Sim City pourrait être un bon début et la grand équation de l’univers d’Isaac Asimov (psychohistoire dans Fondation) une fiction qu’il nous faudrait réaliser.
      Dreamer? not really on prédit assez bien les mouvements de la bourse et peut-être est-ce ces gens là qu’il faut attraper, ils sont à mon avis les plus avancés dans le big data.

    • 24/04/2015 – 03h34 | Nicolas Demassieux

      @Gilles Privat : en phase sur le besoin de nouvelles formes de structuration multi-échelles. Il faut aussi y intégrer la dimension temporelle. C’est particulièrement importantes quand on travaille sur des « big data » reflétant le monde physique.

    • 29/04/2015 – 06h25 | Nicolas Demassieux

      @Pascal Esclade
      Citer dans le même commentaire MPEG (mon premier sujet de « jeune ingénieur ») et la psychohistoire (« Fondation » est une de mes séries culte en Science Fiction)… je ne m’y attendais pas.

      Plus sérieusement, je ne crois pas qu’on puisse « écrire la grande équation du comportement des civilisations, en les raffinant au niveau des peuples, de groupes divers et de l’individu ». Il s’agit de système bien trop complexes et cahotiques -au sens mathématique du terme- pour être « mis en équations ». Tout au plus puis-je imaginer un modèle informatique statistique capable de simuler quelques tendances… Sim City est effectivement un petit début 😉

    • 3/10/2015 – 11h44 | Stephane Senecal

      Bonjour, merci pour ces réflexions très intéressantes autour de thématiques et de problématiques relatives au Big Data. Voici ci-dessous quelques remarques, commentaires et/ou suggestions par rapport aux points abordés dans les posts ci-dessus :

      – Big Algebra : la méthodologie pour le choix et le paramétrage des méthodes de traitement de données est relativement standardisée à présent, il est possible d’effectuer du K-fold cross-validation par exemple, et notamment pour les données issues de phénomènes stochastiques il est possible de suivre les étapes de sélection de modèles (via les critères AIC, BIC ou MDL par exemple) puis d’utiliser des approches Bayésiennes pour l’inférence des modèles d’intérêt (techniques variationnelles ou de simulation Monte Carlo), ou bien encore de se placer dans un cadre d’estimation non-paramétrique. Il est certain que la découverte et l’usage de notations consistantes formelles permettant de manipuler aisément les différents traitements sur les données (de les factoriser, les développer, les distribuer, les associer, …) représenterait un progrès important dans le domaine du Big Data et plus généralement dans celui du traitement des données.

      – Big Noise : dans ce post, le bruit dans les données est abordé d’un point de vue « sécurité » mais de manière générale le bruit peut également être utilisé de façon efficace dans les modèles génératifs, tels que les auto-encodeurs notamment (et plus généralement les Deep Generative Models en Deep Learning) avec des techniques variationnelles (approche actuelle) pour réaliser l’implémentation de ces modèles.

      – Big Time : cette question du temps soulevée pour l’implémentation des technologies Big Data est en effet cruciale. Actuellement, il est possible d’effectuer un traitement séquentiel des données par blocs (pour gérer la « mémoire » du phénomène d’intérêt) avec des algorithmes récursifs (techniques de forward-backward notamment). L’optimisation de la taille des blocs (de la mémoire du système de traitement de données) va devenir une contrainte forte et un enjeu de première importance pour l’implémentation des systèmes Big Data.

      – Big Structures : les modèles à présent couramment utilisés en Deep Learning (recurrent neural networks, convolutional neural networks) ainsi que les modèles issus des avancées plus récentes dans le domaine (neural Turing machines, generative adversarial networks) ont notamment pour objectif d’aborder les structures complexes de données pour des problèmes et des applications en catégorisation de données diverses : images, vidéos, et plus récemment des documents entiers. Par ailleurs on assiste également à de sérieuses avancées dans le domaine du machine translation et de la compréhension du langage naturel avec ces modèles et techniques d’apprentissage associées.

      – Big Human : concernant l’impact des nouvelles technologies sur l’humain, je vous conseille de regarder les travaux de nos collègues sociologues à Orange (équipe SENSE) et notamment leur Research Paper « le consommateur calculé » si vous ne l’avez pas déjà lu 😉 Pour les problèmes de visualisation et de représentation des données massive, il est déjà possible d’utiliser des techniques de réduction de dimensions (dans le cadre de l’apprentissage non-supervisé) telles que par exemple l’analyse en composantes principales (ACP/PCA), la version « noyaux » de celle-ci (Kernel-PCA), l’analyse en composantes curvilinéaires, le multi-dimensional scaling (MDS),…

      – Big Data évolution ou révolution? : concernant l’aspect « Big Maths et Intuition » je vous invite à lire l’article d’Eric Moulines (Eric est Professeur à Télécom-ParisTech et partie prenante également du Thinktank Phi-TAB Analytics Big Data) également très bien rédigé sur le sujet du Big Data et publié dans la Gazette de la SMF (volume Avril 2015, numéro 144).

      My 2 cents… 🙂
      Stephane

    • 8/10/2015 – 02h59 | Nicolas Demassieux

      Merci Stéphane pour ces commentaires fournis… je suis en accord avec quasiment tout. Sur les données non srtucturées, il faudrait faire un article plus fourni pour parler des progrès actuels du deep learning : je mesure bien les progrès des RNN/CNN depuis mes propres « bricolages » avec des réseaux de neurones multicouche au début des années 80.
      Incidemment, je connaisbien Eric Moulines depuis + de 30 ans 😉 Il faut que je lise son article.

Laissez-nous votre commentaire