Épistémologie formelle : des Big Data aux modèles intégrés
A ajouter : questions ethiques
2017 : Rapporteur : Paul Bourgine. Contributeurs : Paul Bourgine (Complex System Digital Campus CS-DC), Rémy Cazabet (LIP6, Paris), Valérie Gouet-Brunet (IGN/LaSTIG/MATIS, Saint-Mandé), José Halloy (Université Paris Diderot, LIED UMR8236), Bertrand Jouve (XSYS, Toulouse), Robin Lamarche-Perrin (LIP6, ISC-PIF, Paris), Evelyne Lutton (INRA, Grignon), Pierre Parrend (ECAM, Strasbourg-Europe), Nadine Peyrieras (USR3695 Bioémergences, Gif-sur Yvette, ISC-PIF, CS-DC).
2008 : (Épistémologie formelle, expérimentation, apprentissage automatique) :
Rapporteur : Nicolas Brodu (INRIA – Rennes). Contributeurs : Paul Bourgine (CREA, École polytechnique), Nicolas Brodu (INRIA – Rennes), Guillaume Deffuant (CEMAGREF), Zoi Kapoula (CNRS), Jean-Pierre Müller (CIRAD), Nadine Peyreiras (CNRS).
Mots clés : Big Data dynamique, Modèles partiels, Modèles intégrés, Protocole d’acquisition et d’organisation de données, Nomadisme de concepts, Partage et interopérabilité des données et des logiciels, Deuxième révolution internet.
- Contexte et définition
1.1 Concept de données massives
1.2 Données massives et approches systèmes complexes : un lien très fort
Les approches systèmes complexes sont consubstantielles de l’analyse de données plus ou moins massives, même si la question de paramètres permettant de quantifier et plus encore de qualifier de façon pertinente la massivité des données n’est pas évidente, ne serait-ce que du fait de l’évolution de la perception qu’on en a, en fonction des moyens d’acquisition et d’analyse dont on dispose. Les approches systèmes complexes sont conçues pour traiter, reconstruire et modéliser des données multiéchelles et multiniveaux dans un contexte nécessairement interdisciplinaire et pour de ce fait accompagner les disciplines expérimentales dans une transition épistémologique. Les données requises peuvent ne pas prendre en compte un grand nombre d’éléments ni même tenter de capturer tous les niveaux possibles, mais seront éventuellement massives par le nombre d’instances des mêmes phénomènes qu’il sera nécessaire d’analyser pour rendre compte des processus en jeu au moyen d’un cercle vertueux expérimentation- reconstruction- modélisation- validation. L’importance des données et de leurs caractéristiques pour atteindre les objectifs d’une modélisation intégrée multi-niveaux justifie de penser un guide des bonnes pratiques (section 2). Il s’agit, à la lumière de l’expérience acquise dans le domaine, de rationaliser les démarches de mise au point de protocole d’acquisition, d’organisation et d’analyse de données massives en fonction des questionnements qui les motivent.
1.3 Utilisation de données massives déjà acquises
Définir cohorte.
Le concept de BigData s’est imposé avant que ne soient véritablement pensées les stratégies pour les analyser et donc pour les acquérir et les organiser. On se trouve ainsi avec des corpus de données dont les caractéristiques ne permettent pas une analyse de la dynamique des systèmes ou de la topologie, de la temporalité et de la probabilité des phénomènes. Il peut cependant s’avérer indispensable de les prendre en compte parce qu’ils correspondent à des cohortes uniques et portant la trace de l’historicité des processus. Les difficultés liées à l’utilisation de telles données (c’est le cas par exemple de données –omics en biologie (genomics, transcriptomics, proteomics, metabonomics, etc..)) sont aussi le fait de l’hétérogénéité de leur format, de leur documentation et de leur annotation. Ce type de problème devrait être en principe résolu lors de nouvelles acquisitions qui pourraient aussi occasionner la réorganisation de bases de données existantes. Il est en particulier souhaitable que les stratégies de documentation et d’annotation des données permettent leur utilisation sans la nécessité de l’intervention forte de l’expert à l’origine de leur acquisition et/ou de leur organisation. Les masses de données similaires mais organisées en fonction de points de vues différents compromettent les stratégies d’apprentissage supervisées qui sont cependant nécessaires à la catégorisation et à l’analyse des corpus de données. Pour donner un exemple concret parmi d’autres, l’observation des micro-organismes à la surface du fromage conduit à un groupage intrinsèque qu’il est extrêmement difficile de confronter aux bases de données existantes. L’absence de standards uniques dans l’organisation de données de même type est un problème qui peut compromettre leur utilisation. Mais la question de la possibilité même de standards uniques se pose. Elle est cependant cruciale pour l’interopérabilité de bases de données qui sont sans doute appelées à rester distribuées.
1.4 Utilisation des données à acquérir, données du passé et longues durées
Il existe des masses de données archivées, par exemple historique, sur des supports hétérogènes (papier, iconographie, objets, architecture, etc.). Ces données n’ont pas été récoltées dans un but de modélisation mais pour des raisons très variées, par exemple pour être utiles à des professions (notaires, architectes, sociologues, etc.) ou pour des statistiques d’Etat (écologie du paysage, etc.). Les défis sont d’acquérir ces données par une numérisation intelligente et surtout une re-construction intelligente, incluant l’organisation et l’interopérabilité de ces données, qui ne présupposent pas des usages qui en seront faits. D’autres défis concernent la re-construction de données manquantes de faire des retro-prédictions basées sur des modèles. Enfin c’est données pourront être utilisées dans une perspective d’analyses sur la longue durée des sociétés humaines. Ces données peuvent alors nourrir des démarches de prospectives pour répondre aux défis sociaux (voir section 3).
1.5 Épistémologie formelle et appliquée (partie reprise de 2009, revoir éventuellement l’intégration)
Le monde moderne, notamment dans le domaine de la médecine, de l’environnement et de la sphère sociale, est de plus en plus dépendant de et confronté à de vastes systèmes constitués d’un grand nombre d’entités en interaction. Les données collectées à partir de ces systèmes, généralement à très grande échelle, représentent des défis considérables en termes d’efforts à déployer pour la reconstruction des dynamiques multi-échelles et leurs diverses influences descendantes et ascendantes. Ce travail requiert non seulement l’appui de l’épistémologie formelle et des calculs massifs, mais aussi une généralisation dite « science ouverte » inspirée par la communauté de la physique des hautes énergies. La compréhension d’un phénomène consiste à découvrir une approche suffisamment précise et concise pour expliquer sa structure et son comportement, pouvant être comprise par l’esprit humain. Dans la situation actuelle, l’intuition humaine se trouve souvent désemparée pour traiter les subtilités intrinsèques et les propriétés des systèmes complexes. En théorie, une technique formelle optimale permet d’obtenir des concepts candidats et des liens pouvant servir de base aux expérimentations menées par l’être humain. Si les formes optimales découvertes grâce aux méthodes théoriques s’opposent aux concepts optimaux conçus par le travail cérébral humain, la raison de cette divergence fera elle-même l’objet de recherches complémentaires. Pour comprendre les systèmes complexes, il faut définir et mettre en œuvre une épistémologie formelle et appliquée spécifique. De nouveaux outils et méthodes doivent être développés pour assister le travail de conception et d’interprétation des expérimentations en vue de :
- identifier les entités pertinentes à une échelle spatio-temporelle donnée,
- caractériser les interactions entre les entités,
- évaluer et formaliser le comportement du système.
La stratégie allant de la conception d’une expérimentation jusqu’aux analyses postérieures des données devrait associer les approches fondées sur des hypothèses et celles appuyées sur des données par :
- la définition de protocoles pour produire des données appropriées à la reconstruction des dynamiques multi-échelles,
- l’initialisation, à travers une construction simultanée, d’un cadre théorique pour la prédiction et la falsification ultérieures des résultats issus d’expérimentations,
- une approche fonctionnelle à différents niveaux pour permettre de concevoir des formalismes appropriés à ces mêmes niveaux tout en sachant que les méthodes théoriques ne permettent pas de garantir qu’un niveau formel puisse être déduit d’un autre, mais cela n’a pas d’importance puisque : pour comprendre un système, il est préférable d’étudier les étapes de reconstruction phénoménologique à chaque niveau pertinent.
La méthodologie débute par l’observation et la collecte de données. Toutefois, il arrive un moment où il n’est pas opportun de collecter des données sans savoir si celles-ci sont réellement nécessaires à la compréhension du comportement du système étudié. La reconstruction phénoménologique a pour résultat le paramétrage des données, et les mesures réalisées devraient permettre de détecter et de retracer ultérieurement les motifs transitoires et récurrents. Or, ces caractéristiques ne sont significatives que si elles sont intégrées dans un modèle permettant de valider les hypothèses. Notre objectif ici est de trouver un modèle compatible avec les observations. Le simple fait de construire un modèle nécessite déjà la formalisation des hypothèses sur le comportement du système ainsi que les processus sous-jacents. Une partie de la compréhension en découle, et la partie restante résulte de la possibilité de valider les prédictions relatives au modèle par l’expérimentation. Ce dernier point est représenté à droite de l’illustration ci-dessous. Épistémologie formelle et appliquée
Déroulement des opérations de reconstruction théorique
A supprimer (Valérie) :
——–
L’intégration de la science informatique est une composante essentielle de cette épistémologie. Elle a pour but de fournir ainsi que de permettre :
- des outils d’exploration pour une approche fondée sur les données ; l’apprentissage automatique non supervisé peut fournir des motifs candidats et des relations qui échappent à l’intuition humaine ; l’apprentissage automatique actif sert à déterminer l’expérimentation la mieux appropriée pour tester un modèle qui est au centre de l’épistémologie dont il est question,
- des outils permettant d’établir des comparaisons entre les modèles (fondés sur des hypothèses) et les observations ; l’apprentissage supervisé équivaut à l’exploration de l’espace des paramètres d’un modèle avec pour objet une correspondance optimale des données ; l’apprentissage auto-supervisé est appliqué quand un aspect temporel permet de corriger en continu les prédictions du modèle à partir des données observées concernant ces prédictions.
Les méthodes et les outils de la science informatique sont nécessaires lors des étapes suivantes :
- les interactions entre l’humain et la machine : la visualisation et l’interaction à partir des données, des ontologies et des simulations,
- la construction d’ontologies relatives à des entités fonctionnelles pertinentes à différents niveaux,
- l’élaboration d’hypothèses, la formalisation des relations entre les entités, la conception de modèles,
- la validation des modèles.
Nous attendons des méthodes et des outils issus de la science informatique qu’ils offrent les caractéristiques fondamentales spécifiques suivantes :
- les outils génériques doivent être aussi indépendants que possible par rapport à une structure logique (d’interprétation) ; en particulier en raison des habitudes culturelles variables des différentes disciplines et des spécificités de chaque système, il est préférable de proposer une série d’outils indépendants et adaptables plutôt qu’un environnement intégré qui, de toute façon, ne pourra jamais englober tous les cas de figure,
- l’indépendance doit également être de mise dans le choix des logiciels (en termes d’usage, d’évolution et d’adaptation des outils aux besoins spécifiques) ; cela exige des logiciels libres comme condition nécessaire, mais non pas suffisante,
- les outils doivent être fonctionnels pour les spécialistes, mais également utilisables par des non spécialistes ; cela est réalisable, par exemple, s’ils offrent des caractéristiques spécifiques à un domaine avec une valeur ajoutée pour les spécialistes sous la forme d’extensions (modules, etc.) des outils génériques,
- des outils prêts à utiliser ; les conditions requises pour l’application de l’outil doivent être minimales ; l’utilisation de l’outil ne doit pas impliquer de gros efforts techniques.
——–
- Défis : un guide des bonnes pratiques
2.1 Du monde aux données : les protocoles expérimentaux
Les protocoles sont ici le point crucial : quelle est la question théorique mise à l’épreuve des faits ? quelles sont les dispositifs matériels assurant une production des données dans des conditions reproductibles ? la durée de la reproductibilité est elle compatible avec la précision requise ? quels sont les protocoles computationnels de validation des données et de reconstruction des données manquantes ? quelles sont les méthodes de dépouillement statistiques des données requises pour la science des systèmes complexes conduisant à de nouvelles disciplines intégratives et prédictives ou transdisciplines soucieuses de falsifiabilité, par exemple pour l’étude de la matière complexe, des systèmes biologiques, cognitifs ou territoriaux. Les objets d’études étant les systèmes complexes in Natura d’intérêt pour les hommes et leur planète, il s’agit d’avoir des résultats scientifiques auxquels un large public doit pouvoir faire confiance.
Peu d’ouvrages s’intéressent à l’analyse de protocoles expérimentaux. Un lien est fourni dans la bibliographie pour l’ouvrage de Herbert Simon, “Protocol Analysis”. Comme dans toutes disciplines ou sous-disciplines et a fortiori dans une nouvelle transdiscipline, il s’agit de se mettre d’accord sur des protocoles au fil d’un processus dynamique de construction guidé par l’évolution d’a priori qualitatifs. Dans bien des cas d’études de grands systèmes complexes, il est important dans les protocoles d’acquisition de données de pouvoir tenir compte de la rétroaction du système sur lui-même (cf: la matrice généralisée des Nations Unis sur les implications économiques, sociétales et écologiques). Dans un objectif de préconisation par exemple, l’acquisition doit être fortement dynamique et “en temps réel” puisque l’action des gouvernants ou des individus sur le système peut créer des cascades et des bifurcations que nous devons être en mesure d’identifier assez précisément et rapidement au vu des délais d’enchaînement des cascades. Dans le cadre de démarches participatives de récolte de données (crowdsourcing) en particulier, la conscience des individus ou de groupes d’individus à participer à une telle action partagée doit être prise en compte selon principes ci-dessous.
Pour traiter des questions relatives à l’adéquation des données au problème posé, de nouvelles stratégies de construction et de partage de protocoles sont à inventer.
– Les discussions épistémologiques sur les théories, les concepts, les méthodes et les protocoles pour augmenter leurs interactions et leur nomadisme dans les réseaux scientifiques. Pour les partager de la façon la plus ouverte possible, des e-workshops sans frais peuvent être organisées, enregistrées et disséminées. S’il reste des désaccords sur les protocoles, le e-workshop peut déboucher sur l’organisation d’un e-tournoi entre protocoles sur une même classe d’objets scientifiques: ce e-workshop décide du (meta)protocole pour comparer les divers protocoles restés en débat.
– La validation, ou qualification, des données peut se faire par le biais d’experts, d’hommes de l’art et/ou de scientifiques, ou encore par le croisement avec d’autres données déjà validées, selon la classe de données considérées. Un principe très général de validation est de mettre en place un programme d’apprentissage actif avec un nombre quelconque d’experts volontaires pour distribuer l’effort. Ce programme apprend de façon active à partir de la différence entre son anticipation et la validation de l’expert chaque fois que ce programme est suffisamment sûr de la qualité de sa propre validation: de la sorte, l’apprentissage actif devient de plus en plus automatique et expert, et finit par ne demander à l’expert que les cas les plus intéressants.
2.2 Des données aux modèles :
Ici les deux questions cruciales sont l’interopérabilité des données et le choix des protocoles de reconstruction phénoménologique et théorique.
a) Les protocoles de reconstruction phénoménologique organisent le passage des données dynamiques brutes multi-échelles à la phénoménologie augmentée des dynamiques multi-niveaux symboliques (catégorisation des entités) et hypersymboliques (catégorisation des relations binaires des networks ou n-aires des hypernetworks – réf Jeffrey Jonhson). Les protocoles de reconstruction théorique partent des reconstructions qualitatives phénoménologiques et des mesures associées aux entités et aux liens relationnels. La discussion autour de ces protocoles peut s’organiser de la même manière que pour les théories et les concepts avec des e-workshops et, éventuellement catalyser des dispositifs de comparaison des méthodes de reconstruction restées candidates après discussion dans les e-workshops.
b) Afin de faciliter l’accès des communautés scientifiques aux approches systèmes complexes, il est important de disposer de données interopérables qui soient compatibles avec des analyses de dynamiques multi-échelles. Ces données portent sur les entités élémentaires du système mais, dans la mesure du possible, sont aussi acquises sur des niveaux méso (un ou plusieurs). Pour chaque étude il est important de définir une méthodologie adéquate qui permette d’identifier les différents niveaux d’échelles pertinents et de s’accorder sur les paramètres les mieux à même de décrire le système à chacun de ces niveaux. Ce questionnement conduit à mieux penser les protocoles d’acquisition (voir paragraphe 2.1).
Dans une approche systèmes complexes, les données doivent aussi nécessairement renseigner les interactions entre les entités et les niveaux (cf b.ci-dessus). Entre les entités, il s’agit d’acquérir des données à même de rendre compte des dynamiques des interactions. Entre les niveaux, il s’agit souvent de penser en amont de l’acquisition des données, les conditions d’un recollement d’échelles qui sont souvent abordées par des méthodes et outils différents. Ce recollement d’échelles se fera par l’intégration de modèles opérant à des niveaux différents (voir paragraphe suivant) mais aussi par des couplages de données entre niveaux différents, couplage que l’on doit chercher à expliciter. On peut être amené à coupler des données de natures très différentes, par exemple qualitatives (connaissances expertes, données d’observations cliniques ou données sociales) et quantitatives (dénombrements, suivis de trajectoires, caractéristiques phénotypiques). Il est essentiel de travailler à construire des interopérabilités qui préservent au mieux le partage des cohortes pour la la richesse des coopérations interdisciplinaires. En outre, il est fréquent qu’il soit incontournable de prendre en compte des données de qualité différentes, soit comme évoqué plus haut du fait de l’existence de corpus de données uniques mais incomplets ou du fait d’artefacts expérimentaux persistant au delà de l’optimisation des protocoles. L’intégration des données nécessite alors de savoir évaluer la propagation des incertitudes dans la modélisation multi-niveaux du système, ainsi que d’être en mesure de les exploiter, notamment dans les cas d’usage.
L’interopérabilité peut être résolue soit en forçant la mise en place de standards universaux sur la forme des données soit sur des systèmes “universels” de conversion de chaque format dans les autres formats. Ce travail de conversion est de la responsabilité de tout nouveau format. C’est un problème qui reste néanmoins souvent difficile à résoudre étant donné l’évolution et la variété des données, rendant leurs différentes natures quelquefois difficilement interopérables.
2.3 Des modèles partiels aux modèles intégrées
- Répondre aux grands enjeux sociétaux :
Trackbacks & Pingbacks
[…] Épistémologie formelle : des Big Data aux modèles intégrés […]
Leave a Reply
Want to join the discussion?Feel free to contribute!