Posts

Épistémologie formelle : des Big Data aux modèles intégrés

A ajouter : questions ethiques

2017 : Rapporteur : Paul Bourgine. Contributeurs : Paul Bourgine (Complex System Digital Campus CS-DC), Rémy Cazabet (LIP6, Paris), Valérie Gouet-Brunet (IGN/LaSTIG/MATIS, Saint-Mandé), José Halloy (Université Paris Diderot, LIED UMR8236), Bertrand Jouve (XSYS, Toulouse), Robin Lamarche-Perrin (LIP6, ISC-PIF, Paris), Evelyne Lutton (INRA, Grignon), Pierre  Parrend (ECAM, Strasbourg-Europe), Nadine Peyrieras (USR3695 Bioémergences, Gif-sur Yvette, ISC-PIF, CS-DC).

2008 : (Épistémologie formelle, expérimentation, apprentissage automatique) :

Rapporteur : Nicolas Brodu (INRIA – Rennes). Contributeurs : Paul Bourgine (CREA, École polytechnique), Nicolas Brodu (INRIA – Rennes), Guillaume Deffuant (CEMAGREF), Zoi Kapoula (CNRS), Jean-Pierre Müller (CIRAD), Nadine Peyreiras (CNRS).

Mots clés : Big Data dynamique, Modèles partiels, Modèles intégrés, Protocole d’acquisition et d’organisation de données, Nomadisme de concepts, Partage et interopérabilité des données et des logiciels, Deuxième révolution internet.

  1. Contexte et définition

            1.1 Concept de données massives

Le big data peut se  définir par le fait que dans la discipline dont les données relèvent, l‘augmentation de la quantité de données disponibles et l’évolution de leur nature, leur variété, nécessitent d’autres stratégies que celles pratiquées couramment. La caractérisation de la frontière vers le « Big Data » est donc différente suivant les disciplines. L‘informatique donnerait comme limite celle de la puissance informatique nécessaire au traitement des données ou de la capacité des algorithmes à les traiter.  En sciences humaines ou dans les domaines de la biologie ou de la santé, il s’agit de la nécessité de concevoir de nouvelles méthodes d’analyse qui vont de paire avec de nouveaux modes de collecte et d’organisation des données, sans qu’il s’agisse nécessairement de PetaBytes d’information.  Le concept de Big Data s’accompagne de nouvelles stratégies d’organisation des données et d’extraction des informations qu’elles peuvent contenir. 

            1.2 Données massives et approches systèmes complexes : un lien très fort

Les approches systèmes complexes sont consubstantielles de l’analyse de données plus ou moins massives, même si la question de paramètres permettant de quantifier et plus encore de qualifier de façon pertinente la massivité des données n’est pas évidente,  ne serait-ce que du fait de l’évolution de la perception qu’on en a, en fonction des moyens d’acquisition et d’analyse dont on dispose. Les approches systèmes complexes sont conçues pour traiter, reconstruire et modéliser des données multiéchelles et multiniveaux dans un contexte nécessairement interdisciplinaire et pour de ce fait accompagner les disciplines expérimentales dans une transition épistémologique. Les données requises peuvent ne pas prendre en compte un grand nombre d’éléments ni même tenter de capturer tous les niveaux possibles, mais seront éventuellement massives par le nombre d’instances des mêmes phénomènes qu’il sera nécessaire d’analyser pour rendre compte des processus en jeu au moyen d’un cercle vertueux expérimentation- reconstruction- modélisation- validation. L’importance des données et de leurs caractéristiques pour atteindre les objectifs d’une modélisation intégrée multi-niveaux justifie de penser un guide des bonnes pratiques (section 2). Il s’agit, à la lumière de l’expérience acquise dans le domaine, de rationaliser les démarches de mise au point de protocole d’acquisition, d’organisation et d’analyse de données massives en fonction des questionnements qui les motivent.

            1.3 Utilisation de données massives déjà acquises

Définir cohorte.

Le concept de BigData s’est imposé avant que ne soient véritablement pensées les stratégies pour les analyser et donc pour les acquérir et les organiser. On se trouve ainsi avec des corpus de données dont les caractéristiques ne permettent pas une analyse de la dynamique des systèmes ou de la topologie, de la temporalité et de la probabilité des phénomènes. Il peut cependant s’avérer indispensable de les prendre en compte parce qu’ils correspondent à des cohortes uniques et portant la trace de l’historicité des processus. Les difficultés liées à l’utilisation de telles données (c’est le cas par exemple de données –omics en biologie (genomics, transcriptomics, proteomics, metabonomics, etc..)) sont aussi le fait de l’hétérogénéité de leur format, de leur documentation et de leur annotation. Ce type de problème  devrait être en principe résolu  lors de nouvelles acquisitions qui pourraient aussi occasionner la réorganisation de bases de données existantes. Il est en particulier souhaitable que les stratégies de documentation et d’annotation des données permettent leur utilisation sans la nécessité de l’intervention forte de l’expert à l’origine de leur acquisition et/ou de leur organisation.  Les masses de données similaires mais organisées en fonction de points de vues différents compromettent les stratégies d’apprentissage supervisées qui sont cependant nécessaires à la catégorisation  et à l’analyse des corpus de données.  Pour donner un exemple concret parmi d’autres, l’observation des micro-organismes à la surface du fromage conduit à un groupage intrinsèque qu’il est extrêmement difficile de confronter aux bases de données existantes. L’absence de standards uniques dans l’organisation de données de même type est un problème qui peut compromettre leur utilisation. Mais la question de la possibilité même de standards uniques se pose.  Elle est cependant cruciale pour l’interopérabilité de bases de données qui sont sans doute appelées à rester distribuées.

            1.4 Utilisation des données  à acquérir, données du passé et longues durées

Il existe des masses de données archivées, par exemple historique, sur des supports hétérogènes (papier, iconographie, objets, architecture, etc.). Ces données n’ont pas été récoltées dans un but de modélisation mais pour des raisons très variées, par exemple pour être utiles à des professions (notaires, architectes, sociologues, etc.) ou pour des statistiques d’Etat (écologie du paysage, etc.). Les défis sont d’acquérir ces données par une numérisation intelligente et surtout une re-construction intelligente, incluant l’organisation et l’interopérabilité de ces données, qui ne présupposent pas des usages qui en seront faits. D’autres défis concernent la re-construction de données manquantes de faire des retro-prédictions basées sur des modèles. Enfin c’est données pourront être utilisées dans une perspective d’analyses sur la longue durée des sociétés humaines. Ces données peuvent alors nourrir des démarches de prospectives pour répondre aux défis sociaux (voir section 3).

           1.5 Épistémologie formelle et appliquée (partie reprise de 2009, revoir éventuellement l’intégration)

Le monde moderne, notamment dans le domaine de la médecine, de l’environnement et de la sphère sociale, est de plus en plus dépendant de et confronté à de vastes systèmes constitués d’un grand nombre d’entités en interaction. Les données collectées à partir de ces systèmes, généralement à très grande échelle, représentent des défis considérables en termes d’efforts à déployer pour la reconstruction des dynamiques multi-échelles et leurs diverses influences descendantes et ascendantes. Ce travail requiert non seulement l’appui de l’épistémologie formelle et des calculs massifs, mais aussi une généralisation dite « science ouverte » inspirée par la communauté de la physique des hautes énergies. La compréhension d’un phénomène consiste à découvrir une approche suffisamment précise et concise pour expliquer sa structure et son comportement, pouvant être comprise par l’esprit humain. Dans la situation actuelle, l’intuition humaine se trouve souvent désemparée pour traiter les subtilités intrinsèques et les propriétés des systèmes complexes. En théorie, une technique formelle optimale permet d’obtenir des concepts candidats et des liens pouvant servir de base aux expérimentations menées par l’être humain. Si les formes optimales découvertes grâce aux méthodes théoriques s’opposent aux concepts optimaux conçus par le travail cérébral humain, la raison de cette divergence fera elle-même l’objet de recherches complémentaires. Pour comprendre les systèmes complexes, il faut définir et mettre en œuvre une épistémologie formelle et appliquée spécifique. De nouveaux outils et méthodes doivent être développés pour assister le travail de conception et d’interprétation des expérimentations en vue de :

  • identifier les entités pertinentes à une échelle spatio-temporelle donnée,
  • caractériser les interactions entre les entités,
  • évaluer et formaliser le comportement du système.

La stratégie allant de la conception d’une expérimentation jusqu’aux analyses postérieures des données devrait associer les approches fondées sur des hypothèses et celles appuyées sur des données par :

  • la définition de protocoles pour produire des données appropriées à la reconstruction des dynamiques multi-échelles,
  • l’initialisation, à travers une construction simultanée, d’un cadre théorique pour la prédiction et la falsification ultérieures des résultats issus d’expérimentations,
  • une approche fonctionnelle à différents niveaux pour permettre de concevoir des formalismes appropriés à ces mêmes niveaux tout en sachant que les méthodes théoriques ne permettent pas de garantir qu’un niveau formel puisse être déduit d’un autre, mais cela n’a pas d’importance puisque : pour comprendre un système, il est préférable d’étudier les étapes de reconstruction phénoménologique à chaque niveau pertinent.

La méthodologie débute par l’observation et la collecte de données. Toutefois, il arrive un moment où il n’est pas opportun de collecter des données sans savoir si celles-ci sont réellement nécessaires à la compréhension du comportement du système étudié. La reconstruction phénoménologique a pour résultat le paramétrage des données, et les mesures réalisées devraient permettre de détecter et de retracer ultérieurement les motifs transitoires et récurrents. Or, ces caractéristiques ne sont significatives que si elles sont intégrées dans un modèle permettant de valider les hypothèses. Notre objectif ici est de trouver un modèle compatible avec les observations. Le simple fait de construire un modèle nécessite déjà la formalisation des hypothèses sur le comportement du système ainsi que les processus sous-jacents. Une partie de la compréhension en découle, et la partie restante résulte de la possibilité de valider les prédictions relatives au modèle par l’expérimentation. Ce dernier point est représenté à droite de l’illustration ci-dessous. Épistémologie formelle et appliquée

Formal

Déroulement des opérations de reconstruction théorique

A supprimer (Valérie) :

——–

L’intégration de la science informatique est une composante essentielle de cette épistémologie. Elle a pour but de fournir ainsi que de permettre :

  • des outils d’exploration pour une approche fondée sur les données ; l’apprentissage automatique non supervisé peut fournir des motifs candidats et des relations qui échappent à l’intuition humaine ; l’apprentissage automatique actif sert à déterminer l’expérimentation la mieux appropriée pour tester un modèle qui est au centre de l’épistémologie dont il est question,
  • des outils permettant d’établir des comparaisons entre les modèles (fondés sur des hypothèses) et les observations ; l’apprentissage supervisé équivaut à l’exploration de l’espace des paramètres d’un modèle avec pour objet une correspondance optimale des données ; l’apprentissage auto-supervisé est appliqué quand un aspect temporel permet de corriger en continu les prédictions du modèle à partir des données observées concernant ces prédictions.

Les méthodes et les outils de la science informatique sont nécessaires lors des étapes suivantes :

  • les interactions entre l’humain et la machine : la visualisation et l’interaction à partir des données, des ontologies et des simulations,
  • la construction d’ontologies relatives à des entités fonctionnelles pertinentes à différents niveaux,
  • l’élaboration d’hypothèses, la formalisation des relations entre les entités, la conception de modèles,
  • la validation des modèles.

Nous attendons des méthodes et des outils issus de la science informatique qu’ils offrent les caractéristiques fondamentales spécifiques suivantes :

  • les outils génériques doivent être aussi indépendants que possible par rapport à une structure logique (d’interprétation) ; en particulier en raison des habitudes culturelles variables des différentes disciplines et des spécificités de chaque système, il est préférable de proposer une série d’outils indépendants et adaptables plutôt qu’un environnement intégré qui, de toute façon, ne pourra jamais englober tous les cas de figure,
  • l’indépendance doit également être de mise dans le choix des logiciels (en termes d’usage, d’évolution et d’adaptation des outils aux besoins spécifiques) ; cela exige des logiciels libres comme condition nécessaire, mais non pas suffisante,
  • les outils doivent être fonctionnels pour les spécialistes, mais également utilisables par des non spécialistes ; cela est réalisable, par exemple, s’ils offrent des caractéristiques spécifiques à un domaine avec une valeur ajoutée pour les spécialistes sous la forme d’extensions (modules, etc.) des outils génériques,
  • des outils prêts à utiliser ; les conditions requises pour l’application de l’outil doivent être minimales ; l’utilisation de l’outil ne doit pas impliquer de gros efforts techniques.

——–

 

  1. Défis : un guide des bonnes pratiques

            2.1 Du monde aux données : les protocoles expérimentaux

Les protocoles sont ici le point crucial : quelle est la question théorique mise à l’épreuve des faits ? quelles sont les dispositifs matériels assurant une production des données dans des conditions reproductibles ? la durée de la reproductibilité est elle compatible avec la précision requise ? quels sont les protocoles computationnels de validation des données et de reconstruction des données manquantes ? quelles sont les méthodes de dépouillement statistiques des données requises pour la science des systèmes complexes conduisant à de nouvelles disciplines intégratives et prédictives ou transdisciplines soucieuses de falsifiabilité, par exemple pour l’étude de la matière complexe, des systèmes biologiques, cognitifs ou territoriaux. Les objets d’études étant les systèmes complexes in Natura d’intérêt pour les hommes et leur planète, il s’agit d’avoir des résultats scientifiques auxquels un large public doit pouvoir faire confiance.

Peu d’ouvrages s’intéressent à l’analyse de protocoles expérimentaux. Un lien est fourni dans la bibliographie pour l’ouvrage de Herbert Simon, “Protocol Analysis”. Comme dans toutes disciplines ou sous-disciplines et a fortiori dans une nouvelle transdiscipline, il s’agit de se mettre d’accord sur des protocoles au fil d’un processus dynamique de construction guidé par l’évolution d’a priori qualitatifs. Dans bien des cas d’études de grands systèmes complexes, il est important dans les protocoles d’acquisition de données de pouvoir tenir compte de la rétroaction du système sur lui-même (cf: la matrice généralisée des Nations Unis sur les implications économiques, sociétales et écologiques). Dans un objectif de préconisation par exemple, l’acquisition doit être fortement dynamique et “en temps réel” puisque l’action des gouvernants ou des individus sur le système peut créer des cascades et des bifurcations que nous devons être en mesure d’identifier assez précisément et rapidement au vu des délais d’enchaînement des cascades. Dans le cadre de démarches participatives de récolte de données (crowdsourcing) en particulier, la conscience des individus ou de groupes d’individus à participer à une telle action partagée doit être prise en compte selon principes ci-dessous.

Pour traiter des questions relatives à l’adéquation des données au problème posé, de nouvelles stratégies de construction et de partage  de protocoles sont à inventer.

– Les discussions épistémologiques sur les théories, les concepts, les méthodes et les protocoles pour augmenter leurs interactions et leur nomadisme dans les réseaux scientifiques. Pour les partager de la façon la plus ouverte possible, des e-workshops sans frais peuvent être organisées, enregistrées et disséminées. S’il reste des désaccords sur les protocoles, le e-workshop peut déboucher sur l’organisation d’un e-tournoi entre protocoles sur une même classe d’objets scientifiques: ce e-workshop décide du (meta)protocole pour comparer les divers protocoles restés en débat.

– La validation, ou qualification, des données peut se faire par le biais d’experts, d’hommes de l’art et/ou de scientifiques, ou encore par le croisement avec d’autres données déjà validées, selon la classe de données considérées. Un principe très général de validation est de mettre en place un programme d’apprentissage actif avec un nombre quelconque d’experts volontaires pour distribuer l’effort. Ce programme apprend de façon active à partir de la différence entre son anticipation et la validation de l’expert chaque fois que ce programme est suffisamment sûr de la qualité de sa propre validation: de la sorte, l’apprentissage actif devient de plus en plus automatique et expert, et finit par ne demander à l’expert que les cas les plus intéressants.

            2.2 Des données aux modèles :

Ici les deux questions cruciales sont l’interopérabilité des données et le choix des protocoles de reconstruction phénoménologique et théorique.

a) Les protocoles de reconstruction phénoménologique organisent le passage des données dynamiques brutes multi-échelles à la phénoménologie augmentée des dynamiques multi-niveaux symboliques (catégorisation des entités) et hypersymboliques (catégorisation des relations binaires des networks ou n-aires des hypernetworks – réf Jeffrey Jonhson). Les protocoles de reconstruction théorique partent des reconstructions qualitatives phénoménologiques et des mesures associées aux entités et aux liens relationnels. La discussion autour de ces protocoles peut s’organiser de la même manière que pour les théories et les concepts avec des e-workshops et, éventuellement catalyser des dispositifs de comparaison  des méthodes de reconstruction restées candidates après discussion dans les e-workshops.

b) Afin de faciliter l’accès des communautés scientifiques aux approches systèmes complexes, il est important de disposer de données interopérables qui soient compatibles avec des analyses de dynamiques multi-échelles.  Ces données portent sur les entités élémentaires du système mais, dans la mesure du possible, sont aussi acquises sur des niveaux méso (un ou plusieurs). Pour chaque étude il est important de définir une méthodologie adéquate qui permette d’identifier les différents niveaux d’échelles pertinents et de s’accorder sur les paramètres les mieux à même de décrire le système à chacun de ces niveaux. Ce questionnement conduit à mieux penser les protocoles d’acquisition (voir paragraphe 2.1).

Dans une approche systèmes complexes, les données doivent aussi nécessairement renseigner les interactions entre les entités et les niveaux (cf b.ci-dessus). Entre les entités, il s’agit d’acquérir des données à même de rendre compte des dynamiques des interactions. Entre les niveaux, il s’agit souvent de penser en amont de l’acquisition des données, les conditions d’un recollement d’échelles qui sont souvent abordées par des méthodes et outils différents. Ce recollement d’échelles se fera par l’intégration de modèles opérant à des niveaux différents (voir paragraphe suivant) mais aussi par des couplages de données entre niveaux différents, couplage que l’on doit chercher à expliciter. On peut être amené à coupler des données de natures très différentes, par exemple qualitatives (connaissances expertes, données d’observations cliniques ou données sociales) et quantitatives (dénombrements, suivis de trajectoires, caractéristiques phénotypiques). Il est essentiel de travailler à construire des interopérabilités qui préservent au mieux le partage des cohortes pour la la richesse des coopérations interdisciplinaires. En outre, il est fréquent qu’il soit incontournable de prendre en compte des données de qualité différentes, soit comme évoqué plus haut du fait de l’existence de corpus de données uniques mais incomplets ou du fait d’artefacts expérimentaux persistant au delà de l’optimisation des protocoles. L’intégration des données nécessite alors de savoir évaluer la propagation des incertitudes dans la modélisation multi-niveaux du système, ainsi que d’être en mesure de les exploiter, notamment dans les cas d’usage.

L’interopérabilité  peut être résolue soit en forçant la mise en place de standards universaux sur la forme des données soit sur des systèmes “universels” de conversion de chaque format dans les autres formats. Ce travail de conversion est de la responsabilité de tout nouveau format. C’est un problème qui reste néanmoins souvent difficile à résoudre étant donné l’évolution et la variété des données, rendant leurs différentes natures quelquefois difficilement interopérables.

 

            2.3 Des modèles partiels aux modèles intégrées

Le paragraphe précédent traitait de la reconstruction de modèles phénoménologiques et théoriques (cf le § précédent). Ces modèles sont partiels comme liés à une cohorte ou un ensemble homogène de cohortes. La question est à présent de traiter le passage des modèles partiels à un modèle intégré portant sur une même classe d’entités multi-niveaux. Les niveaux d’une entité sont le plus souvent composés d’entités hétérogènes. A nouveau ce passage peut être traité par des e-workshops et, en cas de désaccords persistants par des e-tournois. Il est essentiel de comprendre que la chaîne des e-workshops s’enchaîne depuis les protocoles de données jusqu’aux protocoles de modèles intégrés, chaque fois en anticipant l’étape suivante. Mieux encore, les débats sur le protocole du modèle intégré boucle sur le protocole initial épistémologique sur les théories, les concepts et les méthodes (comme cela se fait dans les feuilles de route!).
Chaque modèle partiel agit comme un résumé des données dynamiques multi-échelles et multi-niveaux pour la cohorte. Cette étape est ainsi le “guide méthodologique” pour parvenir à un modèle intégré qui “résume” au mieux toutes les cohortes de données relatives à une même classe de systèmes complexes tout en restant le plus intelligible (rasoir d’Occam). En raison de cette double contrainte, le meilleur modèle intégré n’est pas l’ensemble des champions des modèles partiels. La métaphore du décathlon en sport illustre ce concept. 
De meilleures opportunités pour la synthèse du modèle intégré peuvent venir de modèles présentés pour les e-tournois ou des Olympiades. Le flux régulier de nouveaux modèles partiels produit un processus continu de révision des modèles intégrés existants 
La question du modèle partiel (resp. intégré) qui résume au mieux la (resp. les) cohorte(s) peut être traitée avec l’aide du nouveau domaine de la géométrie de l’information. Ce cadre est remarquable parce qu’il permet de comparer des méthodes en apparences diverses: deep learning fondé sur différentes représentations internes ou statistiques “optimales” maximisant l’entropie du modèle probabiliste sous contraintes des mesures statistiques et incrémentales en provenance  des protocoles de reconstruction phénoménologique.
  1. Répondre aux grands enjeux sociétaux : défis sociétaux et big data dynamiques multiéchelles
L‘ensemble des 17 objectifs de développement durable des Nations Unies (http://www.un.org/sustainabledevelopment/fr/objectifs-de-developpement-durable) pour 2030 propose une synthèse des défis eco-socio-économiques posés par les grandes classes de systèmes complexes à différents niveaux territoriaux. Les communautés scientifiques ont défini des ensembles de critères pour mesurer les avancées vers ces 17 objectifs. L’ICSU est l’organisation scientifique  qui fédère les communautés scientifiques internationales pour conseiller les Nations Unies sur de tels critères. 
Les Nations Unies proposent un nouveau système input/output de comptabilité nationale pour généraliser les tableaux purement économiques (dits de Léontief) de façon à intégrer progressivement l’ensemble des 17 défis éco-socio-économiques. Cette extension est nécessaire pour anticiper les cascades d’impacts multi-factoriels (écologiques, sociétaux et économiques) de toute décision aux différents niveaux territoriaux. Mais cette extension pose de redoutable problèmes pour estimer de façon fiable, durable, économique de tels tableaux, voire de valider en temps réels les impacts.
Le contexte international offre des opportunités globales efficaces pour aller dans cette direction:
a. La 2ème révolution internet apporte dès maintenant l’opportunité de partager les données comme si chacun travaillait sur le même ordinateur avec IPFS (InterPlanetary File System). Plus fondamentalement encore, elle apporte avec les Smart Contracts et la BlockChains une manière de garder une trace stigmergique non effaçable des interactions entre les individus et les groupes d’individus de toute taille: ces traces garantissent un niveau de confiance très élevé au sein de chaque Organisations Autonomes Décentralisée (OAD) créée par chaque Smarts Contracts. 
b. Pour les données individuelles et de groupes, le General Data Protection Regulation (GDPR) est un nouveau Règlement de l’Union Européenne qui rend obligatoire à partir de mai 2018 la mise à disposition de ses données personnelles à chacun. il sera donc nécessaire d’obtenir les consentements des intéressés pour utiliser (de façon anonymisées) les données qui les concernent.  La mise à disposition de leurs données dynamiques est d’une importance capitale pour la Science. Mais la publication de leurs dynamiques en interaction est aussi essentielle  i) pour des indicateurs éco-socio-économiques en “temps continu” représentant la “santé” des territoires à toutes les échelles ii) les initiatives participatives en temps réel des organisations associatives, gouvernementales et non gouvernementales et iii) des conseils personnalisés à chacun en matière d’orientation personnelle, d’éducation personnalisée ou de santé personnalisée tout au long de la vie basée sur les trajectoires multifactorielles de larges cohortes d’alter egos.
c. Pour les données relatives aux interactions entre les hommes et la nature, l’internet des objets peut jouer un rôle fondamental avec une régulation du partage organisée là aussi avec des Smart Contracts. Le  règlement GDPR s’applique aussi à l’internet des objets dont chacun dispose à la maison, à la ferme, dans les lieux de travail et dans la ville pour mieux réguler leurs dépenses, leurs approvisionnement alimentaire ou leur consommation/production en énergie.
d. Les principaux courants de la nouvelle économie (économie verte et bleue, économie sociale et solidaire, économie numérique et digitale) ont tous comme objectif de prendre en compte les multiples défis issus des 17 objectifs de l’UN. Par exemple, le dernier congrès mondial des coopératives (2 milliards de coopérateurs sur la planète) a voté son adhésion aux 17 objectifs de l’UN. 
4. Success stories
Les exemples de réussite (success stories) permettent de valider la pertinence de la construction et de l’analyse de corpus de données dans des approches systèmes complexes. 
4.1 INCALIN: optimisation de la production industrielle du Camembert
Dans le domaine de l’agro-alimentaire, le projet ANR INCALIN, sur la modélisation du Camembert, a pu à la fois atteindre un stade industriel, servir de socle au projet européen DREAM, et enfin permettre d’établir différentes thématiques de recherches fondamentales dans la communauté (modélisation interactive, exploration de tubes de viabilité, couplage visualisation/exploration/optimisation)
– Sicard, M., Perrot, N., Reuillon, R., Mesmoudi, S., Alvarez, I., Martin, S. (2012) A viability approach to control food processes: Application to a Camembert cheese ripening process. Food Control, 23, 312-319.
– Perrot, N., Baudrit, C., Trelea, I.C., Trystram, G., Bourgine, P. (2011). Modelling and analysis of complex food systems: state of the art and new trends. Trends in Food Science and Technology, 22(6), 304-314.
– Baudrit, C., Sicard, M., Wuillemin, P.H., Perrot N. (2010). Towards a global modelling of the Camembert-type cheese ripening process by coupling heterogeneous knowledge with dynamic Bayesian networks, Journal of Food Engineering, 98 (3), 283-293.
4.2 Human Problem Solving
Herbert Simon and Alan Newell for Human Problem Solving: 600 pages dont 100 dernières pour les conclusions et 500 pour les protocoles
4.3 Les états causaux musicaux
Voir les travaux de Jean-Louis Giavitto
4.4 Reconstruction et modélisation des dynamiques cellulaires dans la morphogenèse embryonnaire
Voir les travaux de l’USR3695 BioEmergences
4.5 Reconstruction et modélisation des comportements collectifs chez les insectes sociaux
Voir les travaux de Guy Théraulaz
4.6 Exploitation de données géo-spatiales hétérogènes et volumineuses pour la prise de décision
Le projet européen IQmulus (2012-2016) permet l’utilisation optimale de données géo-spatiales hétérogènes et de grand volume pour une meilleure prise de décisions. Il se fonde d’une part sur la fusion de données, et, d’autre part sur le développement de plateformes de gestion d’information et d’analyse.
4.7 Etude collaborative des évolutions territoriales à différentes échelles
Le projet Geohistoricaldata regroupe des chercheurs, dans une démarche collaborative, autour de deux objectifs : l’étude des évolutions territoriales à différentes échelles (de la parcelle cadastrale au territoire national) et la création d’outils spécialisés et flexibles permettant de traiter ces questions.
5. Références
    – Site de l’ICSU : https://www.icsu.org/
    – http://www.un.org/sustainabledevelopment/fr/objectifs-de-developpement-durable/
    –  Big Data à Découvert, eds M. Bouzeghoub et R.Mosseri, CNRS éditions, 2017
    – Dynamiques hyper symboliques: Jeffrey Jonhson et Paul Bourgine
    – Hypernetworks: Jeffrey Jonhson    
    – Digital Method Initiative: https://wiki.digitalmethods.net/Dmi/DmiAbout

 

 

 

Thématique : Éthique et épistémologie des modèles intégrés

Reporter : Nicolas Brodu, Sara Franceschelli, Jean-Baptiste Rouquier

Contributors : François Arlabosse, Yves Burnod, Paul Bourgine, S. Randall Thomas, Alessandro Sarti, Roberto Toro.

Introduction

La construction de modèles intégrés pour l’énorme variété de systèmes complexes qui nous entourent, à toutes les échelles, est l’un des buts majeurs de l’institut numérique des systèmes complexes. Il paraît alors essentiel d’en discuter l’épistémologie, ce qui reviendra, de fait, à l’explicitation d’une méthodologie pour la construction et l’usage de tels modèles, et à une discussion sur leur portée de connaissance.

De pair, une nouvelle prise de conscience de certaines questions d’intérêt vital, rendue possible grâce aux connaissances fournies par les modèles intégrés et par les bases de données systématisées par l’institut numérique des systèmes complexes, devra s’accompagner, prioritairement au niveau de l’université numérique des systèmes complexes, de l’élaboration d’une éthique appropriée pour une innovation responsable.

Afin de favoriser une prise de conscience et la constitution d’un positionnement éthique situés, dans des situations d’innovation ou d’expérimentation potentiellement dangereuses ou en tout cas partiellement inconnues, que les connaissances gérées par l’institut numérique des systèmes complexes permettront de repérer et de signaler, la mise en place d’une observation participante d’un anthropologue (ou d’un sociologue), en étroite relation avec les experts dans le domaine, sera proposée. (e.g. modèle du rein avec entrées et sorties, mais si on considère le rein dans l’ensemble du système, lui-même est un composant qu’il s’agira d’intégrer au tout, ce qui ne peut pas se faire par simple juxtaposition).

Le but des modèles intégrés est d’universaliser les dynamiques microscopiques en dynamiques macroscopiques pour rendre compte des motifs émergent à une certaine échelle, motifs qui deviennent les entités élémentaires de l’échelle supérieure. Un modèle intégré présente différents niveaux hiérarchiques et une causalité à la fois montante et descendante. L’ambition est de connaître les dynamiques des motifs entre tous les niveaux, à la fois montantes et descendantes.

À chaque échelle, on peut modéliser les entités de base ou élémentaires de façon très simplifiée, mais ce sont l’hétérogénéité de ces entités et leurs interactions qui créent le comportement émergent. Par exemple, si tous les agents boursiers ont exactement le même comportement, par exemple tout le monde veut acheter ou vendre en même temps, aucune transaction ne se fait. De même, on a observé qu’au dessus d’une certaine température, certaines abeilles se placent à l’entrée de la ruche et battent des ailes pour la ventiler et la refroidir. La température seuil est spécifique à chaque abeille (hétérogénéité). Ainsi, quand la température augmente, il y a de plus en plus d’abeilles qui ventilent.

En général, on ne pourra pas tout expliquer en remontant ou en descendant, mais il sera nécessaire de se concentrer sur le niveau hiérarchique d’intérêt (middle-out).

Chaque fois qu’il y a une question à un niveau de détail donné, on crée donc un modèle adapté à ce niveau, en sachant que les modèles peuvent être imparfaits et/ou partiels à chaque niveau, ce qui n’empêche pas de viser à obtenir un modèle global intégré.

2.1.4.1 La valeur épistémique des modèles intégrés

La construction de modèles intégrés vise à une naturalisation des connaissances. Méthodologiquement, la posture adoptée est phénoménologique. A chaque niveaux de description, il est souhaitable avoir à la fois une connaissance des détails des équations, et une reconstruction des dynamiques symboliques. Cette deuxième voie offre la possibilité d’une comparaison avec le discours des experts dans les différent domaines disciplinaires que les modèles intégrés permettent d’aborder (biologistes, physiciens, géographes, médecins, sociologues, etc.). Il est donc nécessaire de connaître des données sur le comportement du système à chaque niveau. Cela suppose des entrées données / méta à différents niveaux (sémantique/vs syntaxique). Le seul moyen est peut-être de concevoir des systèmes apprenant, comme un enfant arrive à apprendre la sémantique en plus de la structure formelle (e.g. un dictionnaire).

Explication et prédiction

Un modèle mathématique peut avoir à la fois une fonction explicative, permettant une explication qualitative, et une fonction prédictive. Cela est vrai aussi pour les modèles intégrés, pouvant contenir à la fois des aspects qualitatifs (qui servent à comprendre, à expliquer) et quantitatifs (qui servent à prédire).

La théorie des catastrophes de René Thom constitue un exemple d’usage qualitatif des modèles mathématiques, visant plus à une compréhension qualitative qu’à une prédiction quantitative. Toutefois, compréhension et prédiction ne sont pas des exigences incompatibles, comme le montre bien l’utilisation de la théorie qualitative des équations différentielles pour l’étude de la transition vers le chaos déterministe dans certains systèmes dynamiques. Malgré l’imprédictibilité sur les trajectoires temporelles de certains systèmes – lorsqu’il présentent un régime chaotique – la notion de scénario de transition vers le chaos (défini par une suite générique de certaines bifurcations) permet en effet de réintroduire une certaine prédictibilité pour ces systèmes, même si en termes probabilistes. Le type de prédiction que les modèles intégrés permettent est, en général, probabiliste. Il s’agit de construire une physique statistique des systèmes complexes, dont l’hétérogénéité des éléments serait prise en compte.

2.1.4.2. Les conditions de la modélisation mathématique (rapport au système que l’on veut modéliser)

Il existe des propriétés intrinsèquement holistes des systèmes quantiques, présentées par les particules intriquées. Dans ce cas, le holisme est diffusé, pas organisable en niveaux séparables. La

difficulté de formuler des modèles intégrés pour ce type de systèmes semble intrinsèque; l’universalité de l’émergence et, a fortiori, des méthodes mathématiques pour modéliser des comportements émergent, peuvent donc être questionnés. Il faudra préciser quel est le domaine de validité de l’utilisation des modèles intégrés, et quelles en sont les conditions.

Conditions aux bords et questions d’identité

Pour pouvoir faire des prédictions concernant des systèmes particuliers, la connaissance des conditions aux bords est nécessaire: la connaissance des dynamiques à tous les niveaux d’un modèle intégré n’est pas suffisante. En fait, la non-connaissance des conditions aux bords, pose de problèmes sur l’identité même du système et sur sa localisation.

La question du «Bateau de Thésée» (une fois que toutes les pièces du bateau ont été remplacées, est-ce le même bateau ?) et ses variantes :

1. n’a pas forcément d’implication pratique sur les niveaux inférieurs, les composants du modèle; 2. a des conséquences éthiques en ce qui concerne les systèmes intégrés avec leur identité propre (ex: remplacement d’une partie du cerveau par une simulation, expérience sur les hypothalamus dégénérés de rats qui retrouvent une partie de leur comportement)

3. est liée à la question de l’autonomie, des relations avec les limites du système, des flux entrée /sortie (Prigogine & open-dissipative).

Déterminisme et stochasticité

Si j’ai un système dynamique, je peux toujours imaginer qu’il est perturbé par l’extérieur et je peux jouer entre déterminisme et stochastique. On peut avoir de la stochasticité à un niveau et du déterminisme au niveau supérieur. Également on peut avoir l’émergence du continu : des éléments microscopiques séparés et discrets, mais une modélisation macroscopique continue. E.g. : des bactéries mangent de la nourriture qui n’est pas distribuée de façon uniforme sur l’ensemble du milieu. On modélise de façon uniforme et on ajoute un coefficient de diffusion stochastique. Cela donne une équation différentielle à dérivées partielles stochastiques.
La distribution de Schwartz, par exemple, est très difficile à maîtriser, mais c’est un bon outil pour passer de l’échelle micro à l’échelle macro.

2.1.4.3. Ethique des modèles intégrés

L’un des buts des modèles intégrés est de jeter des ponts entre ingénierie et société. « Si le savoir peut créer des problèmes, ce n’est pas l’ignorance qui les résoudra. » (L’univers de la science, Isaac Asimov, éd. InterÉditions, 1986, p. 15.)

Le manque de modèles intégrés dans plusieurs domaines pousse à appliquer systématiquement le principe de précaution, ce qui freine les avancées scientifiques.
C’est une obligation éthique d’essayer de connaître quelque chose à toutes les échelles d’un domaine d’étude. Cela permettra de palier les problèmes des connaissances mal partagées, et de l’isolement scientifique. Cette obligation éthique est de plus en accord avec les jurisprudences qui font obligation pour un concepteur de connaître tout au moment de la conception d’un artefact. La certification du modèle intégré dans une recherche particulière avec la dynamique des incertitudes liées à la masse des données utilisées sera d’un grand apport dans toute question faisant intervenir la justice.

La science des systèmes complexes, par l’usage des modèles intégrés qu’elle emploie, permettra de mieux cerner les risques, de lancer des alertes dans des situations sociales diverses et variées. Par exemple dans le cadre de la santé, des modèles intégrés d’addiction sociale, comme

dans l’alimentaire, pourront être mieux cernés et circonvenus si besoin. Des alertes pourront être élaborées pour des technologies comme les nano-technologies qui échappent pour le moment à la toxicologie. La toxicité dans les chaînes alimentaires est par exemple relevant de l’approche modèle intégrée, en accord avec les directives européennes comme REACH. Les liens interdisciplinaires auront un impact sur l’élaboration d’alerte pertinente à des situations complexes. Cette même approche des systèmes complexes permettra outre le développement de la signature collective des travaux de mieux cerner la liste des recherches qu’il vaudrait mieux mener. L’effet toxique de certaines pratiques sociales devrait permettre une meilleure prise de conscience collective des effets de certaines pratiques sociales échappant à l’investigation scientifique.

Le développement de l’innovation responsable relève aussi du champ de l’approche des systèmes complexes. En évitant une concentration des connaissances sur un seul niveau d’échelle, toxique pour la société, on devrait pouvoir aider à influer sur les décisions des états pour l’allocation des budgets de R&D. L’approche multi-échelles sera à la source de nouvelles questions,

permettant à l’effort scientifique de mieux s’intégrer aux grandes questions sociétales du XXIe siècle.