Épistémologie formelle : des Big Data aux modèles intégrés

A ajouter : questions ethiques

2017 : Rapporteur : Paul Bourgine. Contributeurs : Paul Bourgine (Complex System Digital Campus CS-DC), Rémy Cazabet (LIP6, Paris), Valérie Gouet-Brunet (IGN/LaSTIG/MATIS, Saint-Mandé), José Halloy (Université Paris Diderot, LIED UMR8236), Bertrand Jouve (XSYS, Toulouse), Robin Lamarche-Perrin (LIP6, ISC-PIF, Paris), Evelyne Lutton (INRA, Grignon), Pierre  Parrend (ECAM, Strasbourg-Europe), Nadine Peyrieras (USR3695 Bioémergences, Gif-sur Yvette, ISC-PIF, CS-DC).

2008 : (Épistémologie formelle, expérimentation, apprentissage automatique) :

Rapporteur : Nicolas Brodu (INRIA – Rennes). Contributeurs : Paul Bourgine (CREA, École polytechnique), Nicolas Brodu (INRIA – Rennes), Guillaume Deffuant (CEMAGREF), Zoi Kapoula (CNRS), Jean-Pierre Müller (CIRAD), Nadine Peyreiras (CNRS).

Mots clés : Big Data dynamique, Modèles partiels, Modèles intégrés, Protocole d’acquisition et d’organisation de données, Nomadisme de concepts, Partage et interopérabilité des données et des logiciels, Deuxième révolution internet.

  1. Contexte et définition

            1.1 Concept de données massives

Le big data peut se  définir par le fait que dans la discipline dont les données relèvent, l‘augmentation de la quantité de données disponibles et l’évolution de leur nature, leur variété, nécessitent d’autres stratégies que celles pratiquées couramment. La caractérisation de la frontière vers le « Big Data » est donc différente suivant les disciplines. L‘informatique donnerait comme limite celle de la puissance informatique nécessaire au traitement des données ou de la capacité des algorithmes à les traiter.  En sciences humaines ou dans les domaines de la biologie ou de la santé, il s’agit de la nécessité de concevoir de nouvelles méthodes d’analyse qui vont de paire avec de nouveaux modes de collecte et d’organisation des données, sans qu’il s’agisse nécessairement de PetaBytes d’information.  Le concept de Big Data s’accompagne de nouvelles stratégies d’organisation des données et d’extraction des informations qu’elles peuvent contenir. 

            1.2 Données massives et approches systèmes complexes : un lien très fort

Les approches systèmes complexes sont consubstantielles de l’analyse de données plus ou moins massives, même si la question de paramètres permettant de quantifier et plus encore de qualifier de façon pertinente la massivité des données n’est pas évidente,  ne serait-ce que du fait de l’évolution de la perception qu’on en a, en fonction des moyens d’acquisition et d’analyse dont on dispose. Les approches systèmes complexes sont conçues pour traiter, reconstruire et modéliser des données multiéchelles et multiniveaux dans un contexte nécessairement interdisciplinaire et pour de ce fait accompagner les disciplines expérimentales dans une transition épistémologique. Les données requises peuvent ne pas prendre en compte un grand nombre d’éléments ni même tenter de capturer tous les niveaux possibles, mais seront éventuellement massives par le nombre d’instances des mêmes phénomènes qu’il sera nécessaire d’analyser pour rendre compte des processus en jeu au moyen d’un cercle vertueux expérimentation- reconstruction- modélisation- validation. L’importance des données et de leurs caractéristiques pour atteindre les objectifs d’une modélisation intégrée multi-niveaux justifie de penser un guide des bonnes pratiques (section 2). Il s’agit, à la lumière de l’expérience acquise dans le domaine, de rationaliser les démarches de mise au point de protocole d’acquisition, d’organisation et d’analyse de données massives en fonction des questionnements qui les motivent.

            1.3 Utilisation de données massives déjà acquises

Définir cohorte.

Le concept de BigData s’est imposé avant que ne soient véritablement pensées les stratégies pour les analyser et donc pour les acquérir et les organiser. On se trouve ainsi avec des corpus de données dont les caractéristiques ne permettent pas une analyse de la dynamique des systèmes ou de la topologie, de la temporalité et de la probabilité des phénomènes. Il peut cependant s’avérer indispensable de les prendre en compte parce qu’ils correspondent à des cohortes uniques et portant la trace de l’historicité des processus. Les difficultés liées à l’utilisation de telles données (c’est le cas par exemple de données –omics en biologie (genomics, transcriptomics, proteomics, metabonomics, etc..)) sont aussi le fait de l’hétérogénéité de leur format, de leur documentation et de leur annotation. Ce type de problème  devrait être en principe résolu  lors de nouvelles acquisitions qui pourraient aussi occasionner la réorganisation de bases de données existantes. Il est en particulier souhaitable que les stratégies de documentation et d’annotation des données permettent leur utilisation sans la nécessité de l’intervention forte de l’expert à l’origine de leur acquisition et/ou de leur organisation.  Les masses de données similaires mais organisées en fonction de points de vues différents compromettent les stratégies d’apprentissage supervisées qui sont cependant nécessaires à la catégorisation  et à l’analyse des corpus de données.  Pour donner un exemple concret parmi d’autres, l’observation des micro-organismes à la surface du fromage conduit à un groupage intrinsèque qu’il est extrêmement difficile de confronter aux bases de données existantes. L’absence de standards uniques dans l’organisation de données de même type est un problème qui peut compromettre leur utilisation. Mais la question de la possibilité même de standards uniques se pose.  Elle est cependant cruciale pour l’interopérabilité de bases de données qui sont sans doute appelées à rester distribuées.

            1.4 Utilisation des données  à acquérir, données du passé et longues durées

Il existe des masses de données archivées, par exemple historique, sur des supports hétérogènes (papier, iconographie, objets, architecture, etc.). Ces données n’ont pas été récoltées dans un but de modélisation mais pour des raisons très variées, par exemple pour être utiles à des professions (notaires, architectes, sociologues, etc.) ou pour des statistiques d’Etat (écologie du paysage, etc.). Les défis sont d’acquérir ces données par une numérisation intelligente et surtout une re-construction intelligente, incluant l’organisation et l’interopérabilité de ces données, qui ne présupposent pas des usages qui en seront faits. D’autres défis concernent la re-construction de données manquantes de faire des retro-prédictions basées sur des modèles. Enfin c’est données pourront être utilisées dans une perspective d’analyses sur la longue durée des sociétés humaines. Ces données peuvent alors nourrir des démarches de prospectives pour répondre aux défis sociaux (voir section 3).

           1.5 Épistémologie formelle et appliquée (partie reprise de 2009, revoir éventuellement l’intégration)

Le monde moderne, notamment dans le domaine de la médecine, de l’environnement et de la sphère sociale, est de plus en plus dépendant de et confronté à de vastes systèmes constitués d’un grand nombre d’entités en interaction. Les données collectées à partir de ces systèmes, généralement à très grande échelle, représentent des défis considérables en termes d’efforts à déployer pour la reconstruction des dynamiques multi-échelles et leurs diverses influences descendantes et ascendantes. Ce travail requiert non seulement l’appui de l’épistémologie formelle et des calculs massifs, mais aussi une généralisation dite « science ouverte » inspirée par la communauté de la physique des hautes énergies. La compréhension d’un phénomène consiste à découvrir une approche suffisamment précise et concise pour expliquer sa structure et son comportement, pouvant être comprise par l’esprit humain. Dans la situation actuelle, l’intuition humaine se trouve souvent désemparée pour traiter les subtilités intrinsèques et les propriétés des systèmes complexes. En théorie, une technique formelle optimale permet d’obtenir des concepts candidats et des liens pouvant servir de base aux expérimentations menées par l’être humain. Si les formes optimales découvertes grâce aux méthodes théoriques s’opposent aux concepts optimaux conçus par le travail cérébral humain, la raison de cette divergence fera elle-même l’objet de recherches complémentaires. Pour comprendre les systèmes complexes, il faut définir et mettre en œuvre une épistémologie formelle et appliquée spécifique. De nouveaux outils et méthodes doivent être développés pour assister le travail de conception et d’interprétation des expérimentations en vue de :

  • identifier les entités pertinentes à une échelle spatio-temporelle donnée,
  • caractériser les interactions entre les entités,
  • évaluer et formaliser le comportement du système.

La stratégie allant de la conception d’une expérimentation jusqu’aux analyses postérieures des données devrait associer les approches fondées sur des hypothèses et celles appuyées sur des données par :

  • la définition de protocoles pour produire des données appropriées à la reconstruction des dynamiques multi-échelles,
  • l’initialisation, à travers une construction simultanée, d’un cadre théorique pour la prédiction et la falsification ultérieures des résultats issus d’expérimentations,
  • une approche fonctionnelle à différents niveaux pour permettre de concevoir des formalismes appropriés à ces mêmes niveaux tout en sachant que les méthodes théoriques ne permettent pas de garantir qu’un niveau formel puisse être déduit d’un autre, mais cela n’a pas d’importance puisque : pour comprendre un système, il est préférable d’étudier les étapes de reconstruction phénoménologique à chaque niveau pertinent.

La méthodologie débute par l’observation et la collecte de données. Toutefois, il arrive un moment où il n’est pas opportun de collecter des données sans savoir si celles-ci sont réellement nécessaires à la compréhension du comportement du système étudié. La reconstruction phénoménologique a pour résultat le paramétrage des données, et les mesures réalisées devraient permettre de détecter et de retracer ultérieurement les motifs transitoires et récurrents. Or, ces caractéristiques ne sont significatives que si elles sont intégrées dans un modèle permettant de valider les hypothèses. Notre objectif ici est de trouver un modèle compatible avec les observations. Le simple fait de construire un modèle nécessite déjà la formalisation des hypothèses sur le comportement du système ainsi que les processus sous-jacents. Une partie de la compréhension en découle, et la partie restante résulte de la possibilité de valider les prédictions relatives au modèle par l’expérimentation. Ce dernier point est représenté à droite de l’illustration ci-dessous. Épistémologie formelle et appliquée

Formal

Déroulement des opérations de reconstruction théorique

A supprimer (Valérie) :

——–

L’intégration de la science informatique est une composante essentielle de cette épistémologie. Elle a pour but de fournir ainsi que de permettre :

  • des outils d’exploration pour une approche fondée sur les données ; l’apprentissage automatique non supervisé peut fournir des motifs candidats et des relations qui échappent à l’intuition humaine ; l’apprentissage automatique actif sert à déterminer l’expérimentation la mieux appropriée pour tester un modèle qui est au centre de l’épistémologie dont il est question,
  • des outils permettant d’établir des comparaisons entre les modèles (fondés sur des hypothèses) et les observations ; l’apprentissage supervisé équivaut à l’exploration de l’espace des paramètres d’un modèle avec pour objet une correspondance optimale des données ; l’apprentissage auto-supervisé est appliqué quand un aspect temporel permet de corriger en continu les prédictions du modèle à partir des données observées concernant ces prédictions.

Les méthodes et les outils de la science informatique sont nécessaires lors des étapes suivantes :

  • les interactions entre l’humain et la machine : la visualisation et l’interaction à partir des données, des ontologies et des simulations,
  • la construction d’ontologies relatives à des entités fonctionnelles pertinentes à différents niveaux,
  • l’élaboration d’hypothèses, la formalisation des relations entre les entités, la conception de modèles,
  • la validation des modèles.

Nous attendons des méthodes et des outils issus de la science informatique qu’ils offrent les caractéristiques fondamentales spécifiques suivantes :

  • les outils génériques doivent être aussi indépendants que possible par rapport à une structure logique (d’interprétation) ; en particulier en raison des habitudes culturelles variables des différentes disciplines et des spécificités de chaque système, il est préférable de proposer une série d’outils indépendants et adaptables plutôt qu’un environnement intégré qui, de toute façon, ne pourra jamais englober tous les cas de figure,
  • l’indépendance doit également être de mise dans le choix des logiciels (en termes d’usage, d’évolution et d’adaptation des outils aux besoins spécifiques) ; cela exige des logiciels libres comme condition nécessaire, mais non pas suffisante,
  • les outils doivent être fonctionnels pour les spécialistes, mais également utilisables par des non spécialistes ; cela est réalisable, par exemple, s’ils offrent des caractéristiques spécifiques à un domaine avec une valeur ajoutée pour les spécialistes sous la forme d’extensions (modules, etc.) des outils génériques,
  • des outils prêts à utiliser ; les conditions requises pour l’application de l’outil doivent être minimales ; l’utilisation de l’outil ne doit pas impliquer de gros efforts techniques.

——–

 

  1. Défis : un guide des bonnes pratiques

            2.1 Du monde aux données : les protocoles expérimentaux

Les protocoles sont ici le point crucial : quelle est la question théorique mise à l’épreuve des faits ? quelles sont les dispositifs matériels assurant une production des données dans des conditions reproductibles ? la durée de la reproductibilité est elle compatible avec la précision requise ? quels sont les protocoles computationnels de validation des données et de reconstruction des données manquantes ? quelles sont les méthodes de dépouillement statistiques des données requises pour la science des systèmes complexes conduisant à de nouvelles disciplines intégratives et prédictives ou transdisciplines soucieuses de falsifiabilité, par exemple pour l’étude de la matière complexe, des systèmes biologiques, cognitifs ou territoriaux. Les objets d’études étant les systèmes complexes in Natura d’intérêt pour les hommes et leur planète, il s’agit d’avoir des résultats scientifiques auxquels un large public doit pouvoir faire confiance.

Peu d’ouvrages s’intéressent à l’analyse de protocoles expérimentaux. Un lien est fourni dans la bibliographie pour l’ouvrage de Herbert Simon, “Protocol Analysis”. Comme dans toutes disciplines ou sous-disciplines et a fortiori dans une nouvelle transdiscipline, il s’agit de se mettre d’accord sur des protocoles au fil d’un processus dynamique de construction guidé par l’évolution d’a priori qualitatifs. Dans bien des cas d’études de grands systèmes complexes, il est important dans les protocoles d’acquisition de données de pouvoir tenir compte de la rétroaction du système sur lui-même (cf: la matrice généralisée des Nations Unis sur les implications économiques, sociétales et écologiques). Dans un objectif de préconisation par exemple, l’acquisition doit être fortement dynamique et “en temps réel” puisque l’action des gouvernants ou des individus sur le système peut créer des cascades et des bifurcations que nous devons être en mesure d’identifier assez précisément et rapidement au vu des délais d’enchaînement des cascades. Dans le cadre de démarches participatives de récolte de données (crowdsourcing) en particulier, la conscience des individus ou de groupes d’individus à participer à une telle action partagée doit être prise en compte selon principes ci-dessous.

Pour traiter des questions relatives à l’adéquation des données au problème posé, de nouvelles stratégies de construction et de partage  de protocoles sont à inventer.

– Les discussions épistémologiques sur les théories, les concepts, les méthodes et les protocoles pour augmenter leurs interactions et leur nomadisme dans les réseaux scientifiques. Pour les partager de la façon la plus ouverte possible, des e-workshops sans frais peuvent être organisées, enregistrées et disséminées. S’il reste des désaccords sur les protocoles, le e-workshop peut déboucher sur l’organisation d’un e-tournoi entre protocoles sur une même classe d’objets scientifiques: ce e-workshop décide du (meta)protocole pour comparer les divers protocoles restés en débat.

– La validation, ou qualification, des données peut se faire par le biais d’experts, d’hommes de l’art et/ou de scientifiques, ou encore par le croisement avec d’autres données déjà validées, selon la classe de données considérées. Un principe très général de validation est de mettre en place un programme d’apprentissage actif avec un nombre quelconque d’experts volontaires pour distribuer l’effort. Ce programme apprend de façon active à partir de la différence entre son anticipation et la validation de l’expert chaque fois que ce programme est suffisamment sûr de la qualité de sa propre validation: de la sorte, l’apprentissage actif devient de plus en plus automatique et expert, et finit par ne demander à l’expert que les cas les plus intéressants.

            2.2 Des données aux modèles :

Ici les deux questions cruciales sont l’interopérabilité des données et le choix des protocoles de reconstruction phénoménologique et théorique.

a) Les protocoles de reconstruction phénoménologique organisent le passage des données dynamiques brutes multi-échelles à la phénoménologie augmentée des dynamiques multi-niveaux symboliques (catégorisation des entités) et hypersymboliques (catégorisation des relations binaires des networks ou n-aires des hypernetworks – réf Jeffrey Jonhson). Les protocoles de reconstruction théorique partent des reconstructions qualitatives phénoménologiques et des mesures associées aux entités et aux liens relationnels. La discussion autour de ces protocoles peut s’organiser de la même manière que pour les théories et les concepts avec des e-workshops et, éventuellement catalyser des dispositifs de comparaison  des méthodes de reconstruction restées candidates après discussion dans les e-workshops.

b) Afin de faciliter l’accès des communautés scientifiques aux approches systèmes complexes, il est important de disposer de données interopérables qui soient compatibles avec des analyses de dynamiques multi-échelles.  Ces données portent sur les entités élémentaires du système mais, dans la mesure du possible, sont aussi acquises sur des niveaux méso (un ou plusieurs). Pour chaque étude il est important de définir une méthodologie adéquate qui permette d’identifier les différents niveaux d’échelles pertinents et de s’accorder sur les paramètres les mieux à même de décrire le système à chacun de ces niveaux. Ce questionnement conduit à mieux penser les protocoles d’acquisition (voir paragraphe 2.1).

Dans une approche systèmes complexes, les données doivent aussi nécessairement renseigner les interactions entre les entités et les niveaux (cf b.ci-dessus). Entre les entités, il s’agit d’acquérir des données à même de rendre compte des dynamiques des interactions. Entre les niveaux, il s’agit souvent de penser en amont de l’acquisition des données, les conditions d’un recollement d’échelles qui sont souvent abordées par des méthodes et outils différents. Ce recollement d’échelles se fera par l’intégration de modèles opérant à des niveaux différents (voir paragraphe suivant) mais aussi par des couplages de données entre niveaux différents, couplage que l’on doit chercher à expliciter. On peut être amené à coupler des données de natures très différentes, par exemple qualitatives (connaissances expertes, données d’observations cliniques ou données sociales) et quantitatives (dénombrements, suivis de trajectoires, caractéristiques phénotypiques). Il est essentiel de travailler à construire des interopérabilités qui préservent au mieux le partage des cohortes pour la la richesse des coopérations interdisciplinaires. En outre, il est fréquent qu’il soit incontournable de prendre en compte des données de qualité différentes, soit comme évoqué plus haut du fait de l’existence de corpus de données uniques mais incomplets ou du fait d’artefacts expérimentaux persistant au delà de l’optimisation des protocoles. L’intégration des données nécessite alors de savoir évaluer la propagation des incertitudes dans la modélisation multi-niveaux du système, ainsi que d’être en mesure de les exploiter, notamment dans les cas d’usage.

L’interopérabilité  peut être résolue soit en forçant la mise en place de standards universaux sur la forme des données soit sur des systèmes “universels” de conversion de chaque format dans les autres formats. Ce travail de conversion est de la responsabilité de tout nouveau format. C’est un problème qui reste néanmoins souvent difficile à résoudre étant donné l’évolution et la variété des données, rendant leurs différentes natures quelquefois difficilement interopérables.

 

            2.3 Des modèles partiels aux modèles intégrées

Le paragraphe précédent traitait de la reconstruction de modèles phénoménologiques et théoriques (cf le § précédent). Ces modèles sont partiels comme liés à une cohorte ou un ensemble homogène de cohortes. La question est à présent de traiter le passage des modèles partiels à un modèle intégré portant sur une même classe d’entités multi-niveaux. Les niveaux d’une entité sont le plus souvent composés d’entités hétérogènes. A nouveau ce passage peut être traité par des e-workshops et, en cas de désaccords persistants par des e-tournois. Il est essentiel de comprendre que la chaîne des e-workshops s’enchaîne depuis les protocoles de données jusqu’aux protocoles de modèles intégrés, chaque fois en anticipant l’étape suivante. Mieux encore, les débats sur le protocole du modèle intégré boucle sur le protocole initial épistémologique sur les théories, les concepts et les méthodes (comme cela se fait dans les feuilles de route!).
Chaque modèle partiel agit comme un résumé des données dynamiques multi-échelles et multi-niveaux pour la cohorte. Cette étape est ainsi le “guide méthodologique” pour parvenir à un modèle intégré qui “résume” au mieux toutes les cohortes de données relatives à une même classe de systèmes complexes tout en restant le plus intelligible (rasoir d’Occam). En raison de cette double contrainte, le meilleur modèle intégré n’est pas l’ensemble des champions des modèles partiels. La métaphore du décathlon en sport illustre ce concept. 
De meilleures opportunités pour la synthèse du modèle intégré peuvent venir de modèles présentés pour les e-tournois ou des Olympiades. Le flux régulier de nouveaux modèles partiels produit un processus continu de révision des modèles intégrés existants 
La question du modèle partiel (resp. intégré) qui résume au mieux la (resp. les) cohorte(s) peut être traitée avec l’aide du nouveau domaine de la géométrie de l’information. Ce cadre est remarquable parce qu’il permet de comparer des méthodes en apparences diverses: deep learning fondé sur différentes représentations internes ou statistiques “optimales” maximisant l’entropie du modèle probabiliste sous contraintes des mesures statistiques et incrémentales en provenance  des protocoles de reconstruction phénoménologique.
  1. Répondre aux grands enjeux sociétaux : défis sociétaux et big data dynamiques multiéchelles
L‘ensemble des 17 objectifs de développement durable des Nations Unies (http://www.un.org/sustainabledevelopment/fr/objectifs-de-developpement-durable) pour 2030 propose une synthèse des défis eco-socio-économiques posés par les grandes classes de systèmes complexes à différents niveaux territoriaux. Les communautés scientifiques ont défini des ensembles de critères pour mesurer les avancées vers ces 17 objectifs. L’ICSU est l’organisation scientifique  qui fédère les communautés scientifiques internationales pour conseiller les Nations Unies sur de tels critères. 
Les Nations Unies proposent un nouveau système input/output de comptabilité nationale pour généraliser les tableaux purement économiques (dits de Léontief) de façon à intégrer progressivement l’ensemble des 17 défis éco-socio-économiques. Cette extension est nécessaire pour anticiper les cascades d’impacts multi-factoriels (écologiques, sociétaux et économiques) de toute décision aux différents niveaux territoriaux. Mais cette extension pose de redoutable problèmes pour estimer de façon fiable, durable, économique de tels tableaux, voire de valider en temps réels les impacts.
Le contexte international offre des opportunités globales efficaces pour aller dans cette direction:
a. La 2ème révolution internet apporte dès maintenant l’opportunité de partager les données comme si chacun travaillait sur le même ordinateur avec IPFS (InterPlanetary File System). Plus fondamentalement encore, elle apporte avec les Smart Contracts et la BlockChains une manière de garder une trace stigmergique non effaçable des interactions entre les individus et les groupes d’individus de toute taille: ces traces garantissent un niveau de confiance très élevé au sein de chaque Organisations Autonomes Décentralisée (OAD) créée par chaque Smarts Contracts. 
b. Pour les données individuelles et de groupes, le General Data Protection Regulation (GDPR) est un nouveau Règlement de l’Union Européenne qui rend obligatoire à partir de mai 2018 la mise à disposition de ses données personnelles à chacun. il sera donc nécessaire d’obtenir les consentements des intéressés pour utiliser (de façon anonymisées) les données qui les concernent.  La mise à disposition de leurs données dynamiques est d’une importance capitale pour la Science. Mais la publication de leurs dynamiques en interaction est aussi essentielle  i) pour des indicateurs éco-socio-économiques en “temps continu” représentant la “santé” des territoires à toutes les échelles ii) les initiatives participatives en temps réel des organisations associatives, gouvernementales et non gouvernementales et iii) des conseils personnalisés à chacun en matière d’orientation personnelle, d’éducation personnalisée ou de santé personnalisée tout au long de la vie basée sur les trajectoires multifactorielles de larges cohortes d’alter egos.
c. Pour les données relatives aux interactions entre les hommes et la nature, l’internet des objets peut jouer un rôle fondamental avec une régulation du partage organisée là aussi avec des Smart Contracts. Le  règlement GDPR s’applique aussi à l’internet des objets dont chacun dispose à la maison, à la ferme, dans les lieux de travail et dans la ville pour mieux réguler leurs dépenses, leurs approvisionnement alimentaire ou leur consommation/production en énergie.
d. Les principaux courants de la nouvelle économie (économie verte et bleue, économie sociale et solidaire, économie numérique et digitale) ont tous comme objectif de prendre en compte les multiples défis issus des 17 objectifs de l’UN. Par exemple, le dernier congrès mondial des coopératives (2 milliards de coopérateurs sur la planète) a voté son adhésion aux 17 objectifs de l’UN. 
4. Success stories
Les exemples de réussite (success stories) permettent de valider la pertinence de la construction et de l’analyse de corpus de données dans des approches systèmes complexes. 
4.1 INCALIN: optimisation de la production industrielle du Camembert
Dans le domaine de l’agro-alimentaire, le projet ANR INCALIN, sur la modélisation du Camembert, a pu à la fois atteindre un stade industriel, servir de socle au projet européen DREAM, et enfin permettre d’établir différentes thématiques de recherches fondamentales dans la communauté (modélisation interactive, exploration de tubes de viabilité, couplage visualisation/exploration/optimisation)
– Sicard, M., Perrot, N., Reuillon, R., Mesmoudi, S., Alvarez, I., Martin, S. (2012) A viability approach to control food processes: Application to a Camembert cheese ripening process. Food Control, 23, 312-319.
– Perrot, N., Baudrit, C., Trelea, I.C., Trystram, G., Bourgine, P. (2011). Modelling and analysis of complex food systems: state of the art and new trends. Trends in Food Science and Technology, 22(6), 304-314.
– Baudrit, C., Sicard, M., Wuillemin, P.H., Perrot N. (2010). Towards a global modelling of the Camembert-type cheese ripening process by coupling heterogeneous knowledge with dynamic Bayesian networks, Journal of Food Engineering, 98 (3), 283-293.
4.2 Human Problem Solving
Herbert Simon and Alan Newell for Human Problem Solving: 600 pages dont 100 dernières pour les conclusions et 500 pour les protocoles
4.3 Les états causaux musicaux
Voir les travaux de Jean-Louis Giavitto
4.4 Reconstruction et modélisation des dynamiques cellulaires dans la morphogenèse embryonnaire
Voir les travaux de l’USR3695 BioEmergences
4.5 Reconstruction et modélisation des comportements collectifs chez les insectes sociaux
Voir les travaux de Guy Théraulaz
4.6 Exploitation de données géo-spatiales hétérogènes et volumineuses pour la prise de décision
Le projet européen IQmulus (2012-2016) permet l’utilisation optimale de données géo-spatiales hétérogènes et de grand volume pour une meilleure prise de décisions. Il se fonde d’une part sur la fusion de données, et, d’autre part sur le développement de plateformes de gestion d’information et d’analyse.
4.7 Etude collaborative des évolutions territoriales à différentes échelles
Le projet Geohistoricaldata regroupe des chercheurs, dans une démarche collaborative, autour de deux objectifs : l’étude des évolutions territoriales à différentes échelles (de la parcelle cadastrale au territoire national) et la création d’outils spécialisés et flexibles permettant de traiter ces questions.
5. Références
    – Site de l’ICSU : https://www.icsu.org/
    – http://www.un.org/sustainabledevelopment/fr/objectifs-de-developpement-durable/
    –  Big Data à Découvert, eds M. Bouzeghoub et R.Mosseri, CNRS éditions, 2017
    – Dynamiques hyper symboliques: Jeffrey Jonhson et Paul Bourgine
    – Hypernetworks: Jeffrey Jonhson    
    – Digital Method Initiative: https://wiki.digitalmethods.net/Dmi/DmiAbout

 

 

 

1 reply

Trackbacks & Pingbacks

  1. […] Épistémologie formelle : des Big Data aux modèles intégrés […]

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Leave a Reply