24
L’univers des nanotechnologies nanotechnologies sur le web Franck GHITALLA, Sébastien HEYMANN Franck GHITALLA, Sébastien HEYMANN INIST-CNRS 1) Objectifs scientifiques du projet « Réseau, connaissances, controverses » 2) Méthode pour une géographie documentaire des nanotechnologies sur le web 3) Propriétés / patterns / hypothèses de l’espace de mots- clefs nanotechnologies

Boussole Nanotec Hv2

Embed Size (px)

DESCRIPTION

méthode pour une cartographie de "mots-clefs" extraits du web à propos de l'univers des nanotechnologies

Citation preview

Page 1: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Franck GHITALLA, Sébastien HEYMANNFranck GHITALLA, Sébastien HEYMANNINIST-CNRS

1) Objectifs scientifiques du projet « Réseau, connaissances, controverses »2) Méthode pour une géographie documentaire des nanotechnologies sur le web3) Propriétés / patterns / hypothèses de l’espace de mots-clefs nanotechnologies

Page 2: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

1) Objectifs scientifiques1) Objectifs scientifiquesIngénierie, Ingénierie, Network SciencesNetwork Sciences, interfaces, interfaces

Thématique de recherche : « Réseaux, Connaissances et controverses »

Objectifs :Objectifs : A) Produire une série d’hypothèses et de données expérimentales sur les controverses

scientifiques et techniques telles qu’elles se donnent sur les réseaux numériques d’information

B) Développer l’hypothèse que les controverses sont au principe d’une agrégation observable de documents de sources diverses et que ces agrégats peuvent être décrits, identifiés et recensés sur les réseaux d’information ouverts ou fermés.

C) Un projet de documentation du social à travers l’analyse qualitative et quantitative de masses d’information qui peuvent être reliées et qui pourraient montrer que les controverses scientifiques et techniques constituent un véritable milieu organique numérisé.

D) Recherche de patterns informationnels à travers l’analyse de grandes de données (web, BDD scientifiques, publications, documents numériques…).

Page 3: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Dispositif scientifiqueDispositif scientifique

A) Les controverses scientifiques et techniques constituent des objets complexes de recherche. On peut les définir comme des systèmes d’interaction dynamiques, entre des acteurs sociaux, des objets naturels ou artefactuels et des arguments théoriques ou idéologiques, révélant ainsi un état d’incertitude ou, en termes systémique, d’instabilité.

B) Décrire le mouvement de confrontation et de redistribution des frontières en termes de connaissances, d’opinions, voire de projets politiques / un problème majeur en termes d’observation scientifique : par nature, elles agglomèrent ou, au contraire, désagrègent des champs de connaissances, et parfois à grande échelle en peu de temps

C) contribuer à la construction d’un dispositif théorique et méthodologique permettant de spécifier les controverses comme objets dynamiques formels, d’en révéler les relations mutuelles éventuelles et d’en proposer à la communauté scientifique un ou plusieurs modèles théoriques / Autrement dit, sur cet aspect là du projet, il s’agit de rendre interprétables les phénomènes complexes que sont les controverses scientifiques et techniques à travers un espace de représentation et d’investigation.

D) A terme, produire une série « d’indicateurs de controverses » dans différents domaines (nanotechnologies, chimie fine, biotechnologies) (processus quali-quantitatifs)

1) Objectifs scientifiques1) Objectifs scientifiquesIngénierie, Ingénierie, Network SciencesNetwork Sciences, interfaces, interfaces

Page 4: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

1) Objectifs scientifiques1) Objectifs scientifiquesIngénierie, Ingénierie, Network SciencesNetwork Sciences, interfaces, interfaces

Approche privilégiéeApproche privilégiée

Réseaux et systèmes d’information comme vastes réservoirs de données peu exploitées / considérer l’information numérisée comme traces d’usage dans des espaces complexes, à grandes échelles, distribués et dynamiques dans le temps.

L’approche scientifique adoptée privilégie une approche par les graphes et leur visualisation pour explorer le web et les grands systèmes d’information. Les graphes représentent des pivots entre, d’une part, les données accumulées sur le web, les intranets, les BDD…et, d’autre part, les interfaces graphiques de manipulation et d’exploration.

Comme instrument d’exploration, les interfaces cartographiques à base de graphes ouvrent sur des dispositifs novateurs de visualisation et d’interaction avec les masses de données, et révèlent souvent des propriétés de corpus jusque-là inaperçues, implicites ou sous-jacentes.

Page 5: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

2) Méthode pour une géographie documentaire2) Méthode pour une géographie documentaireConcepts, indicateurs et interfacesConcepts, indicateurs et interfaces

Page 6: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Concepts et sciences des réseauxConcepts et sciences des réseauxLes systèmes d’information, les masses de données, les systèmes complexes vivants, techniques ou sociaux constituent aujourd’hui l’espace d’investigation privilégié des NetWork Sciences (cf.bibliographie).

Le web et tous les systèmes d’information peuvent être explorés comme des « E-cosystems » réglés par une évolution et des régularités fortes (strong regularities). Distribution des contenus, structure hyperliée, traces d’usage, interactions entre composants s’y mêlent à titre de dimensions constitutives, sans oublier les « lois d’expansion » qui les gouvernent (network dynamics).

La visualisation de graphes relationnels et la manipulation de leurs dimensions permettent de produire des « vues » originales sur les données. En particulier, il s’agit d’identifier des patterns statistiques ou des saillances visuelles associées aux corpus explorés. C’est le principe d’une géographie de l’information nourrie de problématiques théoriques en Network Sciences et qu’il s’agit en même temps de rendre tangible à des usagers (knowledge mapping tools).

Distances, Densité, diamètreModèles topologiques, power-law, random/regular graphs

Hubs/Authorities, structure d’agrégat

Clusters, hiérarchies et rankingVoisinage, centralité/périphérie, inclusion

Communautés compétitives

Corrélation contenu/structureTopical localitiesfocus crawling

Dynamics/evolution of networksTopic Detection and Tracking (TDT)Time Series vizualisation/graphical tracking of information flow

2) Méthode pour une géographie documentaire2) Méthode pour une géographie documentaireConcepts, indicateurs et interfacesConcepts, indicateurs et interfaces

Page 7: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Méthode et « indicateurs de controverses »Méthode et « indicateurs de controverses »

2) Méthode pour une géographie documentaire2) Méthode pour une géographie documentaireConcepts, indicateurs et interfacesConcepts, indicateurs et interfaces

Construction des indicateurs de controverses en croisant de méthodes et d’outils de traitement quantitatif des données documentaires (statistiques, bibliométriques, analyse automatisée des contenus, procédés de classification…) et de méthodes et d’outils de traitement qualitatif (outils et procédés de veille, capitalisation des expertises, techniques de constitution de corpus, construction de frontières de corpus documentaires, annotation et production de méta-données manuelles, qualification des sources…).

Page 8: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Interfaces, données et exploration Interfaces, données et exploration de corpusde corpus

processus d'exploration de grande masses de données

synthèse de l'information mais aussi, parallèlement, d'exploration dynamiques des données.

production d'interfaces cartographiques l'ensemble de la chaîne qui constituent les systèmes d'information : outils et

méthodes d'extraction des données (crawlers, A.P.I., recueil manuel et semi-automatique...), archivage et indexation des

données, algorithmes et filtres de traitement.

processus supervisé d'exploration et de transformations successives de données où alterneront phases de synthèse

et de phases de manipulation orientées vers la recherche de patterns robustes.

2) Méthode pour une géographie documentaire2) Méthode pour une géographie documentaireConcepts, indicateurs et interfacesConcepts, indicateurs et interfaces

Page 9: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

2) Méthode pour une géographie documentaire2) Méthode pour une géographie documentaireConcepts, indicateurs et interfacesConcepts, indicateurs et interfaces

Interfaces et classes de cartographies de l’informationInterfaces, spatialisation et production de vues sur les données

Différents types de données (gènes, réseaux sociaux, mots-clefs, publications scientifiques…)

Différents types de méthodes de traitement (classement et hiérarchisation des données, recherche de clusters…)

Différents types de cartographies (imprimables et papier, numérisées, dynamiques et en ligne…)

Page 10: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

3) Propriétés, patterns, hypothèses 3) Propriétés, patterns, hypothèses

Page 11: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

SISmap- « mapping de controverses Science In Society » - 2006

6760 mots-clefs pertinents extraits de plus de 240.000 URL (pages) via les A.P.I. EXALEAD.Ce corpus constitué en 3 phases d’expansion : de 130 mots-clefs (par exemple OGM, nanotechnologies, gènes, recyclage, etc.) il a été étendu à 940, puis à 6760 en dernière phase / extansion quantitative – contrôle qualitatif manuel113 clusters distincts (méthode de clustering automatique) ou « 113 Thématiques SIS sur le web francophone »

Les liens font apparaître des « degrés de vocabulaire partagé » (réseau d’arguments partagés ou d’affinités entre controverses / la notion de système des controverses SIS)

graphe de 26787 sites web a été produit et directement corrélé à cette cartographie

Page 12: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Les A.P.I. (Application Programming Interface)

Page 13: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Pattern 1 : des univers séparés?Pattern 1 : des univers séparés?

Institutions politiques locales, nationales et internationales, économie, droit, processus

délibératifs

instituts

Laboratoires, universités et institutions de recherches /

instituts

« Arc des Sciences »

Industries pharmaceutiques Nutrition, alimentation, cosmétiques

Biologie / génétique

Biochimie

Chimie, appliquée et fondamentale

Physique

Transfert de technologiePôle grenoblois

Physique et mécanique quantique

IA / électronique

Matériaux / ondes et magnétisme

Métrologie

Informatique / systèmes embarqués

Santé publique / professionnels de la

santé

Propriété intellectuelle / droit / économie

Environnement / Nature / changement climatique

Secteurs des énergies fossiles et renouvelables

OGM

Page 14: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Pattern 1 : des univers séparés?Pattern 1 : des univers séparés?

Domaines scientifiques, institutions et laboratoires de recherche, applications industrielles

Institutions politiques (locales, nationales, européennes), société civile, droit, débat,

gestion du risque

Page 15: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Pattern 2 : un univers de science et d’abstractionPattern 2 : un univers de science et d’abstraction

- « l’arc » des disciplines scientifiques et des techniquesprésence en grand nombre des institutions publiques de recherchedes origines anglo-saxonnes ?- l’enjeu des connaissances et des mesuresChaîne production des connaissances/innovations technologiques/métrologie et contrôle de l’infiniment petit/applicationsabstraction élevée du vocabulairel’univers des bases de données et des systèmes d’information- la place de l’imaginaireparfois nouveauté du vocabulaire (ex. « nanodesign », « effet tunnel »…)présence d’œuvres de fiction (B.D., S.F., jeux vidéos…)

Le cluster « Pétrole et marée noire » dans le

projet SIS-map

Page 16: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Pattern 3 : géographie conceptuelle à multiples dimensionsPattern 3 : géographie conceptuelle à multiples dimensions

environnementespace naturelmilieu natureldiversite genetiqueetres vivantsespece humaineorganisme vivantair ambiant

esperance de viesante humainehabitants de la planetedroit humainchaine alimentairecorps humainpersonne physiquelobe frontalcerveau humaincortex cerebral

langage naturelintelligence humaineintelligence animalepensee humaine

Environnement

Corps

Pensée

Page 17: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Pattern 4 : « des » controverses potentielles : le Pattern 4 : « des » controverses potentielles : le corpscorps, , l’environnementl’environnement, le , le citoyencitoyen

instituts

OGMManipulation du vivant

Déchets industriels etenvironnement

Intelligence embarquée ettraçabilité

santé etProduits industriels

Page 18: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Pattern 5 : acteurs et organisation (réseaux sociaux)Pattern 5 : acteurs et organisation (réseaux sociaux)

Page 19: Boussole Nanotec Hv2

Nanotechnologies« boussole conceptuelle »

Chimie Fondamentale

Chimie Appliquée

Biochimie

Biologie-Génétique

Mécanique Quantique

Ondes Magnétisme Electricité

Robotique

Métrologie Mesures Observations

Physique

Intelligence Artificielle

Systèmes Informatiques

Institutions Laboratoires Recherche

Instituts Nanotechnologies

Pôle grenobloisCSTI

Transfert Technologique

Energies Renouvelables Alternatives

Energie Nucléaire CEA

Pétrole Energies Fossiles

Déchets

Danger Nucléaire Civil

Nucléaire Militaire

Danger Nucléaire Militaire

Défense Armées

Prévention Gestion Risque

Institutions Acteurs Politiques

Propriété Intellectuelle Brevets

Bonnes Pratiques

Santé Publique

Professionnels SantéOGM

Industries Pharmaceutiques

Médecines Douces

Aliments Soins Cosmétiques

L’univers des nanotechnologiesnanotechnologies sur le web

santé etProduits industriels

Intelligence embarquée ettraçabilité

Déchets industriels etenvironnement

Page 20: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Types possibles d’indicateurs de controverses à l’échelle d’un système

Page 21: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Ouvrages de référence en Ouvrages de référence en Network Network SciencesSciences

Cadres conceptuelsA.-L. BARABASI linked - the new science of networks, new ed. 2005.M. BUCHANAN -Nexus, Small Worlds and the groundbreaking Theory of Networks 2003.

Théorie des graphesD. WATTS six degrees - the science of a connected age, 2004.S. STROGATZ - sync: the emerging science of spontaneous order, 2004.M. NEWMAN - the structure and dynamics of networks, 2003.

Web-MiningS. CHAKRABARTI mining the web, 2002.J. KLEINBERG - algorithm design, 2006.

InfoVizB. SHNEIDERMAN - readings in information visualization: using vision to think, 1999.

Page 22: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Ouvrages collectifsLa Navigation, F. Ghitalla (sous la dir.), Les Cahiers du Numérique, Hermès Editions, Paris, 2003L’Outre Lecture, Manipuler, s'approprier, interpréter le web, F. Ghitalla, D. Boullier, A. Neau, L. Le Douarin, P. Guoskhou, Coll. Etudes et Recherches, Bibliothèque Publique d'Information - Centre Georges Pompidou, Paris, 2004.

Articles publiés (Computer Sciences)« Automated Metadata Hierarchy Derivation », Amjad Abou Assali, Hugo Zanghi, Proceedings of IEEE ICTTA06, Damascus, Syria, 2006.« Extracting and Exploring Aggregates of Web documents with Experimental Visualisation Tools », Franck Ghitalla, Fabien Pfaender, Camille Maussang, Conférence EUROPIA-10, 12-14 september 2005, Damascus, Syria« TARENTe: an Experimental Tool for Extracting and Exploring Web Aggregates », Franck Ghitalla, Eustache Diemert, Camille Maussang, Fabien Pfaender, Conférence ICTTA-04, IEEE International Conference on Information & Communication Technologies : From Theory to Applications, Damascus, Syria, march 2004.« Des documents, des liens et des acteurs », Franck Ghitalla, Alain Le Berre, Matthieu Renault, Conférence H2PTM, 2005.« La naissance d'une géographie du web ? », F. Ghitalla, sous la rédaction en chef de Jean-Marc Darrigol – YAHOO !-France, AAE Ensimag – N°42 – Janvier 2009.« Two Visions of the Web, from globality to localities », Fabien Pfaender, Mathieu Jacomy, Guilhem Fouetillou, Proceedings of IEEE ICTTA06, Damascus, Syria, 2006.« Explorer et appréhender le web », Fabien Pfaender, Mathieu Jacomy, 13e journées de Rochebrune : Rencontres interdisciplinaires sur les systèmes complexes naturels et artificiels, ENST 2006 S001, 2006.

Articles publiés (SHS)« Questions autour de l’archivage du Web », Franck Ghitalla, Les Nouveaux Cahiers de l’Audiovisuel, n°5 juin-juillet 2005, Institut National de l’Audiovisuel.« Le Web ou l'utopie d'un espace documentaire », Franck Ghitalla, Dominique Boullier, revue 3I, 2004.« Les Territoires de l'Information : navigation et construction des espaces de compréhension sur le web, Franck Ghitalla, Charles Lenay, présenté au Congrès de l'ARCO (Association pour la Recherche en sciences COgnitives) à Lyon en dec. 2001 et publié dans « La Navigation », Les Cahiers du Numérique, Hermès Editions, Paris, 2003.« L'Age des Cartes Electroniques : outils graphiques de navigation sur le web », Franck Ghitalla, Communication et Langages n°131, Armand Colin, Paris, 2002.« Arpenter le web : liens, indices, cartes », Franck Ghitalla, Terminal n°86, Hiver 2001-2002, L'Harmattan, Paris.« L'espace du document numérique », Franck Ghitalla, Communication et Langages, n°126, Armand Colin, dec. 2000.« Ecriture et NTIC », Franck Ghitalla, Communication et Langages, n°119, Editions Retz, 1999.

White Papers« Cartographie Web du domaine de la coopération Nord-Sud autour des TICE », Alain Le Berre, Mathieu Jacomy, Franck Ghitalla, 2004« Du nuage aux abymes, Dimensions heuristique et expérimentale des modèles web », F. Ghitalla, 2009.« L'atelier de cartographie », F. Ghitalla, 2008.« Détection et visualisation d’agrégats de documents web : L’exemple du domaine thématique de la Culture Scientifique, Technique et Industrielle », F. Ghitalla, M. Jacomy, F. Pfaender, 2006.« Panorama de la Culture Scientifique et Technique sur le Web », M. Jacomy, Extrait du rapport de l'étude WebCSTI - LUTIN, 2005.« La géographie des agrégats de documents sur le web », Franck Ghitalla, 2004. « Du web à l’idée du Web », Sébastien Heymann, 2008 (web-mining.fr)« Moteur de recherche et Compétition », Sébastien Heymann, 2009 (web-mining.fr)

Références / publicationsRéférences / publications

Page 23: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Dispositifs/développement technologiqueDispositifs/développement technologique

Le Navicrawlerlogiciel libre sous license GPL 3. Version 1.53 : http://webatlas.fr/index.php?option=com_content&view=article&id=56:navicrawler&catid=46:presentations&Itemid=74

GEPHIThe Gephi team will present a demo paper at the ICWSM 2009, 3rd Int’l AAAI Conference on Weblogs and Social Media conference (San Francisco, May 2009).The Gephi project has been selected by Google to be part of the Summer of Code 2009 (GSoC).Paper: Gephi : An Open Source Software for Exploring and Manipulating Networks.Gephi 0.6 Beta2 released : http://gephi.org/

MAGELLAN Web Searchhttp://www.magellan-project.com/

RTGI Innovative Web Technologies (Linkfluence)http://www.wahlradar.de/map/http://linkfluence.net/?lang=frhttp://rtgi.fr/

EXALEAD Laboratories – Innovatives Web Technologieshttp://constellations.labs.exalead.com/?q=gephi&nhits=50&lang=enhttp://labs.exalead.com/

MEDIA-LAB – Sciences-Pohttp://medialab.sciences-po.fr/

Page 24: Boussole Nanotec Hv2

L’univers des nanotechnologiesnanotechnologies sur le web

Franck GHITALLA, Sébastien HEYMANNFranck GHITALLA, Sébastien HEYMANNINIST-CNRS