27
Sciences des Données: enjeux, opportunités et défis Nozha Boujemaa Directrice de Recherche Inria Conseillère du PDG d’Inria en Big Data Membre du “Board Of Directors” de BDVA Décembre 2013 AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Sciences des Données: enjeux, opportunités et défis · Sciences des Données: enjeux, opportunités et défis ... AllEnvi–Rencontres Scientifiques –4 Juillet ... Avec le développement

  • Upload
    lamdang

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Sciences des Données: enjeux, opportunités et défis

Nozha BoujemaaDirectrice de Recherche InriaConseillère du PDG d’Inria en Big DataMembre du “Board Of Directors” de BDVA

Décembre 2013AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Introduction

Emergence of Big Data Technologies

Convergence of three factors:

• Data Tsunami

• Affordable/Powerful Computing Facilities, including open-

source software framework)

• Advanced Machine Learning algorithms and paradigms, mainly • Advanced Machine Learning algorithms and paradigms, mainly

« Deep Learning » registering significant performance gain

(about 15% wrt SoA techniques since 2 years)

These are enablers for Artificial Intelligence (AI) capabilities

From « Data Analytics » to « Cognitive Systems »

- 3N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Focus of data analytics is changing –From description of past to decision support

Valu

e a

nd c

om

ple

xity

Inform

Analyze

Act

DescriptiveDiagnostic

Predictive

Prescriptive

Valu

e a

nd c

om

ple

xity

Descriptive

Examples

– Plant operation report

– Fault report

What happened?

– Alarm management

– Root cause identification

Why did it happen?

– Power consumption prediction

– Fault prediction

What will happen?

– Operation point optimization

– Load balancing

What shall we do?

Gartner 2013 - N. Gauss/Siemens - 2015

N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Transformation numérique centrée-données La recherche et l'innovation par les données ont permis le

développement d’une économie entièrement nouvelle qui bouleverse le fonctionnement de nos organisations

Tout est centré sur « la donnée »• Science de la donnée• Économie de la donnée• Propriété de la donnée• Organisation de la société

- 5

• Organisation de la société

Les acteurs historiques d’un métier n’ont plus la garantie de le rester: transport, assurance, véhicule connecté, hôtellerie

Les algorithmes et les données sont partout!

Un prérequis: la dualité données-algorithmes

Un verrou: la confiance !

N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Applications envisagées et croissance prévueQuelques domaines d’application phares:

• Marketing digital/CRM, analyse de traces pour ciblage

publicitaire, recommandations

• Industrie 4.0 et Urbanisation: maintenance prédictive (véhicule

connecté, etc), logistique, « Smart Cities », « Smart

Factories », « Smart-Home », Energie

• Santé: aide au diagnostic médical, épidémiologie, etc• Santé: aide au diagnostic médical, épidémiologie, etc

• Environnement: Observation de la Terre, optimisation des

ressources naturelles, Biodiversité

• Sécurité: détection de signaux faibles

• Finance, Assurance

• Plateformes de services en ligne: achat

- 6N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

ChallengesChallenges

N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

5 Pilars for Data Science*1- Data Management: unstructured and semi-structured

Semantic interoperability of heterogeneous sources and representations,

Data quality, Data provenance,

2- Data Processing Architecture :

Scalability, Decentralization (Cloud/Fog etc), Low-energy consumption

3- Data Analytics:

Semantic Analysis, Content Validation, Predictive/Presciptive Analytics

4- Data Protection:

Privacy-enhancing models and techniques, Robusteness against

reversibility

5- Data Visualization:

Interactive visual analytics, Collaborative, Cross-platform data frameworks

* Inspired by BDVA SRIA technical priorities

- 8N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Challenges for Data Science1- Progressive user-centric analytics

• What – Having analytics technology targeting the user

needs and expectations, allowing the user to drive the

analytics process effortlessly

real-time analytics and decision making

interactive mining, learning, visualization

- 9

On-line learning with few examples

user modeling and user intention models

• Why – Seamless cooperation between the machine and

the analysts will facilitate the adoption of big data

technology and the semantic effectiveness

N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Challenges for Data Science2- Processing Architecture & Big Data,

Optimized Architecture for energy consumption reduction

Utilization within Embedded-Systems

Less dependent to remote computing facilities (Cloud/Data

Centers)Centers)

Specialized Processors, GAFAM still pioneers: Google first

announced such optimized architecture for TensorFlow (Its

Open-Source Machine Learning Library) => Not for sale!

- 10N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Challenges for Data Science3- Responsible/Ethical Data Management and Analytics

• Asymmetry of information between citizens and public authorities on one hand and private companies on the other hand with respect to collection and processing of personal data.

• This asymmetry creates a mistrust: fueled by hidden data • This asymmetry creates a mistrust: fueled by hidden data usages, dissemination practices escaping the control of individuals, business models based on data over-collection – the whole framed by an obsolete regulation.

• Consensus is emerging to develop methods and Tools to build Trust & Transparency for Data and Algorithms fostering accountability and loyalty

N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Challenges for Data Science3- Responsible/Ethical Data Management and Analytics

1. Trust and Transparency of data (Provenance): What

information/data was used and where does it come from?

Governance of data chain, who owns what, who can

make value of what?make value of what?

2. Trust and Transparency of data used and produced by

algorithms (Control) : What data comes in and out of

algorithms which are used in the big data pipeline?

N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Challenges for Data Science3- Responsible/Ethical Data Management and Analytics3- Trust and Transparency of computer-aided decision-

making process (decision responsibility): What are the

different criteria/steps/settings that have led to the specific

decision in order to understand the global path for the

reasoning?reasoning?

“How can I trust Machine Learning prediction?” it

happens to build the model of the pattern context

rather the pattern itself

Decision explanation and tractability

Robustness to bias/diversion/corruption

N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Challenges for Data Science3- Responsible/Ethical Data Management and Analytics

• Consultation récente menée par le CGE missionné par le cabinet d’Axelle Lemaire (loi pour la république numérique)

=> Plateforme de test des algorithmes en vue de leur régulation/gouvernance, endiscussion

• Très peu de travaux en France et en Europe sur le sujet. Un des aspects a été abordé dans le projet CNIL-Inria Mobiliticsété abordé dans le projet CNIL-Inria Mobilitics

• « Best practices » dans un groupe franco-allemand (AFNOR/DIN)

• « Data Transparency Lab » depuis 1 an (MIT, Telefonica et Mozilla au board+ Inria et Columbia en cours). Il est envisagé qu’Inria organise DTL’2017 à Paris

--- Concernant la Blockchain* : techno énergivore et ne passe pas à l’échelle pour l’instant => prudence déploiement selon cas d’usages (*Tiers de confiance ou confiance répartie)

- 14N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Transparency tools of data & algorithms is essential for trust and appropriation in Big Data technologies

Tools to empower the citizen

Challenges for Data Science3- Responsible/Ethical Data Management and Analytics

- 15

Tools to empower the citizen

Tolls for the regulator for law application (avoid discrimination, foster: fairness, neutrality, accountability etc)

Transparency competitive advantage?

N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

Challenges for Data Science4- AOB

• Interdisciplinary Issues: Data-Driven Digital Transformation

present not only Technological Challenges but also from

other perspectives such as Data Economy, Law, Ethics, etc

totally interdependent nowadays in all sectors

Before hand: lots to do with joint mathematics and computer science Before hand: lots to do with joint mathematics and computer science

investigations

• Skills & Interdisciplinary Training

• Standardisation/Best Practices: AFNOR/DIN, ISO, BSI,

NIST, IEEE … coordination on the way

- 16N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016

http://www.plantnet-project.org/

Une initiative de science citoyennedédiée à l’identification des plantes

et auet ausuivi de la biodiversité végétale

Responsables:Boujemaa N. (Inria)

Barthélémy D. (Cirad, Inra)

Joly A. (Resp. Sc., Inria)Bonnet P. (Coord., Cirad)

• Climate change is arguably the biggest environmental challenge to agricultural production and food security that we currently face

It has and will have a major social and economic impact over the coming decades

© Greenpeace / Beltra

• Dramatic increase of world

population : 6 billions of people in 2010

(“1 billion with undernourishment!”)

=> 9 billions in 2050

Increase in food demand

New, sustainable sustainable ways of production

(more and better)

Produce differently

(most of thepopulation inTowns)

Impact on biodiversity and environmentInvasive introduced species are related to

human activities :

In the UK, it is estimated that Japanese knotweed (introduced in the late 19th century)cost 165 million €/year to the community

unicellular toxic algae in Norway (with 8.2 million €/year)

Water Hyacinth in Spain (3.4 million €/year)

35% of the global food production depends on pollinators activity(estimated at 153 billions €/year).

At the world level, weeds induce a loss of 35% in yields (FAO report).

Bringing together wild vs cultivated biodiversity, and agronomical vsenvironmental research and knowledge

Contexte scientifique et technologique

L’identification des plantes reste un verrou majeurpour l’accumulation et la diffusion de connaissancessur les plantes

Aussi bien pour les professionnels que les amateurs,et cela d’autant plus dans les régions Tropicales etMéditerranéennesMéditerranéennes

Avec le développement des réseaux sociaux, des capteurs mobiles et des sciences participatives, de nouvelles formes d’intéractions science / société deviennent possibles

Mots-clés: Biodiversité, Informatique, Echange et fouille de données, Validation des données, Nomadisme numérique, Contenus multimédias, Recherche d’information, Science citoyenne.

Accurate knowledge of plants is essential for sustainable agriculture and biodiversity conservation

Botanical data are: decentralized and heterogeneous complex (un-structured tags, empirical measurements,…)

sparse and incomplete huge & unknown number of species “long tail distribution” (1 record per species !)

# data# data

# species

22

Data

Plant identification

Collaborative Information Systems, basedon Crowdsourcing multimedia

Multimedia IR & Identification Tools& Mobile tech.

Pl@ntNet-mobile apps

Maurice / Antilles / Andes / Af. tropicale

300 000 images

Pls milliers d’espèces

France / Oc. Indien / Guyane / Af. du Nord

235 000 images

6 100 espèces

Version publique

Image sharing and retrieval app for plant identification Shared observations (Creative Commons)

Pl@ntNet Workflow

?

Web

IdentiPlante

Collaborative validation and

annotation

Response

Contribution

Joly & al., 2015 Look inside the Pl@ntNet experience. Multimedia Systems

Deeplearning

QuerySearch

Indexation

Maestro / IKONA / SnoopIm

PictoFlora

Response

Fouille dedonnées visuelles

Cercle vertueux

L’approche: un workflow innovant basé sur l’agrégation de

données par la masse, et la mise en place d’une boucle

rétroactive positive.

Scalable CBIR based on high-dimensional data hashing [A. Joly et al., 2011-2015] LifeClef challenges, [A. Joly et al., 2011-2015]

Collaborative annotation tools & citizen sciences initiatives [P. Bonnet, H. Goëau et al., 2013-2015]

Gamified crowdsourcing, [M. Servajean, 2016?]

Plant identification mobile apps, [H. Goëau et al., 2013-2014]

Large communauté d’usagers

1,82 M users / 11,5 M sessions2,6 K utilisateurs/jour été 20146-11 K utilisateurs/jour été 2015

10-50 K utilisateurs/jour 2016

150 Pays

26

Thank you for your attention

[email protected]

- 27N. Boujemaa - Syntec Numérique - Matinée Big Data - 16 Juin 2016