8
30/06/13 10:11 Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos Page 1 sur 8 http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle 1 Tweeter Tweeter 22 Like 13 28/02/2013 | Bruno TEBOUL | Tendances-innovation | Tribune | Lu 2265 fois | aucun commentaire Data Scientist: le job le plus sexy du 21ème siècle ? LE CERCLE. Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The Sexiest Job of the 21st Century de Thomas H.Davenport (Professor à la Harvard Business school) et D.J Pati (Data Scientist pour Greylock Partners)". Tout d’abord, attardons-nous un peu sur le titre de l’article qui peut surpendre pour un article de la HBR et semble quelque peu exagéré voire galvaudé tant l’oxymoron formé par « scientist » et « sexiest » est perceptible, excessif voire « cousu de fil blanc ». En effet, l’archétype du scientifique comme du geek et sa représentation ne correspond pas vraiment à une description glamour ou sexy, mais c’est plutôt aux antipodes que nous renvoie l’opinion publique à propos des geeksCertes, les auteurs jouent sur ce paradoxe pour réhabiliter l’image du technico-scientifique, qu’est le Data Scientist et ainsi accélérer également son intégration, sa réhabilitation au sein des entreprises américaines plus ouvertes semble-t-il à ce type de profils, surtout en Californie. A la différence de l’entreprise française, lieu où les mathématiciens, statisticiens, économètres et autres linguistes souffrent d’un déficit d’image certain et de préjugés encore aujourd’hui. Sans détour, ni langue de bois, nous pouvons affirmer que les DRH ont toujours autant de réticence et d’appréhension envers les universitaires (docteurs), les polytechniciens, les normaliens (mises à part quelques groupes dans l’industrie ou les Telcos) plutôt qu’à l’égard des Centraliens, HEC, ESSEC, ESCP, Sciences Po ou même Enarques. A une certaine époque, on pouvait argumenter en disant que nos docteurs, nos X, ou nos normaliens étaient peu ou prou préparés au monde du travail et notamment au secteur privé. L’Université, l’Ecole Polytechnique et la Rue d’Ulm ont déployé beaucoup d’efforts pédagogiques et financiers ces dernières années pour permettre à leurs diplômés d’être connectés voire immergés en entreprise au cours de leur cursus d’excellence et ainsi pouvoir « sortir de leur laboratoire », « quitter leur paillasse » pour comprendre les enjeux business, le management... Mais pour autant la « force du préjugé » demeure. Un autre facteur d’influence négatif relayé largement par les médias explique le désarroi des recruteurs face aux profils de scientifiques. En effet, depuis le scandale de la crise financière, des bulles spéculatives liées à l’utilisation des mathématiques appliquées au monde de la finance et des marchés boursiers. Le monde des « matheux » s’est vu assimilé à la dérive des mathématiques appliquées au service d’une spéculation folle qui a conduit à la crise actuelle. Nombre de traders pris dans la tourmente de cette dérive spéculative et de ses conséquences funestes furent très médiatisés et accusés de détourner les mathématiques au service de la cupidité. Et l’on a longtemps considéré que les mathématiques, par la complexité et les lacunes de leurs formules d'évaluation du risque, furent largement responsables de la crise financière qui a secoué le monde à partir de septembre 2008. L’école française de mathématique fut mise en cause directement car les étudiants de ces cursus spécialisés en mathématiques financières ont offert une caution scientifique à des règles du jeu pathogènes. Nicole El Karoui, RECHERCHER SUR LE CERCLE Mots-Clés Auteur ENTREPRENEUR TENDANCES-INNOVATION Share Share 34 ÉCRIT PAR Bruno TEBOUL PhD Candidate. Université Paris Dauphine. VOIR SON PROFIL SES 3 DERNIERS ARTICLES 05/04/2013 | 20:33 Text Mining, Sentiment Analysis, Big Data. 15/03/2013 | 17:07 "Big Ads" ou le déluge publicitaire12/03/2013 | 12:04 Big Data: une révolution managériale ? TOUS SES ARTICLES PUBLIEZ VOS ARTICLES BONJOUR BRUNO TEBOUL Déconnexion PUBLIER UNE CONTRIBUTION Mon profil public Mon compte Modifier mon profil Mode d'emploi LE CERCLE LES ECHOS SUR TWITTER

Data scientist: le job le plus sexy du 21ème siècle

Embed Size (px)

DESCRIPTION

Article publié sur le site LesEchos.fr: Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The Sexiest Job of the 21st Century de Thomas H.Davenport (Professor à la Harvard Business school) et D.J Pati (Data Scientist pour Greylock Partners)".

Citation preview

Page 1: Data scientist: le job le plus sexy du 21ème siècle

30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos

Page 1 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle

1 TweeterTweeter 22 Like 13

28/02/2013 | Bruno TEBOUL | Tendances-innovation | Tribune | Lu 2265 fois | aucun commentaire

Data Scientist: le job le plus sexy du 21èmesiècle ?LE CERCLE. Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The SexiestJob of the 21st Century de Thomas H.Davenport (Professor à la Harvard Business school) et D.JPati (Data Scientist pour Greylock Partners)".

Tout d’abord, attardons-nous un peu sur le titre de l’article qui peutsurpendre pour un article de la HBR et semble quelque peu exagéré voiregalvaudé tant l’oxymoron formé par « scientist » et « sexiest » estperceptible, excessif voire « cousu de fil blanc ».

En effet, l’archétype du scientifique comme du geek et sa représentation necorrespond pas vraiment à une description glamour ou sexy, mais c’estplutôt aux antipodes que nous renvoie l’opinion publique à propos desgeeks…

Certes, les auteurs jouent sur ce paradoxe pour réhabiliter l’image dutechnico-scientifique, qu’est le Data Scientist et ainsi accélérer égalementson intégration, sa réhabilitation au sein des entreprises américaines plusouvertes semble-t-il à ce type de profils, surtout en Californie.A la différence de l’entreprise française, lieu où les mathématiciens,statisticiens, économètres et autres linguistes souffrent d’un déficit d’imagecertain et de préjugés encore aujourd’hui. Sans détour, ni langue de bois,nous pouvons affirmer que les DRH ont toujours autant de réticence etd’appréhension envers les universitaires (docteurs), les polytechniciens, lesnormaliens (mises à part quelques groupes dans l’industrie ou les Telcos)plutôt qu’à l’égard des Centraliens, HEC, ESSEC, ESCP, Sciences Po oumême Enarques. A une certaine époque, on pouvait argumenter en disantque nos docteurs, nos X, ou nos normaliens étaient peu ou prou préparés au monde du travail et notamment ausecteur privé. L’Université, l’Ecole Polytechnique et la Rue d’Ulm ont déployé beaucoup d’efforts pédagogiques etfinanciers ces dernières années pour permettre à leurs diplômés d’être connectés voire immergés en entrepriseau cours de leur cursus d’excellence et ainsi pouvoir « sortir de leur laboratoire », « quitter leur paillasse » pourcomprendre les enjeux business, le management... Mais pour autant la « force du préjugé » demeure.

Un autre facteur d’influence négatif relayé largement par les médias explique le désarroi des recruteurs face auxprofils de scientifiques. En effet, depuis le scandale de la crise financière, des bulles spéculatives liées àl’utilisation des mathématiques appliquées au monde de la finance et des marchés boursiers. Le monde des «matheux » s’est vu assimilé à la dérive des mathématiques appliquées au service d’une spéculation folle qui aconduit à la crise actuelle. Nombre de traders pris dans la tourmente de cette dérive spéculative et de sesconséquences funestes furent très médiatisés et accusés de détourner les mathématiques au service de lacupidité. Et l’on a longtemps considéré que les mathématiques, par la complexité et les lacunes de leurs formulesd'évaluation du risque, furent largement responsables de la crise financière qui a secoué le monde à partir deseptembre 2008.

L’école française de mathématique fut mise en cause directement car les étudiants de ces cursus spécialisés enmathématiques financières ont offert une caution scientifique à des règles du jeu pathogènes. Nicole El Karoui,

RECHERCHER SUR LE CERCLE

Mots-Clés Auteur

ENTREPRENEURTENDANCES-INNOVATION

ShareShare 34

ÉCRIT PAR

Bruno TEBOULPhD Candidate.Université ParisDauphine.

VOIR SONPROFIL

SES 3 DERNIERS ARTICLES

05/04/2013 | 20:33Text Mining, Sentiment Analysis, Big Data.

15/03/2013 | 17:07"Big Ads" ou le déluge publicitaire…

12/03/2013 | 12:04Big Data: une révolution managériale ?

TOUS SES ARTICLES

PUBLIEZ VOS ARTICLES

BONJOUR BRUNO TEBOULDéconnexion

PUBLIER UNE CONTRIBUTION

Mon profil publicMon compteModifier mon profilMode d'emploi

LE CERCLE LES ECHOS SUR TWITTER

Page 2: Data scientist: le job le plus sexy du 21ème siècle

30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos

Page 2 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle

professeur de mathématiques appliquées et responsable du Mastère Probabilités et Finances co-délivré parl’université Paris VI et l’École Polytechnique fut mise en cause personnellement, car c’est de son mastère quesont sortis bon nombre des « quants » (quantitative analysts) qui ont ensuite gravi les échelons du « trading »dans les grandes banques comme Goldman Sachs, Lehman Brothers, BNP Paribas ou la Société Générale, ainsique dans les agences de notation et les Hedge Funds. Le Professseur El Karoui rappelle pour sa défense que lerôle de l’analyse mathématique appliquée à la finance est « une simple aide à la décision, comme un ordinateur.Il faut que chacun prenne ses responsabilités. Observez bien la sociologie des banques, vous verrez que ce nesont pas les mathématiciens qui décident. Nous avions tous averti que le risque lié aux dérivés de crédit (CDO etCDS) augmenterait de manière non linéaire en fonction de la quantité d’opérations, mais qui nous a écoutés ?Face à la cupidité, ce qui a manqué le plus, ce ne sont pas les modèles, c’est le pragmatisme et le bon sens ».La presse du monde entier s’est alors déchaînée sur les matheux, du Wall Street Journal au Monde en passantpar le magazine Wired.

Pour l’accusation, les ingénieurs financiers formés à la française ont contribué à pousser vers l’abîme la financeaméricaine puis, par contagion, la finance mondiale, en proposant aux dirigeants de ces institutions des modèlesmathématiques qui étaient censés neutraliser le risque contenu dans les produits financiers, et qui n’ont pas tenuleurs promesses. Car la crise de la fin des années 2000 a bien été déclenchée par une innovation des années90, le dérivé de crédit, un produit dérivé dont le sous-jacent est une créance ou un titre représentatif d’unecréance (obligation).CF article de Felix Salmon dans Wired le 23/02/09 “Recipe for Disaster: The Formula That Killed Wall Street” (icila fameuse “fonction gaussienne de copule de David X.Li). L'article proposait une séduisante formule pourestimer les risques liés aux investissements hypothécaires. L'évaluation de ces risques a toujours été unproblème insoluble, parce que les corrélations entre les décisions individuelles, les variations des marchés, leschangements de valeurs des immeubles suites à des transformations de l'environnement rural ou urbaintransforme la science des corrélations des investissements à risques en une science appliquée très incertaine etdont les effets seront dévastateurs. Comme ne pas penser et évoquer ici le postulat de la Théorie du Chaos («l’effet papillon ») et donc de la dépendance sensitive aux conditions initiales : une très petite variation quantitativelocale (de l’ordre d’un dixième de un pourcent) peut provoquer de grandes modifications qualitatives surl’ensemble de l’évolution du système. C’est ce que Lorenz a illustré dans une conférence en 1979 dont le titreétait « Predictability: does the flap of a butterfly’s wing in Brazil set off a tornado in Texas?. Il semble que leconfort adopté par la finance en matière de modélisation emprunte de physique brownienne soit mise à mal etsans doute beaucoup trop controversée pour perdurer… La formule de Li offrait pourtant une brillantesimplification et permettait d'attribuer un simple coefficient de risque sur les investissements basé sur les prix d'uninstrument financier connu en anglais sous l’acronyme CDS (Credit Default Swap) qui signifie « garanties contreles cessations de paiement ». Mais au lieu d'étudier les variations de taux de cessations de paiement commebase pour évaluer les risques, les compagnies financières utilisèrent les variations du prix des CDS comme based'évaluation des risques, en postulant que si les cessations de paiement augmentent, le prix des CDSaugmenterait aussi. Ils oubliaient un détail: les données dont ils disposaient reposaient sur une période historiqueoù les prix de l'immobilier avaient toujours été à la hausse ! Le résultat, on le connait : la formule de Li a permisde donner une qualification de triple A (investissements sans risques) à des fonds hypothécaires qui neméritaient pas cette notation et qui entraîna inévitablement le fameux boom immobilier: à la fin de 2001, il existaitun marché des CDS évalué à 920 milliards de dollars. A la fin de 2007, le chiffre avait explosé dépassant les 60000 milliards de dollars.

Dès lors, nous considérons que la comparaison qu’opèrent Devenport et Patil entre les « Quants » et les DataScientist est plutôt malheureuse, car les « Quants » ont cristallisés pour des années encore l’image de jeunesirresponsables avides et cupides. A l’origine et même responsables de la diabolisation des mathématiquesappliquées, ils continuent toutefois à faire rêver certains étudiants en quête de fortune…

Par ailleurs, les étudiants sortis d’une grande école d’ingénieur et qui cumulent un diplôme en statistique sontattirés par d’autres carrières plus classiques, plus rémunératrices qu’une mission de « Data Scientist ». La plupartayant à cœur et à l’esprit de choisir entre l’INSEE, un grand corps d’état ou bien de démarrer une carrière dans laSilicon Valley, et même partir dans le monde de la banque et de la finance car très rémunérateur…D’autre part, la fonction de « Data Scientist » est souvent assimilée à la fonction de Data Miner ou DataCruncher, mais version 2.0, alors qu’elle est selon nous le produit de l’évolution de l’entreprise face aux défis dela digitalisation et où la ressource première est bien l’information ou en tout cas la transformation du bruit eninformation pertinente, en connaissance.

En effet, nous pensons qu’avec l’avènement du quaternaire (économie du numérique) et la virtualisation desbiens, des services, de la communication : l’enjeu est bien de traiter, d’analyser, d’exploiter les données de plusen plus nombreuses, complexes et d’en tirer une véritable valeur ajoutée pour aider les dirigeants à prendre debonnes décisions et à optimiser leur modèle d’organisation et de gouvernance.Thomas R. Davenport et D.J Patil nous rappellent en introduction de leur article que dans les années 1990 à WallStreet on s’arrachait à prix d’or les « Quants », ces analystes quantitatifs en salles de marchés, formés dans lesmeilleures universités américaines et qui constituaient les profils les plus prisés et les plus recherchés à l’époqueà la bourse de New-York. Ce sont ces « Quants » qui prenaient en charge les considérations mathématiques quiintervenaient dans les choix des traders. La complexité des produits vendus engendrait déjà une difficultécroissante du métier de trader. De plus, le sujet était réellement difficile du point de vue mathématique et s'avèraittrès dynamique. Les Quants devaient donc se tenir au courant des avancées les plus récentes dans le domainedes mathématiques financières, et rendre toujours plus sûre l'évaluation des différents produits comme suit :• l'incorporation des nouveaux produits aux logiciels de pricing existants et la maintenance technique de ceslogiciels,• l’étude et l’implémentation de nouveaux modèles de taux ou d'autres sous-jacents,• l’étude et l’implémentation de nouvelles techniques numériques,• la couverture des produits utilisés, à savoir les techniques permettant d’éliminer le risque associé à un produit

L’expérience client : (re)définition bit.ly/15TJmC3

Le Cercle Les Echos @CercleLesEchos

Étendre

Conciliation vie privée/vie professionnelle : une affaire de femmes ? bit.ly/15TJmBY

Le Cercle Les Echos @CercleLesEchos

Étendre

La priorité au logiciel libre est-elle légitime ? bit.ly/15TCepc

Le Cercle Les Echos @CercleLesEchos

Étendre

Gérer une fortune au féminin bit.ly/15TCgxd

Le Cercle Les Echos @CercleLesEchos

Qui dirige l'Europe ? bit.ly/13dGrrL

Le Cercle Les Echos @CercleLesEchos

Étendre

The Resource Hope bit.ly/13dzdE8

Le Cercle Les Echos @CercleLesEchos

29m

29m

1h

1h

28 Juin

28 Juin

Tweets Suivre Suivre @CercleLesEchos@CercleLesEchos

Tweeter à @CercleLesEchos

…LUS …COMMENTÉS

AUJOURD'HUI, LES ARTICLES LES PLUS...

Jean-Yves Archer | Finances| TribuneL'oral très contrasté de DSK au Sénat

Jean-Charles Guibert | Organisation| TribunePour leur compétitivité, les PME doivent pratiquer l’OpenInnovation

Marc Traverson | Autres| TribuneL’exemplarité, inévitable outil du management

OFCE | Europe|La Croatie dans l’Union européenne : une entrée sansfanfare

Christophe Nguyen | RH|La Qualité de Vie au Travail (QVT) en période de crise :moins importante que la compétitivité ?

ABONNEZ-VOUS AU FLUX RSS

SUIVEZ-NOUS AVEC TWITTER

Page 3: Data scientist: le job le plus sexy du 21ème siècle

30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos

Page 3 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle

donné.

Il semblerait qu’aujourd’hui à l’ère du digital et du déluge informationnel (Big Data), les entreprises soientdésormais en recherche d’experts capables de traiter l’infobésité et d’en tirer toute la quintessence décisionnelleet managériale tant attendue : c’est ainsi que le besoin en Data Scientist est né !

La situation est telle aux Etats-Unis que les auteurs évoquent le cas de Greylock Partners, la fameuse société decapital-risque où travaille D.J Patil, et qui a soutenu Facebook et LinkedIn. En affirmant leur réelle préoccupationquant à l’ampleur de la pénurie de talent aux US, de ce type de scientifiques capables de traiter ce phénomène «Big Data » que Greylock Partners a décidé de créer une structure désormais dédiée à ce type de recrutement etcapable de canaliser ces rares ressources vers les entreprises de leur portefeuille.

Ce concept et titre de Data Scientist aurait été inventé dès 2008 et forgé à partir du concept de « Data Science »(par analogie avec « Computer Science ») par D.J Patil et Jeff Hammerbacher, alors tous deux en charge du datamanagement et de la data analyse chez LinkedIn et Facebook. Période durant laquelle ils eurent l’idée de serencontrer régulièrement pour échanger sur leur métier et leur méthode d’investigation des données de plus enplus complexe et s’apparentant grandement à la démarche scientifique.

Les Data Scientists apparaissent comme des acteurs clés en entreprise pouvant réaliser toutes les possibilitésoffertes par le déluge informationnel. Ils apportent une méthodologie, une approche très structurée, trouvent desmodèles statistiques convaincants et ainsi conseillent les dirigeants sur les stratégies en matière de portefeuilleproduits, de stratégie marketing et commerciale et les orientent dans leur processus de décision. Les auteursn’hésitent pas à comparer le travail du Data Scientist à celui d’un véritable scientifique, en prenant l’exemple d’unData Scientist qui travaille sur des problèmes de fraude et dont l’analyse des données s’apparenterait de manièreanalogue à un problème de type séquençage de l'ADN. Les auteurs pensent sans doute au séquençage denouvelle génération (en anglais « next generation sequencing ») qui est un ensemble de méthodes apparues àpartir de 2005 pour réaliser du séquençage à très haut débit. Il se caractérise par l'utilisation d'approchesmassivement parallèles, permettant de séquencer des centaines de milliers de fragments simultanément. Depuisle séquençage du premier génome en 1995, la production de données de séquençage d'ADN a révolutionné lespossibilités de compréhension du vivant par la biologie moléculaire. Avec l'arrivée des technologies deséquençage à très haut-débit, on assiste aujourd'hui à une explosion des volumes de données avec undoublement des bases de données de séquence tous les 6 mois et une augmentation du débit d'acquisition d'unfacteur 1000.

Ce déluge de données ouvre de nouvelles perspectives scientifiques notamment dans le domaine de la « méta-génomique » qui vise à caractériser l'ensemble des génomes bactériens d'un écosystème complexe: il estdésormais possible de quantifier les génomes, gènes et fonctions de ces écosystèmes. En effet, ce traitement estun traitement « Big Data » qui constitue un défi majeur tant en matière d'optimisation des calculs qu'en matièrede stockage et de leur mise à disposition aux biologistes. Mais la comparaison entre la lutte contre la fraude et lagénomique et le super-séquençage du génome s’arrête là et tient au fait que le traitement massif parallèle desdonnées est rendu possible par l’utilisation notamment d’une petite invention logicielle due à Yahoo ! (frameworkopen source) Hadoop et de l’invention de Google (un framework open source) voulant optimiser sa puissanced’indexation: MapReduce. Autre point que les auteurs passent sous silence : l’effort à consentir pour maitriser laprogrammation MapReduce explicite (sans scripts) sous Hadoop semble relativement longue. En effet, une duréecomprise entre 6 mois à 1 an ne semble pas surestimée s’il s’agit d’acquérir une expérience significative. Onestime à ce jour en France à une petite centaine de personnes les « data scientists » potentiels et doncpossédant de réelles compétences informatiques et statistiques. En ce qui concerne les langages de plus hautniveau Pig, Hive QL on peut estimer à quelques semaines le temps de formation et d’apprentissage nécessairespour parvenir à un niveau de compétences suffisant, vu la proximité avec les langages existants. En donnant cesestimations, nous présupposons plusieurs problèmes et paradoxes ignorés par les auteurs de l’article :- l’explosion des données non-struturées a permis aux géants Yahoo ! et Google de créer les outils nécessaires àce traitement de l’infobésité via des technologies et des process nouveaux et peu maîtrisés encore, faisant la partbelle au logiciel libre (Hadoop et MapReduce),

- la plupart des DSI des grands groupes sont encore réticents quant à l’utilisation de ces technologies jugéesencore « exotiques » dès lors que l’on parle de « framework applicatif open source »,- les solutions logicielles packagées par les grands éditeurs atteignent des prix exhorbitants versus l’approche «open source » des 2 briques indispensables au traitement du Big Data (Hadoop & MapReduce) elles-mêmes ré-utilisées par les grands éditeurs de logiciels,

- bon nombre de grandes entreprises sont encore équipées de solution de CRM et de BI classiques et neperçoivent toujours pas le sens (signification et direction) de la révolution imposée par ce tsunami des data nonstruturées à la fois techniquement et humainement,- expliquer et comprendre comment dans les entreprises, les data miners ou data crunchers d’hier devront sansaucun doute évoluer vers la « data science » pour pénétrer les mystères du Big Data,

- comment accompagner cette transformation du traitement des données qui implique une transformation desméthodes et process de travail et qui conclut à une transformation organisationnelle et managériale enentreprise,- enfin, il n’existe pas de formation ou de cursus universitaire type « Data Scientist »,

- point spécifique à la France : les grandes écoles ne semblent pas vouloir répondre à cette demande et sontencore hermétiques à l’idée de former des ingénieurs-statisticiens (type X/ENSAE par exemple) et devenir « DataScientist »,- les étudiants eux-mêmes sont peu enclins aujourd’hui à opter pour ce type de job et de position « trop jeune »en entreprise,

- l’effet de « mode » autour du phénomène Big Data semblerait desservir les intérêts pour le métier de « Data

Le Cercle Les Echos

Like You like this.

You and 6,748 others like Le Cercle Les Echos.

Facebook social plugin

NUAGE DE TAGS

2012 Allemagne Banque BCE ChineChômage Compétitivité conjoncture

Crise Croissance Dette dettepublique Developpement durable démocratiedéveloppement Economie EmploiEnergie Entreprise Environnement Etats-Unis Euro Europe FiscaliteFrance grèce Hollande Immobilier Industrie

Innovation InternetManagement Marketing nucléairePME Politique Politique économiqueprésidentielle Santé société

Page 4: Data scientist: le job le plus sexy du 21ème siècle

30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos

Page 4 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle

Scientist ».Pourtant dans cet article, Davenport et Patil se demandent comment repérer, attirer et développer ses nouveauxtalents qui devraient combiner une formation scientifique de type PhD (sciences dures ou appliquées) avec undiplôme de statisticien dans le meilleur des cas ? Le Data Scientist serait un « oiseau rare », perçu souventcomme un « martien » qui devra s’intégrer dans une entreprise où les méthodes et les process seront bousculéspar l’approche scientifique et la culture « data-driven » de ce nouveau profil…

Patil a été lui-même Head of Data Product pour le géant américain des réseaux sociaux professionnels Linkedinavant de devenir le Data Scientist en chef chez Greylock Partners. Et il raconte alors l’histoire du recrutement etde la difficile intégration de Jonathan Goldman (titulaire d'un doctorat en physique de Stanford) embauché enJuin 2006 par Linkedin. Le réseau social professionnel était encore une start-up et la compagnie comptait un peumoins de 8 millions de comptes utilisateurs (membres actifs). Le nombre de nouveaux membres grandissaitrapidement alors que les membres déjà inscrits ne développaient pas suffisamment leur réseau de contact (peud’invitations d’amis ou de collègues par les membres…), ce qui est le « facteur clé de succès » de tout réseausocial. En effet, les utilisateurs de l’époque montraient peu de connexions avec les autres membres du réseau,alors que le niveau d’inscription individuelle sur le site augmentait…

C’est pour cette raison que Jonathan Goldman fut surpris par les faibles inter-connexions entre membres duréseau Linkedin, et ne comprenait pas pourquoi un tel phénomène n’avait pas davantage intrigué la direction deLinkedin… Lui avait déjà perçu la grande richesse d’informations disponibles sur les membres inscrits, maistâtonnait en terme d’analyse : alors il continua à chercher, analysa les connexions entre membres, forma deshypothèses, testa des intuitions, trouva des modèles permettant de prédire les types de connexions entremembres en fonction des critères relatif à l’entreprise, l’école fréquentée… pour proposer un moyen infaillible dedévelopper les inter-connexions entre membres. Il fallait être capable de suggérer aux membres des profils depersonnes connues par un membre en lien avec son secteur d’activité, son entreprise, ses diplômes, son lieud’habitation. Toutes ces données cruciales pour mieux connaitre les profils de chaque membre et par conséquentles classer par cluster cohérent. Mais l'équipe d'ingénierie de LinkedIn, pris dans les défis techniques liés àl’évolution de la plate-forme (scalabilité du site) semblaient peu intéressés par les découvertes de Goldman.Certains de ses collègues furent même ouvertement dédaigneux aux idées du jeune Data Scientist selon Patil…Heureusement, Reid Hoffman, co-fondateur de LinkedIn et PDG de l'époque, avait foi dans la puissance del'analyse statistique en raison de son expérience chez PayPal (plateforme de paiement appartenant à e-Bay) et ilavait accordé à Goldman une vraie confiance et un fort degré d'autonomie. Il donna à Goldman un moyen decontourner le cycle classique des mises à jour du site, l’évolution des cycles de publications, en un motcontourner le webmastering officiel du site, en testant des petits modules sous la forme d'annonces publiées surles pages les plus populaires du site.

Grâce à cette initiative et cette culture « test and learn », Goldman a commencé à tester avec succès laprésentation de profils (en mode « push ») en affinité avec chaque utilisateur pris individuellement. Ces profilsétaient sensés être connus par les membres destinataires de ces propositions de connexion. Par phasesuccessive, itération après itération Goldman arriva à trouver un modèle d’annonce personnalisée pour chaquemembre Linkedin en proposant de montrer les trois meilleurs profils le plus en affinité avec chaque utilisateurbasé sur son profil, son parcours professionnel, sa carrière décrit dans sa fiche Linkedin (type « CV détaillé »). Enquelques jours, quelque chose de remarquable se produisit : le taux de clic sur ces annonces était le plus élevédu site, du jamais vu depuis l’arrivée de Goldman. Les annonces générèrent un taux de clic de 30% plus élevéque le taux obtenu par les autres bannières invitant à visiter d'autres pages du site. Ces annonces générèrent aufinal des dizaines de millions de nouvelles pages vues pour Linkedin et ont contribué à son incroyable succèsaujourd’hui. Aussi, Goldman continua à améliorer la façon dont les suggestions de profils furent recommandéesaux membres, s’inspirant des idées de réseautage telles que « la théorie du triangle fermé » (« triangle closing »),l'idée selon laquelle si vous connaissez « Larry et Sue », il y a de grandes chances que « Larry et Sue » seconnaissent aussi !

Toutefois on peut regretter que les auteurs de donnent pas de définition claire et distincte du « Data Scientist »,et ne dresse pas de portrait ou de profil type de ce nouveau métier en pleine pénurie ! Les prévisions les pluspessimistes estiment qu’il manquera environ 100 000 Data Scientists en 2020 aux Etats-Unis pour répondre auxbesoins analytiques des entreprises. En généralisant ces estimations au monde entier et en incluant lesprofessions périphériques (data miners, spécialistes BI…), ce sont plus d’un million de spécialistes qu’ilconviendra de former dans les dix prochaines années.

Des analystes de Gartner ont appliqué une méthode d’analyse textuelle pour dresser le profil type du DataScientist. Sans surprise, les premiers titulaires de ce nouveau métier doivent savoir travailler en groupe, maîtriserla gestion des Big Data et s’appuyer sur une réelle maîtrise de la communication. Mais qu’englobe exactement leterme « Data Scientist » ? Les analystes de Gartner ont tenté de répondre à cette question en appliquant lestechniques d’analyse textuelle à un grand nombre de descriptions de postes et d’offres d’emplois publiées dansla presse, puis de comparer les résultats ainsi obtenus pour les termes « Data Scientist », « statisticien » et «expert en Business Intelligence ».

Les mots clés les plus fréquemment utilisés pour les Data Scientists sont : expérience, équipe, Hadoop,modélisation, analyse… Les trois compétences principales qui se dégagent sont le management de données, lamodélisation analytique et l’analyse métier. D’autres termes apparaissent également fréquemment :communication, collaboration, créativité. Le même type d’approche a été conduit par la société Indeed.com(moteur de recherche d’offres d’emploi) qui publie le résultat de son étude en décembre 2011 (cf graphe «Indeed.com » infra):- les offres d’emplois comportant l’expression exacte « Data Scientist » sont pratiquement inexistantes avant2010.- la croissance des offres d’emploi de « Data Scientist » sont montés en flèche à partir de Février 2010 etjusqu’en décembre 2011 (date de publication de l’étude) pour dépasser les 6500% !

Page 5: Data scientist: le job le plus sexy du 21ème siècle

30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos

Page 5 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle

Et pour cause, puisqu’il faudra attendre Mars 2011 pour que le phénomène « Big Data » soit révélé et évangéliséauprès des entreprises américaines avec la parution du rapport McKinsey... A ce stade, il nous semble importantde nous pencher sur le profil et la rémunération des Data Scientist, sujet sur lesquels Davenport et Patil sontsilencieux.

Pour ce faire, nous avons repéré une étude disponible sur le web réalisée par l'éditeur SiSense (spécialiste de BIAgile et qui se définit le spécialiste du logiciel d’analytics Big Data). Cette étude a été mené au mois de juillet2012 et constitue une vaste enquête en ligne qui permis à plus de 400 professionnels de répondre à une série dequestions afin de comprendre : Qui sont les professionnels de la data analyse ? Où travaillent-ils ? Quel est leurniveau de rémunération ? Quelles sont les perspectives du secteur ? Et enfin qui sont les Data Scientists ? Source : Etude SiSense 2012Cette étude a mis en évidence que 48 % des répondants étaient basés en Amérique du Nord et seulement 24 %en Europe. L’étude révèle que les salaires des professionnels de l'analyse de données sont globalement assezélevés, même si l'écart-type est important et surtout le niveau est très inférieur en Europe par rapport aux US. Unanalyste de données gagnera en moyenne 55 000 dollars, un Vice-Président Analytics gagnera en moyenne 132000 dollars. Un « Data Scientist » sera entre les deux avec une moyenne de 89 000 dollars, soit 61 % de plusqu'un « Data Analyst ».

L’effet de mode et la dite pénurie aura donc un effet haussier sur le salaire. La localisation géographique aégalement un effet sur la rémunération. Les professionnels de la donnée gagnent en moyenne 32 000 dollarsseulement en Asie, et 96 000 dollars aux Etats-Unis, soit le triple ! Le Canada est assez proche des Etats-Unisavec un salaire moyen de 82 000 dollars et l'Europe dans la moyenne avec 64 000 dollars.Concernant lesintitulés de postes, seuls 7 % des répondants à l'enquête portent le titre exact de « Data Scientist ». La majoritése nomment « Business Analyst » pour 34 %, ou « Data Analyst » pour 27 %. Selon SiSense, une des raisons dela faible proportion de Data Scientist serait l'absence de définition claire de cette profession. N'oublions paségalement que ces nouveaux termes datent de 2008 seulement. Si le métier de Data Scientist prend de l'ampleuret gagne en reconnaissance, la part des professionnels qui en adopteront le titre ira grandissante.

Même si l'aide à la décision et l'analyse de données datent maintenant de quelques décennies, le marché sembleen forte croissance puisque 33 % des professionnels ayant répondu à cette étude affichent moins de 3 annéesd'expérience professionnelle. Et ils ne sont pas sur-diplômés : 47 % des répondants ne disposent au maximumque d'un « bachelor », correspondant à la licence en France. Seuls 5 % des professionnels de la donnée sontdes docteurs (PhD). Mais attention parmi les Data Scientists, le pourcentage de docteurs (PhD) monte à 35%.D’après une étude d’EMC, les experts de la Business Intelligence ne formeront pas les futurs Data Scientists.Seuls 12% seront des transfuges de la BI: « While most BI professionals do their analysis and data processing inExcel, data science professionals are using SQL, advanced statistical packages, and NoSQL databases ». Lesentreprises attendent visiblement (à 34%) que les bataillons d’étudiants informatiques correctement forméss’échappent de leurs écoles d’ingénieurs pour prendre leur programme Big Data en main. Les experts métierssuivent à 27%, l’étudiant « lambda » à 24%.

Les professionnels de la donnée travaillent dans de petites équipes : 65 % des répondants travaillent dans deséquipes de moins de six personnes, mais pour les grandes sociétés, de plus de 1 milliard de dollars de chiffred'affaires, une équipe de plus de 50 professionnels de la donnée est constituée dans 30 % d'entre elles.

Après avoir vu leurs salaires progresser en 2012 (pour 61 % des répondants), les perspectives semblent encoremeilleures pour 2013. En effet, 78 % des répondants anticipent une augmentation de salaire en 2013; ils sontmême 25 % à espérer voir leur salaire augmenter de plus de 10 % l'an prochain.

A présent, nous aimerions distinguer entre les fonctions de Data Miner et de Data Scientist. Davenport et Patiln’ayant pas jugés utile d’opérer cette démarche, afin d’éclairer la définition du nouveau métier de Data Scientistet marquer fonctionnellement la rupture avec les professions de l’ancienne ou actuelle génération d’analyste dedonnées. Il semblerait qu’une majorité d’auteurs s’intéressant au « job description » des Data Scientist passentsous silence cette distinction, ou bien l’ignore, ou alors considère que le Data Scientist s’inscrit dans unecontinuité linéaire de l’évolution de la fonction de Data Miner et qu’un simple changement de titre ou dedénomination suffirait à appréhender le déluge informationnel avec une rigueur scientifique et une visionstratégique. Or cette approche distinctive sur le plan conceptuel est aussi cruciale que celle qui consiste àdistinguer le CRM, la BI traditionnelle, les données structurées avec le Big Data, les données non structurées, laBI Agile !

Commençons par redéfinir le rôle du Data Miner et ce qu’est le Data Mining. Le Data Miner gère et optimisel’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nousrestreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partirdes données de l’entreprise, notamment des données historiques, de découvrir des modèles implicites dans lesdonnées. Ils peuvent permettre par exemple dans le secteur de la distribution, à un magasin de dégager desprofils de client et des achats types et de prévoir ainsi les ventes futures sur l’analyse des transactions passées. Ilpermet d’augmenter ainsi la valeur des données contenues dans le DataWarehouse. Les outils d’aide à ladécision, qu’ils soient relationnels ou OLAP, laissent l’initiative à l’utilisateur, qui choisit les éléments qu’il veutobserver ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et découvre lui-même lesassociations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ouà poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client, et dedétecter, dans le passé, les données inusuelles, exceptionnelles.

Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par desutilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peutdéterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinents, intéressantes et utiles àl’entreprise. Le succès du concept de Data Warehouse et le nombre croissant de bases de donnéesdécisionnelles disponibles dans les entreprises, dynamise fortement l'offre Data Mining. Le terme de Data Mining

Page 6: Data scientist: le job le plus sexy du 21ème siècle

30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos

Page 6 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle

signifie littéralement forage de données. Comme dans tout forage, son but est de pouvoir extraire un élément : laconnaissance. Ces concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des informationscachées dans le gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, defaire apparaître des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent detransformer les données en connaissances. L'exploration se fait sur l'initiative du système, par un utilisateurmétier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupementpar similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.

Le Data Miner utilise donc des méthodes statistiques bien établies, mais aussi des développements récents issusde la modélisation informatique. Sans prétendre à l’exhaustivité, on distinguera les méthodes exploratoires où ils’agit pour le Data Miner de découvrir des structures ou des comportements inattendus, de la recherche demodèles prédictifs où une « réponse » est à prédire. On dit alors que le Data Miner mène une « exploration nonsupervisée » car il utilise des techniques de projection orthogonale sur des sous-espaces : analyse encomposantes principales, analyse des correspondances, permettent de réduire efficacement la dimension dupoint de vue du nombre de variables. Les méthodes de classification visent à former des groupes homogènesd’unités en maximisant des critères liés à la dispersion (« k-means »). Des extensions non-linéaires (« splines »,« noyaux », etc.) étendent le champ de ces méthodes classiques.

Mais il peut également employer la méthode de recherche de règles d’association qui est une des innovations duData Mining : introduite en 1993 par des chercheurs en base de données d’IBM, elle a pour but de rechercherdes conjonctions significatives d’évènements. Typiquement une règle de décision s’exprime sous la forme : si (Aet B) alors C mais il s’agit d’une règle probabiliste et non déterministe. On définit le support de la règle comme laprobabilité d’observer à la fois la prémisse X et la conclusion Y : P(X∩Y) et la confiance comme P(Y/X). Parmi lesrègles ayant un support et une confiance minimale on s’intéressera à celles où P(Y/X) est très supérieur à P(Y).Les premières applications ont concerné les achats dans les grandes surfaces : parmi les milliers de référencesdisponibles et les millions de croisements, identifier les achats concomitants qui correspondent à des fréquencesimportantes. Cette méthode s’étend bien au-delà de ce type d’application. L’originalité tient essentiellement à lacomplexité algorithmique du problème.

Enfin, le Data Miner peut procéder à des prédictions ou « apprentissage supervisé ». Inutile d’évoquer ici lestechniques de régression bien connues. La méthode la plus typique est certainement celle des arbres de décision: pour prédire une réponse Y, qu’elle soit numérique ou qualitative, on cherche tout d’abord la meilleure partitionde l’ensemble des données (en général en deux sous-ensembles) issue d’une partition effectuées sur lesprédicteurs et on itère dans chacun des sous-ensembles : la croissance exponentielle de l’arbre est contrôlée pardes critères d’arrêt de type coût-complexité ainsi que par l’usage de données de validation qui permettentd’éliminer les branches non pertinentes.

Cette technique conduit à des règles de décision très lisibles, d’où son succès, et hiérarchise les facteursexplicatifs. A l’opposé en termes de lisibilité, les logiciels de Data Mining proposent souvent des méthodeshautement non-linéaires comme les réseaux de neurones, les machines à vecteurs de support (SVM). Même siles règles de décision ont une forme mathématique explicite, celle-ci est en général très complexe et cesméthodes sont utilisées comme des boîtes noires. Une autre approche consiste à complexifier des méthodessimples : les arbres de décision étant souvent instables, le Data Miner va en utiliser plusieurs obtenus sur desdonnées « ré-échantillonnées » par « bootstrap » : la décision finale s’obtient par une procédure de vote s’il s’agitd’un problème de classification, ou de moyenne pour un problème de régression : c’est le « bagging ». Citonségalement le « boosting », qui consiste à améliorer des procédures.

Toutes ces méthodes d’analyse ou de « forage des données » par le Data Miner sont aujourd’hui utiles pouroptimiser la connaissance client à partir des données structurées, mais ne suffisent plus dans un contexte detsunami informationnel. Le rôle du Data Scientist va être justement de traiter ce phénomène, en étant capabled’extraire tout le sens et la direction de l’information non structurée provenant du web, des réseaux sociaux, dumobile, de fichiers multimédia (son, photo, vidéo) par une transformation des data brutes (raw data) enconnaissance actionnable… Le Data Scientist peut tout d’abord exister et travailler aux côtés de Data Miners etmême gérer un périmètre métier, fonctionnel, et technique déconnecté des missions des Data Miners classiques,cantonnés aux traitements des datas structurées dans des environnements connus de l’IT et du métier (auservice du CRM, du marketing, du commercial…). Le Data Scientist pourrait être en charge dans le cas d’unebanque ou d’une compagnie d’assurance d’assurer le scoring prédictif de la fraude, ou anticiper le départ declients stratégiques par modélisation statistique avancée. Les Data Miners eux resteraient en charge de l’analyse,du scoring bancaire clients, de la segmentation comportementale et de la gestion de la base de connaissancestandard (via les données structurées de l’entreprise).

L’intérêt de recruter un Data Scientist pour lui confier le rôle et les missions d’un Data Miner n’a donc aucun sens.Le Data Scientist doit pouvoir travailler en toute autonomie et en exploitant pleinement ces compétences enmodélisation statistique, en exploitation et analyse des bases de données, pour faire de la segmentation clients,produits à la demande. Il doit maitriser totalement le framework Map-Reduce, utiliser et comprendre les langagesPerl ou Python ou Java voir Pig qui s’impose. Bien entendu, il va devoir travailler avec les BDD SQL ou NoSQL,et enfin il devra devenir le Michel-Ange de la Data Viz pour être tout à fait complet…On voit bien que le profil deData Scientist est très pointu, et qu’à l’heure actuelle, très peu de candidats peuvent répondre à ces nombreusesexigences et compétences tout aussi récentes, nouvelles que rares… Et nous pensons que ce profil de DataScientist conduira inévitablement à créer et recruter un poste clé pour l’Exécutif de demain au sein de grandsgroupes : le Chief Data Officer à ne pas confondre avec son homologue le « Chief Digital Officer ». Car avec unetelle position, le problème du « HIPPO » ne se posera plus dans les organisations qui n’auront pas levé cepréjugé : le Chief Data Officer fera partie intégrante de la « C-suite » et sera considéré comme tel par seshomologues CMO, CTO... Un profil que le cabinet de recrutement de cadres dirigeants Russell ReynoldsAssociates voit comme critique pour les grands groupes et dont les embauches vont commencer dès 2013. Et ilne s'agit pas d’un nouveau CIO ou CTO mais bien d'un nouveau poste à la jonction du marketing et l’IT. Leur

Page 7: Data scientist: le job le plus sexy du 21ème siècle

30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos

Page 7 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle

Bruno du TeilleulL’expérience client :(re)définition

Jérôme LanoyLes 6 grands principes del'innovation design (partie I) –Pour positionner, innovez !

Olivier MathiotIdentifier les raisons de lacroissance et réinventer lesrègles de fonctionnement des

entreprises

Vihan Sharma, AcxiomLes bénéfices multiples d’unesolution de marketingpersonnalisé

PUBLIER CE COMMENTAIRE

hypothèse est qu'en 2015 la moitié des Fortune 100 auront recruté leur Chief Data Officer…

À LIRE ÉGALEMENT

COMMENTER L'ARTICLE

Il vous reste 2000 caractère(s) pour écrire votre commentaire.

POLITIQUEÉlections 2012

Vie politique

ÉCONOMIE & SOCIÉTÉPolitique éco & Conjoncture

International

Société

Social

Immobilier

Recherche & Innovation

Énergies & Environnement

Assos & Fondations

Recherche éco

Dossiers spéciaux

LES ECONOMISTES DE PROJECTSYNDICATEJoseph E. Stiglitz

Nouriel Roubini

Kenneth Rogoff

J. Bradford DeLong

Jeffrey D. Sachs

Dominique Moïsi

Autres auteurs

ENTREPRISES & MARCHÉSFinance & Marchés

High Tech & Médias

Industrie

Management

Services

Dossiers spéciaux

Stage d'été

ENTREPRENEURCréation d'entreprise

Social RH

Fiscalité

Juridique

Compta-finances

Marketing

Internet

Développement

Innovation

Patrimoine

LE CERCLE +Vidéos Livres Abécédaire

Sites web

PLAN DU SITE

Le Cercle Les Echos Aide Nous contacter Charte d'utilisation C.G.U/C.G.V

Les Echos Investir Enjeux Les Echos Capital Finance Les Echos Entrepreneur Bilansgratuits Eurostaf Conférences Salon des Entrepreneurs Les Echos

Page 8: Data scientist: le job le plus sexy du 21ème siècle

30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos

Page 8 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle

de la Franchise L'Institut Les Echos Les Echos Formation Série limitée Les Echos ePaper LeCrible.fr Radio Classique Connaissance des Arts La Fugue