La vérité sans fard sur le job le plus convoité en finance...
Les emplois de data science dans les banques d'investissement ont le vent en poupe. J.P. Morgan a récemment nommé un chief data science officer. Idem pour Morgan Stanley et Deutsche Bank. Les banques qui jadis recherchaient des traders et des vendeurs sont désormais en quête de personnes qui maîtrisent les données avec en plus une connaissance du secteur financier. Comme le souligne Matt Levine chez Bloomberg, la finance est réduite à un ensemble de défis liés aux données. Tous augmentent les data crunchers.
Sauf que ceux qui travaillent dans l'industrie sont unanimes pour dire que les jobs en data science ne sont pas aussi passionnants qu'ils n'y paraissent. Si vous pensez que vous êtes fait pour devenir data scientist, alors mieux vaut connaître la vérité. « Seulement 10% de la data science est de la science », explique Dominic Connor, un chasseur de têtes senior de quants à Londres. « Le reste de votre temps sera consacré au clearing des données, en les aspirant dans le premier format venu et en les testant afin qu'elles puissent être vraiment utilisables ».
Les personnes qui ont les mains dans le charbon acquiescent. « Il est de notoriété que les datas, c'est du grand n'importe quoi ! », indique Jeff Holman, directeur des investissements de Sentient Technologies, une société d'intelligence artificielle (AI) basée à San Francisco et qui a développé un système de trading AI. « La plupart de votre temps est consacré à l'acquisition et au nettoyage de données et à l'automatisation de ces deux étapes - et pour toutes les raisons, la responsabilité incombe aux data scientists utilisant les données pour développer le machine learning ».
La déconnexion entre les aspirations des data scientists et la réalité peut susciter de la déception. Surtout pour les data scientists qui n'ont jamais travaillé dans la pratique. « Lorsque les gens ont fait un travail empirique pendant leur doctorat, ils sont habitués à cela », explique Jeff Holman. « Quand ils viennent avec une perspective théorique et appliquent leurs techniques pour la première fois, ils sont sous le choc ».
« Cela peut être frustrant », confirme Alexey Loganchuk, ex-trader en dérivés chez J.P. Morgan qui a fondé Upgrade Capital, un recruteur de talents buy-side basé à New York et axé sur le big data. « Lorsque vous regardez les formations data des meilleures universités, vous trouverez des étudiants très intéressés par des techniques de modélisation complexes, mais lorsque vous regardez les emplois de data dans les hedge funds, il s'agit généralement de trouver de nouveaux ensembles de données, de les évaluer et de les rendre accessibles ».
Alexey Loganchuk affirme que le point névralgique de la création de valeur dans la data science est ce que l'on appelle le data wrangling, point sur lequel les institutions universitaires ne se concentrent pas. Tout le monde peut scruter le Web pour obtenir des données d'entreprise facilement accessibles, mais les jobs de 'web scraping' sont banals et les données qu'ils fournissent génèrent rarement de nouvelles idées. « Les datas les plus précieuses pour les hedge funds sont celles que personne ne regarde et qui sont rarement faciles d'accès et d'analyse », explique Alexey Loganchuk. « Si vous regardez un ensemble de datas auxquelles tout le monde peut accéder, il n'y a pas beaucoup de marge à gagner ».
Pour cette raison, la data science est moins axée sur la modélisation complexe et le machine learning que sur la ' data discovery' et la 'data wrangling'. Les exemples classiques sont les données satellitaires permettant de suivre les livraisons de matières premières en Chine avant même que les navires ne soient amarrés, ou bien le nombre de voitures garées devant les supermarchés et les restaurants. « Nos étudiants ont examiné les images satellites de RS Metrics et ont constaté que si vous comparez le nombre de voitures garées dans les parkings de Chipotle avec celles garées dans les rues voisines près des autres enseignes, vous avez une idée de la performance des concurrents », explique Alexey Loganchuk. Même les data jobs les plus en vue dans les hedge funds peuvent être prosaïques. Ainsi, Winton Capital, le hedge fund systématique, a récemment publié un post sur son blog à propos de l'utilisation des enregistrements DNS en tant que proxy pour la technologie du S&P 1.500.
Si les data jobs dans les hedge funds sont ennuyeux, les data jobs dans les banques le sont encore davantage. Dominic Connor souligne que les banques n'ont pas besoin de data scientists travaillant sur le trading floor, mais dans la conformité. « Les banques en sont au point où elles doivent urgemment automatiser leurs activités de conformité, et il n'y a tout simplement pas assez de professionnels de la conformité expérimentés ».
Alexey Loganchuk constate que les data scientists des grandes banques sont souvent les plus désabusés de tous : « Ce sont généralement de très grandes organisations ayant des opportunités limitées pour le développement personnel ». Il ajoute que le rêve de tout data scientist est de travailler avec des données pour résoudre un problème que personne n'a jamais résolu. « Dans une banque, vous pouvez certes être chargé de créer un modèle légèrement meilleur pour prédire le risque de défaut dans les cartes de crédit ou des cas d'identification de fraude. C'est certainement un travail précieux, mais cela ne motivera pas un Millennial qui rêve de changer le monde ».
Rien de tout cela ne changera rapidement. Il ne faut pas oublier que la data science en finance a des fins mercantiles – même si le hedge fund Two Sigma permet à ses data scientists de travailler sur des projets data environnementaux et humanitaires en parallèle de leurs jobs.
Impossible également de faire l'impasse sur certains aspects du data discovery et data wrangling. « Vous formulez beaucoup de petites hypothèses sur la façon dont vous manipulez et tronquez les données. Cela doit être fait par les personnes qui vont consommer les datas et créer les modèles, sinon cela ne fonctionne pas toujours », rapporte Jeff Holman. De son, côté, Alexey Loganchuk souligne l'avalanche des datas. « Tout a un capteur, depuis les vêtements que vous portez jusqu'aux boulons qui maintiennent les plates-formes pétrolières. C'est seulement une question de temps avant que ces datas ne deviennent suffisamment importantes pour que les hedge funds s'y penchent sérieusement ».
Cela ne veut pas dire que la data science en finance est inintéressante, mais qu'il faut que vous gardiez les yeux ouverts. Et surtout de vous rappeler que l'utilisation des datas ne se limite pas à la seule sphère financière. L'utilisation par Sentient du machine learning et de la data science ne se limite pas au financement - elle applique également ses technologies à d'autres secteurs. L'un d'entre eux est la santé, où Jeff Holman indique développer un système qui prédit avec précision la septicémie dans une unité de soins intensifs. Cependant, le plus grand secteur de croissance reste le commerce en ligne, où les data scientists s'occupent d'utiliser des signaux de données pour encourager les gens à acheter davantage. De quoi redonner ses lettres de noblesse au rôle du data scientist en banque chargé du repérage de données désordonnées dans la conformité.