•  
  •  
  •  

Les datas sont récoltées par des capteurs mais il faut ensuite les analyser, les faire parler. Pour cela, on fait alors appel à un datascientist. Découvrons ensemble ce métier à travers le portrait de Dylan, datascientist chez Heyliot !

Présente toi !

Bien le bonjour, Dylan Lebreton, 24 ans, originaire d’un petit bourg des Côtes d’Armor et jonglant actuellement entre Trémorel (le petit bourg), Rennes où je réalise une alternance chez Heyliot et Toulouse où je fais des études d’ingénieur. Le tout sans addiction au café.

Comment es-tu arrivé chez Heyliot ?

En été 2020 et en pleine recherche d’entreprise pour une alternance, j’ai pris contact avec l’un des co-fondateurs d’Heyliot, Cyril Pradel. Il se trouve qu’Heyliot recherchait un profil de data scientist, et le profil de l’entreprise me plaisait énormément : un capteur s’appliquant dans un cadre de smart-city écologique en deçà de tout greenwashing, c’était une opportunité très intéressante pour quelqu’un comme moi qui s’intéresse à la question écologique sur le plan de l’ingénierie, le coup de foudre a alors fait son œuvre.

Quel est ton parcours scolaire ?

J’ai intégré une école d’ingénieur Toulousaine, l’INSA de Toulouse, avec dans un premier temps l’idée d’y faire un cursus d’ingénierie biologique. Une fois sur place, mon cœur a penché vers la filière mathématiques. J’ai donc continué dans cette voie et ai intégré un double diplôme entre l’INSA de Toulouse et l’ENSEEIHT, autre école d’ingénieur Toulousaine. Le double diplôme me permet d’aborder la data science avec des outils d’intelligence artificielle, il mélange des outils mathématiques et informatiques.

En quoi consiste le métier de data scientist ?

Tout ce qui suit n’engage bien sûr que moi, mais je pense que le data scientist est à mi-chemin entre l’informaticien et le mathématicien. Bien souvent, le schéma est similaire : le data scientist doit s’intéresser à une donnée intéressante, par exemple chez Heyliot, le niveau de remplissage d’un contenant équipé d’un capteur. Son rôle est alors d’expliquer et exploiter cette donnée, par exemple : transformer cette donnée pour générer des indicateurs “parlants” (des kpi), visualiser cette donnée par le biais de graphiques / schémas (dataviz) et enfin et peut-être surtout expliquer cette donnée par d’autres données (élaborer un modèle), notamment pour pouvoir faire de la prévision.

Datavisualisation

Quelles sont les missions principales ?

Je pense que l’une des étapes obligatoires est de “nettoyer” les données, de les débruiter. C’est une étape essentielle puisqu’une donnée trop bruitée s’explique et s’exploite difficilement. La seconde mission est la tâche d’explication et d’exploitation de la donnée comme j’ai pu le mentionner auparavant. Enfin, en tant qu’ingénieur, le data scientist se doit aussi de faire de la veille technologique : veille des outils utilisés pour expliquer et exploiter les données, mais aussi veille des sources de données elle-même. Par exemple, un de mes rôles chez Heyliot est de trouver des données pouvant influer sur le niveau de remplissage des contenants : météo, fréquentions d’un lieu, transports alentours.

Quels sont les types de données que tu gères ?

La donnée principalement manipulée est le niveau de remplissage des contenants. Il s’agit simplement d’un grand tableau où chaque ligne contient une date et le niveau de remplissage du contenant à cette date. S’y ajoute d’autres données quantitatives comme des données météos, mais aussi de potentielles données qualitatives comme le jour et le mois d’une mesure d’un contenant. Toutes ces données peuvent impacter la mesure et plus ou moins l’expliquer.

Quels sont les outils que tu utilises ? et pour quels besoins ?

Sur le plan mathématiques, les outils utilisés sont des outils principalement statistiques : régression, modélisation, classification, pouvant servir pour exploiter et expliquer les données. Il y a aussi d’autres outils mathématiques d’analyse utilisés notamment pour débruiter les données. Sur le plan informatique : l’outil de prédilection est le langage de programmation Python. Peut s’y ajouter le langage de programmation R qui permet facilement d’explorer les données. Python étant un langage de programmation à part entière, il permet de recevoir les données, de les manipuler et de renvoyer ce qui est intéressant aux développeurs pour qu’ils puissent mettre cela à disposition des clients.

Quels conseils donnerais-tu à quelqu’un qui souhaite faire ce métier ?

Je ne suis pas certain d’être très bien placé pour donner des conseils, mais je dirais qu’être curieux dans le domaine des mathématiques et de l’informatique est essentiel. Je pense aussi qu’un bon data scientist prend des moments de réflexion pour aborder l’éthique de son métier. Beaucoup de technologies prennent la direction du big data, pour n’en citer que quelque unes : voitures autonomes, moteurs de recherche, smart-city. Une éthique aboutie sur ces questions est à mon sens primordiale.

Un dernier mot ?

Merci à Heyliot de partager avec moi cette belle aventure qu’est la data science !