Exploration de données de réseaux d’assainissement et d’eau potable par apprentissage automatique
Le recrutement est fini, nous avons trouvé un candidat !
Contexte
Cette proposition est financée par le Laboratoire d’excellence (Labex) IMU (Intelligence des mondes urbains) et s’inscrit dans le cadre du projet HIREAU.
Sujet
La date de pose est souvent un facteur principal d’explication de la dégradation des conduits d’assainissement et d’eau potable. Pour les gestionnaires de ces réseaux, connaître cette information permet ainsi (par l’utilisation de modèles de détérioration) de prédire l’état de santé actuel des conduites non encore inspectées, connaissance primordiale pour prendre des décisions dans un contexte de forte contrainte budgétaire. Les données à manipuler présentent plusieurs niveaux de complexité importants. Leurs sources sont hétérogènes, leur volume est important et les informations sur leur étiquetage (dates) sont limitées : 24% du linéaire connu pour les réseaux d’assainissement et 97% du linéaire renseigné (dont 27% supposé) pour l’eau potable. La base de données à construire contiendra en effet les caractéristiques connues des conduites (profil géométrique, profondeur de pose, etc.), et l’environnement géographique immédiat des conduites (conduite amont, conduite aval, autres réseaux, aménagement de surface, etc.). L’objectif du Master est donc d’identifier et étudier les difficultés de l’exploitation des données pour leur prétraitement optimal, afin de construire la base de travail, à partir de données issues du système d’information géographique (SIG) de la Métropole de Lyon. Cette étude devrait également permettre de mesurer l’effet et l’impact des méthodes d’apprentissage statistique semi-supervisé, un champ disciplinaire qui consiste à modéliser des fonctions de décision à partir de base de données statistiques partiellement étiquetées. En effet, les bases seront construites à partir de différentes sources hétérogènes et après l’expertise qui ne pourra déterminer qu’une partie de la cible : les dates de poses à caractère continu. Cette approche devra également prendre en compte les hypothèses formulées sur le développement de ces réseaux, et plus particulièrement les logiques liant urbanisation, bâtiments et réseaux.
Consortium
Ce master s’inscrit dans le cadre du projet de recherche HIREAU qui regroupe trois laboratoires de recherche (DEEP, LIRIS et UMR 5600), deux industriels (Veolia et Eau du Grand Lyon) et une collectivité (Métropole de Lyon). Ce travail nécessitera des interactions avec les partenaires du projet et plus particulièrement Eau du Grand Lyon et la Métropole de Lyon.
Durée : 5 mois à partir de Février / Mars 2017
Travail demandé
– Étude bibliographique des modèles d’apprentissage semi-supervisé pour les problèmes de régression,
– Connaissances « générales » sur les réseaux d’assainissement, leur développement et leur gestion,
– Accompagnement de la création de la base de données nécessaire pour l’apprentissage semi-supervisé, sur la base de données du Système d’Informatique Géographique de la Métropole de Lyon,
– Identification des difficultés de création de cette base de données et aide à la recherche de solutions,
– Test de modèles d’apprentissage et évaluation des performances.
Profil recherché
Principalement en Informatique (apprentissage automatique et data mining)
Encadrement
Khalid Benabdeslem, U. Lyon1 – Laboratoire LIRIS (Informatique)
Frédéric Cherqui, INSA – Laboratoire DEEP (Génie Civil / Hydrologie Urbaine) / U. Lyon 1