Ingénierie de la fouille et de la visualisation de données massives
RCP216


Objectifs pédagogiques

Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.

Public et conditions d'accès

Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.

Compétences

Capacité à mettre en oeuvre des techniques de fouille de données, de modélisation décisionnelle et de visualisation sur des données massives. Maîtrise de techniques adaptées à quelques problèmes fréquents rencontrés dans la fouille de données massives.

Méthodes de validation

Note finale = ((note de projet + note d'examen) / 2).

Contenu de la formation

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
            a. Recherche par similarité, systèmes de recommandation
            b. Classification automatique
            c. Fouille de données textuelles
            d. Fouille de flux de données
            e. Apprentissage supervisé à large échelle
            f. Fouille et visualisation de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Enjeux perceptifs de la visualisation d'information : couleurs, formes, immersion, lecture
6. Techniques de représentation : graphes, hiérarchies, lignes de temps
7. Techniques d'interaction : association focus/contexte, distorsion, filtrage
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet, l'auditeur devra installer le logiciel Spark (gratuit) sur un ordinateur personnel de capacité suffisante, suivant les instructions disponibles en ligne.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/

Bibliographie
  • Ryza, S., U. Laserson, S. Owen and J. Wills: Advanced Analytics with Spark, O’Reilly, 2014.
  • A. Rajaraman and J. D. Ullman: Cambridge University Press, New York, NY, USA, 2014.

Cette UE apparaît dans les diplômes et certificats suivants :

  • CS5900A : Certificat de spécialisation Analyste de données massives
  • MR12303A : Master Sciences, technologies, santé, mention mathématiques appliquées, statistique parcours Science des données
  • MR10703A : Master Droit, économie et gestion mention Finance parcours Finance numérique et Fintech

Prochaines sessions de formation

Filtres :
Centre de formation Semestre
2021/2022
Jours de
formation
Modalité Tarif    
Paris Semestre 1 180 € Inscription fermée

Date de début des cours (*) : 20/09/2021

* Les dates fournies sont d'ordre général à toutes les formations.
Les cours pour cette formation peuvent potentiellement commencer un peu plus tard dans le semestre.

Paris
Semestre 1
Cours en ligne
180 €
Légende :
Tarif :

Seul le financement à titre individuel est proposé à l'inscription en ligne. Si vous souhaitez financer votre formation par votre entreprise, vous devez demander un devis auprès de nos centres Tarifs en vigueur depuis le 17 juin 2020.

Date de début de cours :

Les dates fournies sont d'ordre général à toutes les formations. Les cours pour cette formation peuvent potentiellement commencer un peu plus tard dans le semestre.

Annuel :

Il s'étend de fin septembre / début octobre à début juillet (dates indicatives, renseignez-vous auprès de votre centre).

Semestre 1 :

Il s'étend de fin septembre / début octobre à fin janvier / début février (dates indicatives, renseignez-vous auprès de votre centre).

Semestre 2 :

Il s'étend de fin février / début mars à début juillet (dates indicatives, renseignez-vous auprès de votre centre).

Cours du soir :

Les cours commencent le plus souvent à 18h30 dans les centres.

  Cours en journée :

Se renseigner auprès du centre pour connaître les horaires.

Cours en ligne :

Les cours sont diffusés sous forme de séances numériques via une plateforme d'e-learning animées et tutorées par un enseignant. Des regroupements peuvent être proposés dont certains sont obligatoires.

  Cours hybrides :

Cette modalité mixe des cours en présentiel (en cours du soir ou en journée) et des cours en ligne.

  Cours en ligne organisés par un autre
centre CNAM Régional :

Les cours sont diffusés sous forme de séances numériques via une plateforme d'e-learning animées et tutorées par un enseignant.

Recherche en cours ...