École d'été en Text Mining

Laboratoire ERIC - Université Lyon 2

7 et 8 juin 2018




Objectifs : cette école de printemps a pour objectif de faire découvrir les principaux outils informatiques et statistiques pour analyser des données textuelles.

Publics concernés : doctorants, post-doctorants, chercheurs, professionnels du secteur privé...

Inscription : Le nombre de places est limité. Une sélection sera faite en fonction des attentes et profils des participants.

L'inscription est gratuite mais obligatoire. Veuillez remplir le Formulaire d'inscription.

Pré-requis : notions de statistiques, data mining; notions de programmation Python ou R.

Déroulement et lieu :

  • l’école de printemps aura lieu sur le Campus de Bron de l’Université Lyon 2.
  • les participants doivent venir avec leur ordinateur personnel, avec Python installé (version 3.6.5) , ainsi que les packages suivants :
    • pandas
    • numpy
    • scipy
    • nltk
    • gensim
    • sklearn
    • tom_lib
    • lda

Tous ces packages sont inclus dans Anaconda, la distribution scientifique de référence pour Python.

Programme L’école sera composée de 4 demi-journées, au cours desquelles les participants seront amenés à manipuler par eux mêmes les données. Les cours seront en français.

Voici ci-dessous une version détaillée du programme :

Premier jour (7 juin 2018) : Introduction et classification supervisée de données textuelles   [Lab1]   [Lab2]

  • 9h30 Accueil
  • 10h00 -- 13h00 et 14h30 -- 17h30
    • Bases Python pour l’analyse de données, en particulier textuelles (chargement des données, statistiques descriptives)
    • Pré-traitement du texte (nettoyage, étiquetage grammaticale, racinisation / lemmatisation, détection d’entités nommées)
    • Vectorisation (sac de mots et pondération TF-IDF, word2vec)
    • Classification supervisée (modèles usuels pour la classification textuelle, régularisation en lien avec la grande dimension)
    • Méthodologies d'évaluation (métriques, validation croisée)

Deuxième jour (8 juin 2018) : Modélisation thématique et cas d'étude   [Slides]   [Lab]   [Data]

  • 9h30 -- 12h30 et 14h00 -- 17h00
    • Introduction à l’analyse thématique (modèles thématiques, estimation, présentation de plusieurs applications)
    • Extraction de thématiques avec le modèle LDA
    • Visualisation des thématiques (mots clefs les plus probables, documents représentatifs, distribution temporelle)
    • Evaluation des thématiques
    • Autres problématiques liées à l’analyse thématique (choix du nombre de thématiques, titrage des thématiques...)
    • Cas pratique. Pour le cas pratique, n’hésitez pas à venir avec votre propre jeu de données. Les données doivent être au format CSV dans lequel chaque ligne décrit un document et il doit comporter au moins une colonne contenant des informations textuelles (ex. : titre, résumé d’article, billet de blog, etc.). Pour résoudre une tâche de classification (supervisée ou non), il est également important que le jeu de données soit suffisamment volumineux.



Organisation: Équipe DMD, laboratoire ERIC
Coordination: Jairo Cugliari, Adrien Guille, Julien Jacques, Julien Velcin