Formation intensive en analyse de texte assistée par ordinateur: printemps-été 2018

Cette formation intensive en analyse de texte assistée par ordinateur se tiendra à l’Université du Québec à Montréal du 4 mai au 22 juin 2018. Elle est organisée par le Centre ATO en collaboration avec le LANCI (Laboratoire d'ANalyse Cognitive de l'Information) et avec l'appui du CIRST (Centre interuniversitaire de recherche sur la science et la technologie).

Avec la croissance exponentielle des documents textuels en format numérique, la recherche dans les sciences humaines nécessite de plus en plus de maîtriser des modèles et des méthodes computationnelles d’analyse de textes ainsi que plusieurs outils spécialisés. L’acquisition de ces nouvelles compétences méthodologiques est devenue nécessaire autant pour des approches basées sur la fouille de texte que des approches qualitatives basées sur l’annotation. Or, l’apprentissage des ces savoirs-faires est peu accessible dans les cursus disciplinaires traditionnels en sciences humaines et sociales.

Cette formation, en mode laboratoire, vise à répondre à un besoin grandissant de la part des étudiantsi et des chercheurs des sciences humaines pour l’acquisition de l’ensemble des compétences nécessaires à l’analyse de corpus de textes numériques, notamment la constitution des corpus, le prétraitement des textes, la modélisation computationnelle, l’analytique automatique et la visualisation des résultats.

Sous la forme de 7 jours (vendredi) d’apprentissage par la pratique étalés sur 7 semaines (du 4 mai au 22 juin 2018), cette formation intensive et individualisée est donnée à un groupe restreint par des experts à l’intersection des sciences humaines et de l’informatique. Ainsi, pour un meilleur accompagnement et une meilleure appropriation des apprentissages, chaque séance sera espacée de la suivante d'une semaine et le ratio formateur/étudiant est très élevé afin de permettre aux participant-es de mieux appliquer les acquis sur leur propre corpus.

Consultez régulièrement cette page web pour les mises à jour.

Pour toute information ponctuelle contacter: formation2018ato@gmail.com

Objectifs et retombées de l'édition 2018

Cette édition de la formation s’appuie sur l’expérience et l’interdisciplinarité de ses formateurs pour offrir une formation intensive à deux approches (fouille et annotation de texte) de l’ATO qui se croisent rarement dans les publications et l'enseignement. En effet, chacune de ces approches possède actuellement sa communauté de pratique ainsi que ses outils informatiques, le Text mining ii d’un côté, et les CAQDAS iii pour l’annotation de texte, de l’autre. C’est pourquoi cette formation poursuit les objectifs généraux suivants :

  • Proposer une formation unique et intégrée de différentes approches et outils de l’ATO;
  • Combler l’absence d’une formation académique enseignant les bases techniques et théoriques de l'ATO nécessaires à sa pratique;
  • Favoriser la formation de chercheurs adaptés aux humanités numériques.
  • Décloisonner l'usage des outils en ATO en se conscientisant à l'interopérabilité entre outils et à la programmation informatique de base.

 

Au terme de cette formation, les étudiants inscrits devraient avoir atteint les compétences suivantes:

  • Être en mesure de se situer par rapport à la variété des approches de l'ATO (fouille de texte, analyses qualitatives des textes, traitement automatique de la langue).

  • Comprendre comment et pourquoi les sciences humaines s’intéressent à l’ATO

  • Être capable d'analyser un corpus suivant deux approches en ATO (analyse de texte assistée par ordinateur): les méthodes qualitatives (annotation sur mesure des textes) et quantitatives (fouille de textes).

  • Savoir distinguer les différentes dimensions d'analyse d'un corpus (métadonnée, document, structure d'un document, annotation, unité lexicale)

  • Se former par la pratique aux techniques et outils récents en ATO en les appliquant autant sur des corpus d’exercices qu'à ses propres corpus de recherche

  • Se familiariser avec les méthodologies de l’analyse de textes assistée par ordinateur (fouille de textes et d'annotations de textes) et l’ensemble des opérations d’une chaîne de traitement: constitution du corpus, prétraitement, annotation, modélisation, analyse, évaluation et visualisation

  • Maitriser les rudiments de la manipulation de scripts dans le langage de programmation R;

  • S'autonomiser quant à l'interopérabilité des données (importation/exportation) entre différents environnements.

Admissibilité et inscriptions (maximum atteint)

Cette formation est donnée à la fois comme cours créditable (FSH8050) dans un cursus de maîtrise (2e cycle) ou de doctorat (3e cycle) et comme formation libre (gratuite). Les conditions d'admissibilité et la procédure de sélection qui suit s'appliquent uniquement aux personnes qui désirent s'inscrire à la formation libre. Il n'y a donc pas de procédure de sélection pour le cours FSH8050.

Pour ces personnes, comme la formation est offerte sans frais, veuillez noter que les places seront limitées et que l’acceptation de chaque personne est sous réserve d’étude du dossier par un comité de sélection. Ce comité se réserve le droit de choisir les candidats en fonction des objectifs de recherche et de formation visés par l'activité.

Conditions d’admissibilité :

  • Les candidats devront être inscrits dans un programme de cycles supérieur ou en stage post-doctoral à l’UQAM, dans une autre université québécoise (CRÉPUQ) ou dans une autre province.

  • Indiquer clairement les besoins qui les incitent à participer à la formation ainsi que leurs intérêts pour l'étude du langage (fouille d'opinion, sociolinguistique, analyse de discours, sentiment analysis, analyse de contenu, etc.).

  • Avoir suivi un cours de base en statistiques descriptives (moyenne, écart-type, pourcentage, médiane, etc.)

  • Compétences informatiques de base : Traitement de texte: copier-coller, rechercher-remplacer, raccourcis clavier, etc. / Gestion de fichiers : opérations de tri, nomenclature de fichier/dossier, extension de fichier, etc. / Connaissance minimale de Excel ou Calc: copier-répéter (poignée de recopie), opérations de tri et de filtrage, etc.

  • Une bonne connaissance du français est exigée étant donné que les séances sont exclusivement dispensées en français.

  • Être intéressé par la programmation informatique de base.

  • Avoir suivi un cours de base en analyse qualitative (codage, préparation de corpus) est un atout

  • Avoir déjà un corpus spécifique d'analyse est un atout.

N.B. L’offre n’est pas limitée à un domaine ou discipline spécifique

Procédure de sélection

Chaque candidature sera évaluée par le comité organisateur de la formation. Les candidats retenus seront contactés dans les plus brefs délais après la date limite de dépôt des demandes. Après l’annonce d’admission, la personne devra envoyer un chèque de 350$ qui lui sera rendu le 4e jour de la formation. Le chèque de dépôt doit être fait à l'ordre de l’Université du Québec à Montréal et envoyé à :

Centre ATO
Département de sociologie
Université du Québec à Montréal
Case postale 8888, succursale Centre-ville
Montréal (Québec) H3C 3P8

Il incombera enfin au candidat d’effectuer, s’il y a lieu, le reste des démarches administratives ou autres (e.g. frais de déplacements et de logement à Montréal) car les organisateurs de l'atelier n'offrent pas de soutien financier pour le déplacement, l'hébergement et la nourriture.

Dossier des candidats et documents à envoyer

Prière d’inclure dans le dossier envoyé

  • Lettre de motivation (700 mots maximum).
  • Numérisation de la preuve d’inscription (2e ou 3e cycle) ou de statut post-doctorant.
  • Curriculum vitae: Formation antérieure, Expérience de recherche, Compétence en statistiques et en informatique et familiarité avec les méthodes qualitatives s'il y a lieu.

Les candidatures doivent être adressées par courriel à : formation2018ato@gmail.com

N.B. (16 mars 2018): Comme le maximum est déjà atteint et que la date limite est passée, aucune soumission de candidature ne sera traitée.

Dates importantes (pour les non inscrits au FSH8050)

  • Soumission de dossier : avant le 16 mars 2018
  • Annonce de la sélection des candidats : 30 mars 2018
  • Confirmation de partipation : avant le 16 avril 2018

Inscription au cours FSH8050 (maximum atteint, inscription suspendue)

L’inscription au cours FSH8050 se fait par le biais du registrariat de l’UQAM à partir du 5 mars 2018. Les étudiants-es des autres universités québécoises doivent faire leur demande d’inscription sur le site du BCI (entente interuniversitaire); pour les étudiants-es hors du Québec, prière de s’informer auprès de votre responsable de programme; la personne ressource à l’UQAM est Mme Nathalie Léger (leger.nathalie@uqam.ca). Les frais applicables sont ceux correspondant à l’inscription à un cours de trois crédits à l'UQAM.

N.B. (13 mars 2018): Le nombre de places disponibles au cours FSH8050 est déjà atteint de sorte que l’inscription est maintenant suspendue.

    Équipe

    Comité organisateur :

    • Élias RIZKALLAH - Professeur de sociologie (Centre ATO) à l’Université du Québec à Montréal
    • Jean-Guy MEUNIER - Professeur retraité de philosophie (LANCI) à l’Université du Québec à Montréal
    • Jean-François CHARTIER - Post-doctorant à l'Université de Montréal (EBSI)

    Présentateurs :

    • Benjamin DERUELLE, professeur d'histoire à l’Université du Québec à Montréal
    • Dominic FOREST, professeur, Université de Montréal (EBSI)
    • Ludovic LEBART - Directeur de recherche au CNRS (France).

    Assistants

    • Louis CHARTRAND, Université du Québec à Montréal
    • Francis LAREAU, Université du Québec à Montréal
    • Davide PULIZZOTTO, Université du Québec à Montréal
    • Maxime SAINTE-MARIE, Post-doctorant Université de Montréal

     

    Programmation préliminaire

     

    Jour 1 (4 mai 2018) : Introduction à l’ATO et à la fouille de texte
    Accueil et présentations

    • Humanités numériques et modélisation scientifique – Jean-Guy Meunier (UQAM)
    • Applications professionnelles de l’ATO à l’ère des données massives – Dominic Forest (Université de Montréal)
    • Éléments fondamentaux pour toute ATO – Élias Rizkallah (UQAM)
    • Panoplie des analyses en ATO – Ludovic Lebart (CNRS, France)
    • Présentation du matériel pédagogique (corpus, bibliographie, plateformes, etc.)
    • Présentation par les participants des corpus personnels

     

    Jour 2 (11 mai 2018) : Prétraitement des corpus
    Préparer, décrire et annoter un corpus à des fins d’analyse.

    • Opérations de prétraitements
    • Analyses univariées explorations préliminaires de corpus
    • Opérations d’annotation manuelle et semi-automatique

     

    Jour 3 (18 mai 2018) : Analyse de cooccurrence
    Cooccurrences de lemmes et d’annotations : analyse bivariée

    • Cooccurrences de 1er ordre (p. ex. lemme/segment, annotation/segment) et de 2e ordre (lemme/lemme)
    • Mesures d’association et de dis/similarité
    • Exercices d’analyse de cooccurrences sur lemmes et annotations

     

    Jour 4 (25 mai 2018) : Regroupement automatique (clustering)
    Analyse multivariée non supervisée 1

    • Clusters, pondération et spécificités
    • Algorithmes : regroupement hiérarchique et K-means
    • Exercices de classification sur lemmes et annotations

     

    Jour 5 (1er juin 2018) : Analyse « thématique » automatisée
    Analyse multivariée non supervisée 2

    • Techniques de réduction dimensionnelle (à base de SVD)
    • « Topic modeling »
    • Exercices d’analyse « thématique » automatisée sur lemmes et annotations

     

    Jour 6 (8 juin 2018) : Mentorat et consolidation des acquis

     

    Jour 7 (15 juin 2018) : Apprentissage supervisé appliqué au texte
    Analyse multivariée supervisée

    • Approximation de fonction et exemplaires de la fonction
    • Sélection des traits (features)
    • Algorithme d’apprentissage supervisé (p. ex. arbre de décisions, Naïve Bayes)
    • Exercices d’analyse supervisée sur lemmes et annotations

     

    Jour 8 (22 juin 2018) : Synthèse des différentes dimensions de la formation
    Croisements entre les différentes unités d’analyses et méthodes d’analyse

    • Croisements entre les unités textuelles et les annotations
    • Croisements entre les analyses supervisées et non supervisées
    • Présentation de résultats sur les corpus
    • Clôture de la formation

     

    i Dans cette page l’emploi du masculin pour désigner des personnes n’a d’autres fins que celle d’alléger le texte.

    ii Par exemple les logiciels suivants: Alceste, IBM SPSS Text Analytics, Lexico3, DTM-Vic, Knime, R, Rapidminer, SAS Text Miner, T-lab, Weka, etc.

    iii Computer Assisted Qualitative Data Analysis Software comme les logiciels suivants: ATLAS.ti, MaxQDA, NVivo, QDAMiner, RQDA, Sémato, SATO etc.