Corpus, Langage
Logiciel d'Analyse de Données Textuelles (ADT)
Présentation
Laurent.Vanni@cnrs.fr

Logométrie. Corpus, Traitements, Modèles
UMR 7320 : Bases, Corpus, Langage

(Hyper)Bases, Corpus, Langage

E. Brunet : une discipline, un labo, un logiciel

1989

Hyperbase v1.0 : L'ADT sur ordinateur de bureau

Punched_card
Environement monochrome
MacOS 9
Punched_card
Langage de programmation
Hypercard
Punched_card
Premiers outils documentaires et
statistiques

1999

Hyperbase v2.0 : Windows 98 et ultérieur

Punched_card
Environement monochrome
MacOS 9
Punched_card
Langage de programmation
Hypercard
Punched_card
Premiers outils documentaires et
statistiques

2015

Hyperbase version 10 se décline en version web

Punched_card
Gratuit et téléchargeable
Punched_card
Gratuit et sans installation

2024

Hyperbase Web : version I.A.

Punched_card
Version actuelle accéssible ici

Hyperbase

Logiciel d'Analyse de Données Textuelles (ADT)

Analyse de Données Textuelles

Discipline historique des sciences du langage

Lebart, L., Pincemin, B. et Poudat, C. 2019. "Analyse des données textuelles" In Presses de l’Université du Québec.

Analyser et Interpréter

Méthodes et interfaces

Quelques exemples

Politiques, médiatiques, littéraires

Sur le discours politique

Les campagnes présidentielles

"féministe" dans la campagne présidentielle 2022
Triomphe lexical ou une lutte sémantique ?


Magali Guaresi. Les mots "féminisme" et "féministe" dans la campagne présidentielle : un triomphe lexical ou une lutte sémantique ?. Corpus, 2023, 24, ⟨10.4000/corpus.7714⟩. ⟨hal-03979102⟩

"féministe" dans la campagne présidentielle 2022
Triomphe lexical ou une lutte sémantique ?




Magali Guaresi. Les mots "féminisme" et "féministe" dans la campagne présidentielle : un triomphe lexical ou une lutte sémantique ?. Corpus, 2023, 24, ⟨10.4000/corpus.7714⟩. ⟨hal-03979102⟩

Sur le tourisme

Discours médiatique

Corpus de presse

Nationale / Régionale (de 2017 à 2021)

Distance intertextuelle

Clivage Nationale / Régionale

Spécificités pré/post covid

Presse nationale

Spécificités pré/post covid

Presse régionale

Cooccurrences pré/post covid

Cooccurrences pré/post covid

Sur le genre littéraire

Récit de voyage / fiction

Focus sur Pierre Loti

Corpus d'oeuvres littéraires

Distance intertextuelle (Voyage / Fiction)

Spécificités Voyage

Spécificités Fiction

AFC segments répétés

Vers l'analyse de régularités stylistiques / motifs

Quid de l'I.A. ?

Architecture deep learning

Multichannel Convolutional Transformer

Deep learning

Prediction/classification de textes

Embedding

Représentation vectorielle des mots

Convolution

Capture de l'axe syntagmatique


Damon Mayaffre, Laurent Vanni. Sémantique de corpus numérique. Emmanuel Macron, président thaumaturge (2017-2023). Espaces Linguistiques, 2023, 6, ⟨10.25965/espaces-linguistiques.562⟩. ⟨hal-04353800⟩

Self-Attention

Capture de l'axe paradigmatique


Damon Mayaffre, Laurent Vanni. « Sémantique de corpus numérique. Emmanuel Macron, président thaumaturge (2017-2023). » Espaces Linguistiques, 2023, 6, ⟨10.25965/espaces-linguistiques.562⟩. ⟨hal-04353800⟩

(self) Attention is all you need (NIPS 2017)

Transformer ?

ChatGPT ?

Self-Attention et Transformer

Generation de texte (GPT)

Self-Attention et Transformer

Classification de texte (Hyperdeep)

Multichannel Transformer

Capture de dépendances multi-dimentionnelles

Multichannel Convolutional Transformer (MCT)

Axes : syntagmatique + paradigmatique (multi-dimentionnels)


Laurent Vanni, Hadi Mahmoudi, Dominique Longrée, Damon Mayaffre (sous presse). « Multi-channel Convolutional Transformer and intertextuality : a Latin case study». Springer.

Interprétation ?

Ouvrir la boite noire

Interpretation

Projection des couches cachées

Exemple : Déconvolution

Une nouvelle représentation des textes


Laurent Vanni, Mélanie Ducoffe, Damon Mayaffre, Frédéric Precioso, Dominique Longrée, et al.. (2018). Text Deconvolution Saliency (TDS) : a deep tool box for linguistic analysis. 56th Annual Meeting of the Association for Computational Linguistics, Jul 2018, Melbourne, France. ⟨hal-01804310⟩

Exemple : Déconvolution

Une nouvelle représentation des textes


Laurent Vanni, Mélanie Ducoffe, Damon Mayaffre, Frédéric Precioso, Dominique Longrée, et al.. (2018). Text Deconvolution Saliency (TDS) : a deep tool box for linguistic analysis. 56th Annual Meeting of the Association for Computational Linguistics, Jul 2018, Melbourne, France. ⟨hal-01804310⟩

Exemple : Déconvolution

Une nouvelle représentation des textes


Laurent Vanni, Mélanie Ducoffe, Damon Mayaffre, Frédéric Precioso, Dominique Longrée, et al.. (2018). Text Deconvolution Saliency (TDS) : a deep tool box for linguistic analysis. 56th Annual Meeting of the Association for Computational Linguistics, Jul 2018, Melbourne, France. ⟨hal-01804310⟩

Quelques exemples

Hyperdeep appliqué aux SHS

Sur les représentaions genrées

Dans les dialogues de films

Towards a computational multimodal analysis of film discursive aesthetics (ANR TRACTIVE)

À propos des représentations genrées dans les films

Corpus de films: Cornell movie-dialogs
  • 2,8 millions de mots
  • Deux classes : dialogues hommes / dialogues femmes

Dialogues attribués aux femmes

Phénomènes observés de male gaze

  • Typiques des conversations entre femmes : centralité des questions du corps
    • Isotopie de l’esthétique (la beauté, le soin du corps)
    • Grossesse
  • Lorsque les femmes parlent entre elles, très souvent, elles parlent des hommes
    • Le verbe d’état “être” relié à des adjectifs qualificatifs qui signent un dialogue autour des qualités
    • Personnages féminins sont présents dans les films comme faire valoir des personnages masculins (voir test de Bechdel)

Haris S., Vanni L and Guaresi M. (2023). Text Analysis Using Convolutional Neural Networks with Multi-Head Attention. Quantitative Linguistics Conference 2023, Lausanne, Switzerland, June 28-30

Sur la poésie latine

Anlyse de motifs linguistiques profonds

Deep Learning, un instrument heuristique confronté à l'exemple ovidien

Deep Learning, un instrument heuristique confronté à l'exemple ovidien


Laurent Vanni, Hadi Mahmoudi, Dominique Longrée, Damon Mayaffre (sous presse). « Multi-channel Convolutional Transformer and intertextuality : a Latin case study». Springer.

Deep Learning, un instrument heuristique confronté à l'exemple ovidien


Laurent Vanni, Hadi Mahmoudi, Dominique Longrée, Damon Mayaffre (sous presse). « Multi-channel Convolutional Transformer and intertextuality : a Latin case study». Springer.

DeepFLE

Évaluation automatique du niveau de textes en français

Sur le discours politique

« Projet », « renaissance », « renouveau »…

Référence ou proférence dans le discours d’Emmanuel Macron ?

Source : Clément Viktorovitch - « Entre les lignes » - France Info - Publié le 14/01/2024


Damon Mayaffre, Laurent Vanni. 2023. « Projet », « renaissance », « renouveau »… : référence ou proférence dans le discours d’Emmanuel Macron ?. Mots: les langages du politique, 2023, 132, pp.149-168. ⟨10.4000/mots.32221⟩. ⟨hal-04205476⟩

Damon Mayaffre, Laurent Vanni. 2023. « Sémantique de corpus numérique. Emmanuel Macron, président thaumaturge (2017-2023)». Espaces Linguistiques, 2023, 6, ⟨10.25965/espaces-linguistiques.562⟩. ⟨hal-04353800⟩

Corpus, Langage

Merci!

Présentation
Laurent.Vanni@univ-cotedazur.fr

Logométrie. Corpus, Traitements, Modèles
UMR 7320 : Bases, Corpus, Langage