Accueil - Home arrow Cours arrow Programmation Perl (Master 2 IDL) 28-11-2021  
 
 

 

 
Main Menu
Accueil - Home
Qui suis-je - Who am I
Cours
Recherches - Research
Alinea
Multi-Aligneur JAM
ConcQuest
AnaText
WebAlignToolkit
Chercher sur le site
Corpus multilingues - Multilingual corpus
Perl Corpus Processor (PCP)
Notes en vrac

 

 
Programmation Perl (Master 2 IDL) Convertir en PDF  | Version imprimable |  Suggérer par mail

Objectifs

Ce cours aborde les techniques de programmation classiques du TAL avec le langage PERL.

- Lecture/écriture de flux de caractères
- Reconnaissance de motifs avec les Expressions régulières (révisions)
- Structures de liste et de hachage (manipulation de lexiques structurés).
- Algorithmes avancés du TAL : parsage XML, comptage de tri-gramme, étiquetage et désambiguïsation

 

Fiches de cours

Fiche 1 - Introduction

Fiche 2 - Généralités

Fiche 3 - Expressions régulières

Fiche 4 - Tableaux et hachages

Fiche 5 - Listes de listes

Fiche 6 - Fichiers et E/S

Annales

Master 2 IDL 2004-2005 : Sujet corrigé

Master 2 IDL 2005-2006 : Sujet - Corrigé

Master 2 IDL 2006-2007 : Sujet - Corrigé

Master 2 IDL 2007-2008 : Sujet - Corrigé

Projets et scripts

Extraction des données de Wiktionary : Télécharger le zip

 

Script pour  extraire des données dictionnairiques à partir des dump XML de wiktionary
PLusieurs hachages sont créés en sortie contenant, pour une entrée donnée :
    - sa description grammatical
    - les acceptions liées, avec une définition et des exemples pour chaque acception
    - ses représentations phonétiques SAMPA et API
    - sa notice étymologique
    - ses dérivés
    - la liste des dérivés morphologiques
    - la liste des expressions liées
    - la liste des mots composés liés
Les hachages sont enregistrés dans des DBM (DBM::Deep) mais peuvent être exportées au format CSV
En outre, le hachage Wordnet contient un réseau sémantique permettant de relier les acceptions par des relations de synonymie, hyponymie, meronymie et antonymie
Une complétion des relations est effectuée par ajout des relations symétriques et réciproques

Tagger/ lemmatiseur HMM en Perl : Télécharger le zip

Etiqueteur / lemmatiseur basé sur les données d'un dictionnaire de formes fléchies (http://abu.cnam.fr/DICO/mots-communs.html).

Un module d'entrainement permet d'extraire à partir d'un corpus étiqueté au format XML des statistiques pour alimenter un modèle trigramme HMM (chaînes de Markov cachées), afin de faire de la désambiguïsation morphosyntaxique. Un dictionnaire de formes composées peut-être extrait du corpus d'apprentissage.

L'étiqueteur comprend : un module de tokenisation (intégrant un éventuel dictionnaire de formes composées), un module d'étiquetage et un module de désambiguïsation.

Des tables de conversion de tagset permettent d'utiliser les jeux d'étiquette de son choix. 

A faire : ajouter un module d'analyse morphologique pour lemmatiser les mots inconnus 

Dernière mise à jour : ( 01-08-2008 )
 
 
© 2021 Site personnel de Olivier Kraif - Olivier Kraif's Homepage