Accueil - Home arrow Perl Corpus Processor (PCP) 10-04-2020  
 
 

 

 
Main Menu
Accueil - Home
Qui suis-je - Who am I
Cours
Recherches - Research
Alinea
Multi-Aligneur JAM
ConcQuest
AnaText
WebAlignToolkit
Chercher sur le site
Corpus multilingues - Multilingual corpus
Perl Corpus Processor (PCP)
Notes en vrac

 

 
Perl Corpus Processor Convertir en PDF  | Version imprimable |  Suggérer par mail

Présentation de PCP (Perl Corpus Processor)

PCP est un outil dédié à la mise en place de chaines de traitement (pipelines) sur des corpus de textes.

Dépourvu d'interface graphique, il fonctionne en ligne de commande.Il nécessite une bonne maîtrise des expressions régulières (nommage des fichiers et répertoires, extraction de contenu, etc.).

Voici les fonctions disponibles dans la version actuelle (3.2) :

  • crawling Web et enregistrement de pages ou fragment de pages - crawling de sites multilingues avec appariement des contenus parallèles
  • réencodage des caractères
  • extraction HTML vers texte brut
  • renommage en cascade
  • rechercher / remplacer en cascade
  • alignement multilingue (avec Alinea, Jam et Yasa)
  • interfaçage avec treetagger et XIP
  • comptage des phrases et des tokens
  • extraction et tri des fréquences des lemmes (par catégories : nom, verbe, adjectif, etc.)
  • extraction et tri des fréquences des formes (par catégories : nom, verbe, adjectif, etc.)
  • extraction des segments répétés
  • recherche de patterns (du type : DET ADJ NOM
  • recherche de concordance autour d'un pivot (ou d'un pattern)
  • extraction de cooccurrents
  • exécution de commandes externes

La boîte à outil est écrite en Perl. Une interface graphique pour une exécution online est prévue prochainement.

Le projet est également accessible sur github : https://github.com/kraifo/PCP

[Lien de téléchargement - Version 3.2]

 

Dernière mise à jour : ( 03-03-2019 )
 
 
© 2020 Site personnel de Olivier Kraif - Olivier Kraif's Homepage