Accueil - Home arrow ConcQuest 13-07-2020  
 
 

 

 
Main Menu
Accueil - Home
Qui suis-je - Who am I
Cours
Recherches - Research
Alinea
Multi-Aligneur JAM
ConcQuest
AnaText
WebAlignToolkit
Chercher sur le site
Corpus multilingues - Multilingual corpus
Perl Corpus Processor (PCP)
Notes en vrac

 

 
ConcQuest Convertir en PDF  | Version imprimable |  Suggérer par mail

ConcQuest

ConcQuest est un concordancier dédié à la recherche d'expressions complexes à travers des corpus monolingue et multilingues alignés.

 

Concquest is a concordancer that allows searching of complex expressions through monolingual and multilingual aligned corpora.

Plateforme

  • Windows 32 (2000, NT et XP)
  • Linux 

 

Platform

  • Windows 32 only (2000, NT et XP)
  • Linux

Fonctionnalités

  • Traitement de corpus étiquetés (format xml ou tabulé) comportant facultativement :
    • segmentation en phrase
    • tokenisation
    • lemmatisation et étiquetage motphosyntaxique
    • relations de dépendance
    • étiquetages divers au niveau des tokens.

 

Functionnalities

  • Processing of tagged corpora (xml format or tabulated text) with optionnaly:
    • sentence segmentation
    • tokenization
    • lemmatization and POS tags
    • dependency relations
    • various token level tags.
  • Recherche d'expressions complexes avec des critères portant sur les formes, les lemmes, les catégories, les traits morphosyntaxiques, mais aussi tout élément ou attribut xml codé au niveau des tokens. Implantation d'un formalisme de méta-expressions régulières (au niveau des tokens et au niveau de leurs attributs).

 

  • Complex expression search, combining criteria on forms, lemmata, categories, morphosyntactic features, and any xml attribute or element at token level. Implementation of meta-regular expressions formalism.
  • Prise en compte de critères syntaxiques, sous la forme de relations de dépendance entre tokens.

 

  • Integration of syntactic criteria (dependencies).
  • Recherche d'expressions discontinues.

 

  • Non contiguous expressions search.
  • Recherche monolingue d'une expression.

 

  • Monolingual search of a single expression.
  • Recherche monolingue de la cooccurrence de deux expressions connectées avec ET ou OU.

 

  • Monolingual search of collocations between two expressions (using OR/AND connectors).
  • Recherche bilingue (corpus parallèles alignés), avec une ou deux expressions connectées avec ET ou OU. Prise en compte des fichiers d'alignement (format cesAlign) comportant des appariements de phrases (et éventuellement de tokens) en référence aux fichiers source et cible.

 

  • Bilingual search on aligned corpora. Single expressions, or cooccurring expressions (using OR/AND connectors). Integration of aligned pairs (sentences or tokens) in  cesAlign format.
  • Recherches rapides pour des expressions contenant des mots pleins, grâce à des index par lemmes et par formes.

 

  • Quick search for expressions containing content words (using indexation of lemmata/forms).
  • Prise en compte de jeux d'étiquettes différents pour chaque corpus, grâce à des tables de conversion éditables par les utilisateurs. Ces tables de conversions permettent de définir des équivalences entre étiquettes au moyen d'expression régulières.

 

  • Integration of specific tagsets for earch corpus, using manually editable conversion charts. Possibility to use regular expressions to define classes of equivalent tags.
  • Tri des concordances obtenus, en utilisant deux clés de tri définies sur 3 à 6 positions (expression 1 avec contexte gauche et droit, expression 2 avec contexte gauche et droit).

 

  • Output sorting, using primary and secondary keys defined for 3 to 6 positions (first expression with left and right contexts, second expression with left and right contexts).

 

  • Extraction de statistiques d'occurrences, triées par ordre décroissant, calculables au niveau des suites de formes réalisées, ou des suites de lemmes.

 

 

  • Occurence statistics of found expressions (forms or lemmata).
  • Pour deux expressions (cas monolingue ou bilingue), extraction de statistiques de cooccurrences, triés et indexées suivant le même mécanisme. Calcul d'un indice d'association pour mesurer le degré d'association entre deux expressions.

 

  • Collocation statistics for cooccuring expressions (forms or lemmata).
  • Possibilité d'extraction aléatoire d'un nombre prédéfini d'occurrences.

 

  • Random extraction of a given numbers of occurrences.

Formats supportés

  • texte brut ISO-Latin-1 et UTF-8
  • XCES
  • XML avec segmentation, tokenisation, lemmatisation, étiquettes morphosyntaxiques
  • Sorties de Treetagger
  • Exportation en texte, KWIC, XML, TMX, et HTML

 

Supported formats

  • raw texte ISO-Latin-1 and UTF-8
  • XCES
  • XML with sentence segmentation, tokenization, lemmatization, morphosyntactic tags
  • Treetagger outputs
  • Exportation in  text, KWIC, XML, TMX and HTML

Licence d'utilisation

  • Gratuiciel
  • Contacter l'auteur : Olivier.Kraif@u-grenoble 3.fr

 

Licence d'utilisation

  • Freeware
  • Contact : Olivier.Kraif@u-grenoble 3.fr

Interface de démonstration

 

Demo interface

Dernière mise à jour : ( 24-01-2014 )
 
 
© 2020 Site personnel de Olivier Kraif - Olivier Kraif's Homepage