ConcQuest est un concordancier dédié à la recherche d'expressions complexes à travers des corpus monolingue et multilingues alignés. | | Concquest is a concordancer that allows searching of complex expressions through monolingual and multilingual aligned corpora. |
Plateforme - Windows 32 (2000, NT et XP)
- Linux
| | Platform - Windows 32 only (2000, NT et XP)
- Linux
|
Fonctionnalités - Traitement de corpus étiquetés (format xml ou tabulé) comportant facultativement :
- segmentation en phrase
- tokenisation
- lemmatisation et étiquetage motphosyntaxique
- relations de dépendance
- étiquetages divers au niveau des tokens.
| | Functionnalities - Processing of tagged corpora (xml format or tabulated text) with optionnaly:
- sentence segmentation
- tokenization
- lemmatization and POS tags
- dependency relations
- various token level tags.
|
- Recherche d'expressions complexes avec des critères portant sur les formes, les lemmes, les catégories, les traits morphosyntaxiques, mais aussi tout élément ou attribut xml codé au niveau des tokens. Implantation d'un formalisme de méta-expressions régulières (au niveau des tokens et au niveau de leurs attributs).
| | - Complex expression search, combining criteria on forms, lemmata, categories, morphosyntactic features, and any xml attribute or element at token level. Implementation of meta-regular expressions formalism.
|
- Prise en compte de critères syntaxiques, sous la forme de relations de dépendance entre tokens.
| | - Integration of syntactic criteria (dependencies).
|
- Recherche d'expressions discontinues.
| | - Non contiguous expressions search.
|
- Recherche monolingue d'une expression.
| | - Monolingual search of a single expression.
|
- Recherche monolingue de la cooccurrence de deux expressions connectées avec ET ou OU.
| | - Monolingual search of collocations between two expressions (using OR/AND connectors).
|
- Recherche bilingue (corpus parallèles alignés), avec une ou deux expressions connectées avec ET ou OU. Prise en compte des fichiers d'alignement (format cesAlign) comportant des appariements de phrases (et éventuellement de tokens) en référence aux fichiers source et cible.
| | - Bilingual search on aligned corpora. Single expressions, or cooccurring expressions (using OR/AND connectors). Integration of aligned pairs (sentences or tokens) in cesAlign format.
|
- Recherches rapides pour des expressions contenant des mots pleins, grâce à des index par lemmes et par formes.
| | - Quick search for expressions containing content words (using indexation of lemmata/forms).
|
- Prise en compte de jeux d'étiquettes différents pour chaque corpus, grâce à des tables de conversion éditables par les utilisateurs. Ces tables de conversions permettent de définir des équivalences entre étiquettes au moyen d'expression régulières.
| | - Integration of specific tagsets for earch corpus, using manually editable conversion charts. Possibility to use regular expressions to define classes of equivalent tags.
|
- Tri des concordances obtenus, en utilisant deux clés de tri définies sur 3 à 6 positions (expression 1 avec contexte gauche et droit, expression 2 avec contexte gauche et droit).
| | - Output sorting, using primary and secondary keys defined for 3 to 6 positions (first expression with left and right contexts, second expression with left and right contexts).
|
|
- Extraction de statistiques d'occurrences, triées par ordre décroissant, calculables au niveau des suites de formes réalisées, ou des suites de lemmes.
| | - Occurence statistics of found expressions (forms or lemmata).
|
- Pour deux expressions (cas monolingue ou bilingue), extraction de statistiques de cooccurrences, triés et indexées suivant le même mécanisme. Calcul d'un indice d'association pour mesurer le degré d'association entre deux expressions.
| | - Collocation statistics for cooccuring expressions (forms or lemmata).
|
- Possibilité d'extraction aléatoire d'un nombre prédéfini d'occurrences.
| | - Random extraction of a given numbers of occurrences.
|
Formats supportés - texte brut ISO-Latin-1 et UTF-8
- XCES
- XML avec segmentation, tokenisation, lemmatisation, étiquettes morphosyntaxiques
- Sorties de Treetagger
- Exportation en texte, KWIC, XML, TMX, et HTML
| | Supported formats - raw texte ISO-Latin-1 and UTF-8
- XCES
- XML with sentence segmentation, tokenization, lemmatization, morphosyntactic tags
- Treetagger outputs
- Exportation in text, KWIC, XML, TMX and HTML
|
Licence d'utilisation - Gratuiciel
- Contacter l'auteur : Olivier.Kraif@u-grenoble 3.fr
| | Licence d'utilisation - Freeware
- Contact : Olivier.Kraif@u-grenoble 3.fr
|
Interface de démonstration | | Demo interface |