Accueil - Home arrow Corpus multilingues - Multilingual corpus arrow En ligne - on line 26-09-2021  
 
 

 

 
Main Menu
Accueil - Home
Qui suis-je - Who am I
Cours
Recherches - Research
Alinea
Multi-Aligneur JAM
ConcQuest
AnaText
WebAlignToolkit
Chercher sur le site
Corpus multilingues - Multilingual corpus
Perl Corpus Processor (PCP)
Notes en vrac

 

 
Corpus en ligne - Online corpora Convertir en PDF  | Version imprimable |  Suggérer par mail

Corpus téléchargeables librement

Freely downloadable corpora

Acquis corpus (JRC)

Le socle législatif de l'Union européenne
Types : Institutionnel, juridique
Taille : environ 6 300 000 mots par langue
Langues : 20 langues officielles de l'UE (cs da de el en es et fi fr hu it lt lv mt nl pl pt ro sk sl sv).
Traitements : Sentence segmentation. Alignement.
Format : XCES

 

DGT-TM Translation Memory

Une mémoire de traduction tirée de ce corpus.

22 langues
231 paires de langues
Format: TMX version 1  

 Acquis corpus (JRC)

The EU law corpus
Types : Institutional, legal
Taille : around 6,300,000 words per language
Langues : 20 EU  official languages officielles (cs da de el en es et fi fr hu it lt lv mt nl pl pt ro sk sl sv).
Processing : Sentence segmentation. Aligning.
Format : XCES

 

DGT-TM Translation Memory

 A MT extracted from this corpus.

22 languages
231 language pairs
Format: TMX version 1
 

Corpus BAF (Bi-texte anglais français)

Types : Institutionnel, technique, scientifique, littéraire.
Taille : 400 000 mots dans chaque langue.
Langues : en fr
Traitements : Segmentation en phrases. Alignement.

 

Corpus BAF (Bi-texte anglais français)

Types: Institutional, technical, scientific, litterary.
Size : 400,000 words per language.
Languages : en fr
Processing : Sentence segmentation. Aligning.

Corpus CARMEL

(lien périmé : bientôt disponible sur ce site)

Classiques du récit de voyage (XIXe - début XXe)
Type : Littéraire
Taille :36 ouvrages, 10 000 000 de mots.
Langues : en es fr it
Traitements : Segmentation en phrases et tokens. Etiquetage mlorphosyntaxique et lemmatisation. Désambiguïsation sémantique. Identification thématique.

 

Corpus CARMEL

(outdated link : soon availabe on this website) 

Classics of travel story from 19th to early 20th.
Type : Litterary
Size : 36 works, 10,000,000 words.
Languages : en es fr it
Processing : Sentence segmentation and tokenization.
POS tagging and lemmatization. WSD, thematic identification.

CRATER Multilingual Aligned Annotated Corpus

Type : Technique
Domaine : Télécommunications
Taille :  1 000 000 mots
Langues : en fr es
Traitements : Etiquetage des parties du discours. Alignement.

 

CRATER Multilingual Aligned Annotated Corpus

Type : Technical
Domain : Telecommunications
Size :  1,000,000 words
Languages : en fr es
Processing : POS tagging. Aligning.

The IJS ELAN - Slovene-English Aligned Corpus

Taille :  1 000 000 mots
Langues : en sl
Traitements
: Segmentation en phrases, en tokens. Etiquetage morpho (Multext East tags). Alignement.
Format : standard TMX (Translation Memory Exchange) - XML/TEI P4

 

The IJS ELAN - Slovene-English Aligned Corpus

Size :  1,000,000 words
Languages : en sl
Processing
: Sentence segmentation, tokenizations. Morphosyntactic tagging (Multext East tags). Aligning.
Format : standard TMX (Translation Memory Exchange) - XML/TEI P4

English-Estonian and Estonian-English parallel corpus

Type : Legislatif.

Taille:

  • et-en = 1,7 millions de tokens en estonien, 2,9 millions de tokens en anglais.
  • en-et = 2,6 + 0,7 millions de tokens en estonien, 3,9 + 1,0 million de tokens en anglais.

English-Estonian and Estonian-English parallel corpus

Type : Legal texts.

Size :

  • et-en = 1.7 million tokens in Estonian, 2.9 million tokens in English.
  • en-et = 2.6 + 0.7 million tokens in Estonian, 3.9 + 1.0 million tokens in English.

OPUS, an open source parallel corpus

Types : technique, institutionnel.
Traitements : Segmentation en phrases, en tokens. Alignement.
Format : XCES
Description :
- EUconst, Le projet de constitution de l'UE (21 langues).
- Europarl, Comptes rendus du Parlement européen 1996-2003 (11 langues).
- Documentation Open Office (6 langues : de en es fr jp sv). Etiquetage des parties du discours.
- Manuel de PHP (21 langues).
- Messages System de KDE (60 langues!).
- Manuel de KDE (24 langues).

 

OPUS, an open source parallel corpus

Types : technical, institutional.
Processing : Sentence segmentation, tokenization. Aligning.
Format : XCES
Description :
- EUconst, the EU constitution project (21 languages).
- Europarl, European Parliament Proceedings 1996-2003 (11 languages).
- Open Office Documentation (6 languages : de en es fr jp sv). POS tagged.
- PHP Manual (21 languages).
- KDE System Messages (60 languages!).
- KDE Manual (24 languages).

Parallel Text Library (Tim Johns's DDL Page)

Débats et directives du parlement européen
Type : institutionnel
Langues : da de en es fi fr it nl pl pt
Traitements : Segmentation en paragraphes et phrases. Alignement.

 

Parallel Text Library (Tim Johns's DDL Page)

Debates and directives from the EU parliament
Type : institutional
Languages : da de en es fi fr it nl pl pt
Processing : Paragraph and sentence segmentation. Aligning.

Southeast European Times Corpus

Type : journalistique
Langues : bg bs el en hr mk ro sq sr tr
Taille : Approx. 9 500 paragraphes alignés, ~100,000 mots.
Domaine public (merci à Francis Tyers)

 

Southeast European Times Corpus

Type : newspaper
Languages : bg bs el en hr mk ro sq sr tr
Size : Approx. 9,500 aligned paragraphs, ~100,000 words.
This corpus is public domain and has been automatically generated. (thanks to Francis Tyers)

Swedish political texts (Uppsala Universitet)

Textes du gouvernement suédois
Langues: de en es fr sv
Taille : 11 000 mots.
Format : SGML - TEI
Traitements : Alignement
Fournisseur: Linguistic Modelling Laboratory, Bulgarian Academy of Sciences, Sofia, Bulgaria.
Restrictions: Non disponible pour un usage commercial.

 

Swedish political texts (Uppsala Universitet)

Texts from the Swedish government
Languages: de en es fr sv
Size : 11,000 words.
Format : SGML - TEI
Processing : Aligning
Resource provider: Linguistic Modelling Laboratory, Bulgarian Academy of Sciences, Sofia, Bulgaria.
Restrictions: Not available to industrial users

University of Maryland Parallel Corpus Project: The Bible

 13 langues

 

University of Maryland Parallel Corpus Project: The Bible

 13 languages

Corpus interrogeables en ligne

Corpora that can be interrogated online

Compara

 Projet Linguateca
Languages: pt en
Size : 62 paires de textes (fictions). Plus de 1 million de mots. Interface : DISPARA System, IMS Corpus Query Processor
Processing : Alignement
Resource provider: Linguateca consortium.

 

Compara

Linguateca project
Languages: pt en
Size : 62 text pairs (fictions). Over 1 M words.
Interface : DISPARA System, IMS Corpus Query Processor
Processing : Aligning
Resource provider: Linguateca consortium.

 ConcQuest corpus

 Consultable sur ce site.

 

ConcQuest Corpora

On this website.

Hong Kong Virtual Language Center

 

Concordancier en ligne, avec corpus parallèle. 

 

Hong Kong Virtual Language Center

 

Online concordancer with parallel corpus.

Knut Hofland English-French Aligned Texts

Langues : en fr

Knut Hofland English-French Aligned Texts

Languages : en fr

LINEAR B

Languages: de en es fr
Size :39,314,085 words.
Interface : Moteur de recherche
Processing : Alignement phrastique et au niveau des mots.

 

LINEAR B

Languages: de en es fr
Size :39,314,085 words.
Interface : Search engine style
Processing : Aligning at sentence and word level.

 WEBTCE

 

Langues: da de en es fr

 WEBTCE

 

Languages: da de en es fr

Corpus avec accès réservés

Restricted access


The English-Norwegian Parallel Corpus

Langues : en nb
Traitements : Alignement
Echantillon à : :http://www.hit.uib.no/enpc/st1-2.html
 
The English-Norwegian Parallel Corpus

Languages : Anglais - Norvégien
Processing : Aligning
Sample at : http://www.hit.uib.no/enpc/st1-2.html
  

 

 

 

 

Dernière mise à jour : ( 01-08-2008 )
 
 
© 2021 Site personnel de Olivier Kraif - Olivier Kraif's Homepage