ConcQuest

Concordancier dédié à la recherche d’expressions complexes à travers des corpus monolingue et multilingues alignés.
 
 

FICHE DESCRIPTIVE DE L’OUTIL

Responsable du projet Olivier Kraif – Université Stendhal (Grenoble 3)
Dernière version ConcQuest 2.1
Accessibilité Gratuiciel – Téléchargement ici
Site web Interface de démonstration  (avec interface graphique d’aide à la construction de requêtes et corpus multilingue interrogeable en ligne)
Systèmes Windows 32 (2000, NT et XP), Linux
Interface – Ergonomie Interface simple et facile d’utilisation
Format des corpus en entrée Texte brut ISO-Latin-1 et UTF-8, XCES, XML avec segmentation, tokenisation, lemmatisation, étiquettes morphosyntaxiques, sorties de Treetagger
Format des corpus en sortie Exportation en texte, KWIC, XML, TMX, et HTML
Fonctionnalités – Traitement de corpus étiquetés (format xml ou tabulé)

– Recherche d’expressions complexes avec des critères portant sur les formes, les lemmes, les catégories, les traits morphosyntaxiques

– Recherche d’expressions discontinues

– Possibilité d’extraction aléatoire d’un nombre prédéfini d’occurrences

– Extraction de statistiques d’occurrences, triées par ordre décroissant, calculables au niveau des suites de formes réalisées, ou des suites de lemmes ect. (voir plus de fonctionnalités)

Annotations gérées par l’outil Lemmes, POS, morpho/flexion, relations syntaxiques
Documentation Manuel d’utilisation
Type d’outil Analyse

PRATIQUES ET USAGES DE ConcQuest

Objectifs de recherche Recherche de concordances à l’aide d’un langage de requêtes
Visée Moteur, concordancier
Pratiques Concordance
Scénarios Concordance sur corpus annotés, gestion du multiniveau avec CQP, utilisation d’expressions régulières dans tous les éléments de la requête, affichage graphique

 
Signaler des erreurs et/ou proposer des modifications
 
 
Donner votre avis sur l’outil : 

Interface - Ergonomie
0
Fonctionnalités
0
Facilité d utilisation
0
Moyenne
  Chargement, attendez s'il vous plait yasr-loader

Le Trameur

 

Programme de génération puis de gestion de la Trame et du Cadre d’un texte (i.e découpage en unité et partitionnement du texte : le métier textométrique) pour construire des opérations lexicométriques / textométriques (ventilation des unités, carte des sections, cooccurrence, spécificité, AFC…). Le Trameur intègre en outre le programme treetagger : système d’étiquetage automatique des catégories grammaticales des mots avec lemmatisation. Il permet aussi de généner et de gérer des annotations multiples sur les unités du texte (et de traiter les niveaux d’annotations visés)

 

Fiche descriptive de l’outil

 

Dernière version Le Trameur v12  (Interface bilingue (français/anglais), traitement spécifique pour des corpus alignés, exploration de treebanks (corpus arborés))
Accessibilité
Version complète (avec treetagger) sur demande à serge.fleury[at]univ-paris3.fr
Version allégée (sans treetagger) : http://www.tal.univ-paris3.fr/trameur/#p4
Systèmes Windows
Format des corpus en entrée TXT, XML ou structuré via des balises (cf documentation)
Format des corpus en sortie
Fonctionnalités

Annotation dynamique, concordance, collocation, carte des sections, ventilation, spécificités, moteur de recherche, méthodes factorielles, recherche de patrons, traitements des dépendances, traitement de sous-corpus, traitement de corpus alignés, segments répétés, calculs textométriques sur tout niveau d’annotation.

Annotations gérées par l’outil
Par défaut, annotation morphosyntaxique (Treetagger).
Prise en charge d’annotations multiples.
Documentation http://www.tal.univ-paris3.fr/trameur/leMetierLexicometrique.pdf
Type d’outil
Outil pour l’exploration de ressources richement annotées. Le Trameur est un programme d’analyse comportant de nombreuses fonctionnalités de haut niveau pour l’analyse statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation.

Pratiques et usages

&nbsp:
1. Fiche renseignée par : Georgeta Cislaru (SYLED, Paris 3 Sorbonne nouvelle) – Emilie Née (Céditec, UPEC), Frédérique Sitri (Modyco – Université Paris Ouest, CNRS)

Objectifs de recherche Contraster différentes versions d’un même texte
Pratiques Mettre au jour les spécificités d’une partition
Scénarios Spécificités – Loi hypergéométrique

2. Fiche renseignée par : Emilie Née(Céditec, UPEC),Frédérique Sitri(Modyco – Université Paris Ouest, CNRS)

Objectifs de recherche Identifier des routines discursives de manière inductive
Pratique Segments répétés
Scénarios Calcul des segments répétés de Lexico3

Signaler des erreurs et/ou proposer des modifications
 
 

Donner votre avis sur l’outil : 

Interface - Ergonomie
0
Fonctionnalités
0
Facilité d utilisation
0
Moyenne
  Chargement, attendez s'il vous plait yasr-loader

Unitex

 

Unitex est un ensemble de logiciels permettant de traiter des textes en langues naturelles en utilisant des ressources linguistiques. Ces ressources se présentent sous la forme de dictionnaires électroniques, de grammaires et de tables de lexique-grammaire. Elles sont issues de travaux initiés sur le français par Maurice Gross au Laboratoire d’Automatique Documentaire et Linguistique (LADL) . Ces travaux ont été étendus à d’autres langues au travers du réseau de laboratoires RELEX.(Manuel d’utilisation, septembre 2014)

 
 

FICHE DESCRIPTIVE DE L’OUTIL

 
 

Dernière version Unitex 3.1 (septembre 2014)
Site Web http://www-igm.univ-mlv.fr/~unitex/
Accessibilité Téléchargement en ligne gratuit ici
Systèmes Windows,  Linux,  Mac OS
Interface – Ergonomie Interface en anglais
Licence LGPL
Format des corpus en entrée TXT (Unicode)
Format des corpus en sortie HTML – XML – CSV – TXT (Unicode)
Fonctionnalités – Création de ressources linguistiques (dictionnaires électroniques, grammaires)

– Recherches complexes dans les corpus

– Concordancier

– Création de dictionnaires et de règles locales ou morphologiques- Annotation

– Alignement de corpus.

Annotations gérées par l’outil Annotations morphosyntaxiques – DELA
Documentation Manuel d’utilisation
Type d’outil Annotation – Analyse

PRATIQUES ET USAGES D’UNITEX

 
 
1. Fiche renseignée par : Céline Poudat (BCL – Université de Nice Sophia Antipolis)
 
 

Objectifs de recherche Annoter des motifs textuels dont on fait l’hypothèse pour une typologie textuelle spécifique
Visée Annotation de patrons lexicaux et morphosyntaxiques
Scénarios Annotation avec automates, regexp, possibilité de variabiliser un élément à annoter

 
 
2. Fiche renseignée par : Céline Poudat (BCL – Université de Nice Sophia Antipolis)
 
 

Objectifs de recherche Rechercher des motifs textuels dont on fait l’hypothèse pour une typologie textuelle spécifique
Visée Analyse et traitement de corpus textuels mobilisant des automates (recherche et annotation)
Scénarios Construction de requêtes en mode graphique (automates) et en mode texte, gestion de différents niveaux d’annotation (DELA), retour au texte, possibilités de faire des diff sur deux concordances

 
 

EXEMPLES D’UTILISATEURS INSTITUTIONNELS

 
 

 
Signaler des erreurs et/ou proposer des modifications
 
 
Donner votre avis sur l’outil : 

Interface - Ergonomie
2
Fonctionnalités
2
Facilité d utilisation
2
Moyenne
  Chargement, attendez s'il vous plait yasr-loader

Lexico3

Outil de statistiques textuels
 
 

Fiche descriptive de l’outil

Responsable du projet Equipe universitaire SYLED-CLA2T
Dernière version Lexico 3 – Février 2003
Accessibilité Diffusion commerciale
Site web http://www.tal.univ-paris3.fr/lexico/
Systèmes Windows 95, et Windows NT 3.51 et 4.0
Format des corpus en entrée Corpus textuel
Format des corpus en sortie non renseigné
Fonctionnalités
  • Segmentation
  • Concordances
  •  Décomptes portant sur les formes graphiques, spécificités et analyses factorielles portant sur les formes et les segments répétés
  • Caractérisation des différentes parties d’un corpus
Annotations gérées par l’outil Corpus textuel brut
Documentation Manuel d’utilisation
Type d’outil Analyse
Visée Textométrie

Pratiques et usages de Hyperbase

Fiches renseignées par Emilie Née (Céditec, UPEC) ; Céline Poudat (BCL, Nice Sophia Antipolis)

  • Fiche 1 :
Objectifs de recherche Contraster différentes parties d’un même texte
Pratiques Explorer la structure d’un corpus
Scénarios AFC
  • Fiche 2 :
Objectifs de recherche Faire émerger en corpus les motifs textuels spécifiques à une typologie textuelle
Pratiques Segments répétés (voir glossaire)
Scénarios Segments répétés mots – Calcul sur du texte brut
  • Fiche 3 :
Objectifs de recherche Identifier et caractériser des usages linguistiques propres à un genre
Pratiques Explorer la structure d’un corpus
Scénarios Mettre au jour les spécificités d’une partition

 

  • Fiche 4 :
Objectifs de recherche Rechercher un mot/motif en tenant compte de la séquentialité textuelle
Pratiques Carte graphique ou visualisation topologique
Scénarios Visualisation du texte avec carte des sections

 

Signaler des erreurs et/ou proposer des modifications
 
 

Donner votre avis sur l’outil : 

Interface - Ergonomie
0
Fonctionnalités
0
Facilité d utilisation
0
Moyenne
  Chargement, attendez s'il vous plait yasr-loader

Nooj

 

NooJ est un environnement de développement linguistique qui permet de construire et de gérer des dictionnaires et grammaires électroniques à large couverture, afin de formaliser divers niveaux des langues naturelles : orthographe, morphologie flexionnelle et dérivationnelle, lexique de mots simples, mots composés et expressions figées, syntaxe locale et désambiguïsation, syntaxe structurelle et transformationnelle, sémantique et ontologies. Les descriptions formalisées peuvent ensuite être appliquées pour traiter des textes et corpus de taille importante.

 
 

nooj nooj1

FICHE DESCRIPTIVE DE L’OUTIL

Responsable du projet Max Silberztein
Dernière version Nooj 2.0
Site Web http://www.nooj4nlp.net/pages/nooj.html
Accessibilité Téléchargement en ligne gratuit ici
Systèmes Windows, Mac OSX, LINUX et Unix
Interface – Ergonomie Interface en anglais
Licence LGPL
Format des corpus en entrée NooJ peut traiter des textes et des corpus dans plus de 100 formats de fichiers, y compris HTML, PDF, MS-Office, toutes les variantes de l’Unicode, ASCII, etc.
Format des corpus en sortie HTML – XML – CSV
Fonctionnalités
  • Permet de formaliser huit niveaux de phénomènes linguistiques : orthographe et typographie, morphologie flexionnelle et dérivationnelle, syntaxe locale et structurelle, grammaire transformationnelle et analyse sémantique
  • Contient des outils informatiques adaptés à chaque type de phénomène (grammaires rationnelles, hors contexte, contextuelles et non restreintes)
  • Permet de développer des ressources à large couverture dans une perspective de linguistique descriptive
Annotations gérées par l’outil
Documentation Manuel d’utilisation
Type d’outil Annotation

Signaler des erreurs et/ou proposer des modifications
 
 
Donner votre avis sur l’outil : 

Interface - Ergonomie
1
Fonctionnalités
1
Facilité d utilisation
1
Moyenne
  Chargement, attendez s'il vous plait yasr-loader

Frantext

 

Frantext est le nom d’une base de données de textes français : textes littéraires et philosophiques, mais aussi scientifiques et techniques (environ 10%), développée et maintenue au sein de l’ATILF-CNRS (ex INaLF). Elle a été créée autour d’un noyau de mille textes, dans les années 70, afin de fournir des exemples pour le Trésor de la Langue Française. Une fois le dictionnaire terminé, elle a continué à évoluer : d’abord mise à disposition dans les années 80 sous forme d’un CD ( » Discotext « ), elle a été mise en ligne sur le web en 1998 par l’informaticien auteur de son moteur de recherches, Jacques Dendien.

 
 

FICHE DESCRIPTIVE DE L’OUTIL

 
 

Responsable du projet Laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française)
Dernière version Frantext – Octobre 2014
Accessibilité Accès à la version intégrale sur abonnement iciAccès en ligne à Frantext démonstration avec toutes les fonctionnalités sur un corpus de 35 textes libres de droits
Format des corpus en entrée Txt, Xml, Html
Fonctionnalités – Consultation et sélection de textes grâce à des critères bibliographiques (titres, auteurs, dates, genres littéraires)
– Recherche dans les textes (d’un mot, d’une expression)
– Calcul de fréquences (comptage du nombre d’occurrences d’un mot ou de plusieurs mots donnés)
– Expressions de séquences (recherche de contexte contenant une suite de mots consécutifs)
Annotations gérées par l’outil Annotations morphosyntaxique
Documentation Manuel d’utilisation
Type d’outil Analyse
Visée Moteur – Recherche d’informations – Traitement quantitatif

PRATIQUES ET USAGES DE FRANTEXT

 
 

  • 1. Fiche renseignée par : Véronique Montémont (Université Henri Poincaré – Nancy 1 – ATILF) , Frédéric Landragin (LaTTice – CNRS) :
Objectifs de recherche Collecte d’exemples attestés sur des phénomènes linguistiques divers
Pratiques Concordance
Scénarios Concordancier en ligne sur corpus à définir par l’utilisateur (max 4842 textes / 261 850 685 occ) – concordances de cooccurrences – corpus annoté ou non

 

Signaler des erreurs et/ou proposer des modifications
 
 
Donner votre avis sur l’outil : 

Interface - Ergonomie
0
Fonctionnalités
0
Facilité d utilisation
0
Moyenne
  Chargement, attendez s'il vous plait yasr-loader

Hyperbase

Logiciel documentaire et statistique pour l’exploration des textes
 
 

Fiche descriptive de l’outil

Responsable du projet Etienne Brunet – Laboratoire BCL (UMR 6039)
Dernière version Hyperbase 9.0
Accessibilité Téléchargement d’une version d’évaluation ici
Systèmes Windows
Format des corpus en entrée Corpus textuel
Format des corpus en sortie non renseigné
Fonctionnalités
  • Retour au texte plein ou lemmatisé pour une lecture naturelle du corpus
  •  Navigation hypertextuelle dans le corpus par mots-clefs
  •  Recherche et tri des contextes et des concordances d’une unité
  •  Index et dictionnaires des formes, des lemmes, des codes et des fréquences
  •  Calcul des spécificités et graphes de distribution des unités linguistiques du corpus
  •  Indices de richesse lexicale et d’accroissement du vocabulaire
  •  Traitement et représentation factoriels de matrices lexicales ou grammaticales complexes
  •  Calcul de distances entre textes, classification et représentation arborées
  •  Extraction des phrases typiques et des segments répétés
  •  Calcul et représentations des cooccurrences et réseaux thématiques
  •  Comparaison statistique avec le Trésor de la langue française, GoogleBooks, le British National Corpus
Annotations gérées par l’outil Annotation morphosyntaxique (Cordial, TTG)
Documentation Manuel d’utilisation
Type d’outil Analyse
Visée Textométrie

Pratiques et usages de Hyperbase

Fiches renseignées par Véronique Magri Mourgues (Université de Nice Sophia Antipolis)

  • Fiche 1 :
Objectifs de recherche Analyse lexicale et morphosyntaxique d’un corpus textuel (littéraire, scientifique, journalistique…) en vue de la caractérisation d’un style d’auteur, de genre, d’époque…
Pratiques Concordance
Scénarios Concordance sur corpus annotés morphosyntaxiquement, regexp sur les mots (jokers)
  • Fiche 2 :
Objectifs de recherche Faire émerger en corpus les motifs textuels spécifiques à une typologie textuelle
Pratiques Segments répétés(voir glossaire)
Scénarios Calcul des segments répétés de Lexico3
  • Fiche 3 :
Objectifs de recherche Observer en corpus des typologies textuelles (discursives, génériques, etc.)
Pratiques Explorer la structure d’un corpus
Scénarios AFC – analyse arborée

 

Signaler des erreurs et/ou proposer des modifications
 
 
Donner votre avis sur l’outil : 

Interface - Ergonomie
0
Fonctionnalités
0
Facilité d utilisation
0
Moyenne
  Chargement, attendez s'il vous plait yasr-loader

Glozz

Environnement d’annotation et d’exploration de corpus

Fiche descriptive de l’outil

 
 

Responsable du projet Projet ANR Annodis (Laboratoire GREYC avec la collaboration des laboratoires ERSS et IRIT)
Dernière version GLOZZ 2.0.1 – Juillet 2014
Accessibilité Téléchargement en ligne ici
Site web http://www.glozz.org
Systèmes OS X, Linux et Windows
Format des corpus en entrée Corpus en texte brut
Format des corpus en sortie Texte brut, formats Linguastream, CSV
Fonctionnalités
  • Annotation manuelle de textes disposant éventuellement d’annotations préalables
  • Annotation et visualisation de structures simples ou complexes (unités, relations et schémas (ou agglomérats))
  • Modèle générique pouvant se conformer (par instanciation) à tout paradigme d’annotation
  • Déclaration, en XML, du modèle d’annotation retenu
  • Modes ou vues adaptés au traitement spécifique de la co-référence, des structures du discours…
  • Vues multiples et simultanées (sur le texte lui-même, sous forme de graphes, de prédicats, par des alignements d’annotations)
  • Langage de requêtes intégré GlozzQL, et export SQL, pour l’exploration des annotations
  • Module intégré d’alignement et de mesure d’accord inter-annotateurs
Documentation Manuel d’utilisation
Type d’outil Annotation

Pratiques et usages de GLOZZ

  • Fiche renseignée par : Fréderic Landragin et Laurence Longo
Objectifs de recherche Analyse de la structure discursive (macro-syntaxe) d’un texte, chaînes de coréférence
Visée Annotation manuelle XML de segments et de relations entre unités du texte
Pratiques Annotation
Scénarios Annotation, possibilité d’interroger les données annotées via un langage de requête évolué, GLOZZQL, prise en compte des différents annotateurs et calcul de scores inter-annotateurs

Signaler des erreurs et/ou proposer des modifications
 
 
Donner votre avis sur l’outil : 

Interface - Ergonomie
0
Fonctionnalités
0
Facilité d utilisation
0
Moyenne
  Chargement, attendez s'il vous plait yasr-loader

DtmVic

Logiciel d’analyse exploratoire multidimensionnelle des données numériques, nominales et textuelles

 
 

FICHE DESCRIPTIVE DE L’OUTIL

Responsable du projet Ludovic Lebart – Directeur de recherches CNRS (Telecom -ParisTech)
Dernière version Dtm-Vic 5.7
Accessibilité Téléchargement en ligne gratuit ici
Site web http://www.dtmvic.com/
Systèmes Windows 2000, XP, Vista, Windows 7 et Windows 8.1
Interface – Ergonomie Interface conviviale distinguant les traitements statistiques, les visualisations et la manipulation des corpus
Format des corpus en entrée Corpus textuel de grande taille et données numériques
Format des corpus en sortie non renseigné
Fonctionnalités Analyse des données, visualisations de type cartographique (factorielles, kohonen…) avec aides pour fiabilité de l’interprétation – Analyse Factorielle des Correspondances – Analyse d’une partition (recherche de spécificités)
Annotations gérées par l’outil Annotation morphosyntaxique (Treetagger)
Documentation Manuel d’utilisation
Type d’outil Analyse
Visée Analyse de données numériques et textuelles, Text mining

PRATIQUES ET USAGES DE DtmVic

Fiches renseignées par Céline Poudat (Université de Nice Sophia Antipolis)

  • Fiche 1 :
Objectifs de recherche Observer en corpus des typologies textuelles (discursives, génériques, etc.)
Pratiques Explorer la structure d’un corpus
Scénarios ACP + CAH pour les données numériques de type morphosyntaxiques, AFC pour le lexique, cartes de Kohonen, sériation
  • Fiche 2 :
Objectifs de recherche Tester une hypothèse de variation
Pratiques Mettre au jour les spécificités d’une partition (voir glossaire)
Scénarios Description des classes obtenues avec les mots et les catégories mobilisées (valeur-test), différentes possibilités de projeter mots ou catégories pour affiner la description d’une partition
  • Fiche 3 :
Objectifs de recherche Faire émerger en corpus les motifs textuels spécifiques à une typologie textuelle
Pratiques Segments répétés (voir glossaire)
Scénarios Calcul des segments répétés de Lexico3

 

Signaler des erreurs et/ou proposer des modifications
 
 
Donner votre avis sur l’outil : 

Interface - Ergonomie
0
Fonctionnalités
0
Facilité d utilisation
0
Moyenne
  Chargement, attendez s'il vous plait yasr-loader