ConcQuest

Publié par admin

Concordancier dédié à la recherche d’expressions complexes à travers des corpus monolingue et multilingues alignés.

FICHE DESCRIPTIVE DE L’OUTIL

Responsable du projet	Olivier Kraif – Université Stendhal (Grenoble 3)
Dernière version	ConcQuest 2.1
Accessibilité	Gratuiciel – Téléchargement ici
Site web	Interface de démonstration (avec interface graphique d’aide à la construction de requêtes et corpus multilingue interrogeable en ligne)
Systèmes	Windows 32 (2000, NT et XP), Linux
Interface – Ergonomie	Interface simple et facile d’utilisation
Format des corpus en entrée	Texte brut ISO-Latin-1 et UTF-8, XCES, XML avec segmentation, tokenisation, lemmatisation, étiquettes morphosyntaxiques, sorties de Treetagger
Format des corpus en sortie	Exportation en texte, KWIC, XML, TMX, et HTML
Fonctionnalités	– Traitement de corpus étiquetés (format xml ou tabulé) – Recherche d’expressions complexes avec des critères portant sur les formes, les lemmes, les catégories, les traits morphosyntaxiques – Recherche d’expressions discontinues – Possibilité d’extraction aléatoire d’un nombre prédéfini d’occurrences – Extraction de statistiques d’occurrences, triées par ordre décroissant, calculables au niveau des suites de formes réalisées, ou des suites de lemmes ect. (voir plus de fonctionnalités)
Annotations gérées par l’outil	Lemmes, POS, morpho/flexion, relations syntaxiques
Documentation	Manuel d’utilisation
Type d’outil	Analyse

PRATIQUES ET USAGES DE ConcQuest

1. Fiche renseignée par : Achille Falaise, Laboratoire ICAR (ENS-Lyon)

Objectifs de recherche	Recherche de concordances à l’aide d’un langage de requêtes
Visée	Moteur, concordancier
Pratiques	Concordance
Scénarios	Concordance sur corpus annotés, gestion du multiniveau avec CQP, utilisation d’expressions régulières dans tous les éléments de la requête, affichage graphique

Signaler des erreurs et/ou proposer des modifications

Donner votre avis sur l’outil :

Interface - Ergonomie	0
Fonctionnalités	0
Facilité d utilisation	0
Moyenne
Chargement, attendez s'il vous plait

Le Trameur

Publié par admin

Programme de génération puis de gestion de la Trame et du Cadre d’un texte (i.e découpage en unité et partitionnement du texte : le métier textométrique) pour construire des opérations lexicométriques / textométriques (ventilation des unités, carte des sections, cooccurrence, spécificité, AFC…). Le Trameur intègre en outre le programme treetagger : système d’étiquetage automatique des catégories grammaticales des mots avec lemmatisation. Il permet aussi de généner et de gérer des annotations multiples sur les unités du texte (et de traiter les niveaux d’annotations visés)

Fiche descriptive de l’outil

Dernière version	Le Trameur v12 (Interface bilingue (français/anglais), traitement spécifique pour des corpus alignés, exploration de treebanks (corpus arborés))
Accessibilité	Version complète (avec treetagger) sur demande à serge.fleury[at]univ-paris3.fr Version allégée (sans treetagger) : http://www.tal.univ-paris3.fr/trameur/#p4
Systèmes	Windows
Format des corpus en entrée	TXT, XML ou structuré via des balises (cf documentation)
Format des corpus en sortie
Fonctionnalités	Annotation dynamique, concordance, collocation, carte des sections, ventilation, spécificités, moteur de recherche, méthodes factorielles, recherche de patrons, traitements des dépendances, traitement de sous-corpus, traitement de corpus alignés, segments répétés, calculs textométriques sur tout niveau d’annotation.
Annotations gérées par l’outil	Par défaut, annotation morphosyntaxique (Treetagger). Prise en charge d’annotations multiples.
Documentation	http://www.tal.univ-paris3.fr/trameur/leMetierLexicometrique.pdf
Type d’outil	Outil pour l’exploration de ressources richement annotées. Le Trameur est un programme d’analyse comportant de nombreuses fonctionnalités de haut niveau pour l’analyse statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation.

Pratiques et usages

&nbsp:
1. Fiche renseignée par : Georgeta Cislaru (SYLED, Paris 3 Sorbonne nouvelle) – Emilie Née (Céditec, UPEC), Frédérique Sitri (Modyco – Université Paris Ouest, CNRS)

Objectifs de recherche	Contraster différentes versions d’un même texte
Pratiques	Mettre au jour les spécificités d’une partition
Scénarios	Spécificités – Loi hypergéométrique

2. Fiche renseignée par : Emilie Née(Céditec, UPEC),Frédérique Sitri(Modyco – Université Paris Ouest, CNRS)

Objectifs de recherche	Identifier des routines discursives de manière inductive
Pratique	Segments répétés
Scénarios	Calcul des segments répétés de Lexico3

Signaler des erreurs et/ou proposer des modifications

Donner votre avis sur l’outil :

Interface - Ergonomie	2
Fonctionnalités	2
Facilité d utilisation	2
Moyenne
Chargement, attendez s'il vous plait

Unitex

Publié par admin

Unitex est un ensemble de logiciels permettant de traiter des textes en langues naturelles en utilisant des ressources linguistiques. Ces ressources se présentent sous la forme de dictionnaires électroniques, de grammaires et de tables de lexique-grammaire. Elles sont issues de travaux initiés sur le français par Maurice Gross au Laboratoire d’Automatique Documentaire et Linguistique (LADL) . Ces travaux ont été étendus à d’autres langues au travers du réseau de laboratoires RELEX.(Manuel d’utilisation, septembre 2014)

FICHE DESCRIPTIVE DE L’OUTIL

Dernière version	Unitex 3.1 (septembre 2014)
Site Web	http://www-igm.univ-mlv.fr/~unitex/
Accessibilité	Téléchargement en ligne gratuit ici
Systèmes	Windows, Linux, Mac OS
Interface – Ergonomie	Interface en anglais
Licence	LGPL
Format des corpus en entrée	TXT (Unicode)
Format des corpus en sortie	HTML – XML – CSV – TXT (Unicode)
Fonctionnalités	– Création de ressources linguistiques (dictionnaires électroniques, grammaires) – Recherches complexes dans les corpus – Concordancier – Création de dictionnaires et de règles locales ou morphologiques- Annotation – Alignement de corpus.
Annotations gérées par l’outil	Annotations morphosyntaxiques – DELA
Documentation	Manuel d’utilisation
Type d’outil	Annotation – Analyse

PRATIQUES ET USAGES D’UNITEX

1. Fiche renseignée par : Céline Poudat (BCL – Université de Nice Sophia Antipolis)

Objectifs de recherche	Annoter des motifs textuels dont on fait l’hypothèse pour une typologie textuelle spécifique
Visée	Annotation de patrons lexicaux et morphosyntaxiques
Scénarios	Annotation avec automates, regexp, possibilité de variabiliser un élément à annoter

2. Fiche renseignée par : Céline Poudat (BCL – Université de Nice Sophia Antipolis)

Objectifs de recherche	Rechercher des motifs textuels dont on fait l’hypothèse pour une typologie textuelle spécifique
Visée	Analyse et traitement de corpus textuels mobilisant des automates (recherche et annotation)
Scénarios	Construction de requêtes en mode graphique (automates) et en mode texte, gestion de différents niveaux d’annotation (DELA), retour au texte, possibilités de faire des diff sur deux concordances

EXEMPLES D’UTILISATEURS INSTITUTIONNELS

Université de Tours : http://www.li.univ-tours.fr/ ; http://www.tln.li.univ-tours.fr/
Université de São Paulo, NILC : http://www.nilc.icmc.usp.br/nilc/
Université de Lisbonne : http://label.ist.utl.pt/

Signaler des erreurs et/ou proposer des modifications

Donner votre avis sur l’outil :

Interface - Ergonomie	6
Fonctionnalités	6
Facilité d utilisation	6
Moyenne
Chargement, attendez s'il vous plait

Lexico3

Publié par admin

Outil de statistiques textuels

Fiche descriptive de l’outil

Responsable du projet	Equipe universitaire SYLED-CLA2T
Dernière version	Lexico 3 – Février 2003
Accessibilité	Diffusion commerciale
Site web	http://www.tal.univ-paris3.fr/lexico/
Systèmes	Windows 95, et Windows NT 3.51 et 4.0
Format des corpus en entrée	Corpus textuel
Format des corpus en sortie	non renseigné
Fonctionnalités	Segmentation Concordances Décomptes portant sur les formes graphiques, spécificités et analyses factorielles portant sur les formes et les segments répétés Caractérisation des différentes parties d’un corpus
Annotations gérées par l’outil	Corpus textuel brut
Documentation	Manuel d’utilisation
Type d’outil	Analyse
Visée	Textométrie

Pratiques et usages de Hyperbase

Fiches renseignées par Emilie Née (Céditec, UPEC) ; Céline Poudat (BCL, Nice Sophia Antipolis)

Fiche 1 :

Objectifs de recherche	Contraster différentes parties d’un même texte
Pratiques	Explorer la structure d’un corpus
Scénarios	AFC

Fiche 2 :

Objectifs de recherche	Faire émerger en corpus les motifs textuels spécifiques à une typologie textuelle
Pratiques	Segments répétés (voir glossaire)
Scénarios	Segments répétés mots – Calcul sur du texte brut

Fiche 3 :

Objectifs de recherche	Identifier et caractériser des usages linguistiques propres à un genre
Pratiques	Explorer la structure d’un corpus
Scénarios	Mettre au jour les spécificités d’une partition

Fiche 4 :

Objectifs de recherche	Rechercher un mot/motif en tenant compte de la séquentialité textuelle
Pratiques	Carte graphique ou visualisation topologique
Scénarios	Visualisation du texte avec carte des sections

Signaler des erreurs et/ou proposer des modifications

Donner votre avis sur l’outil :

Interface - Ergonomie	4
Fonctionnalités	4
Facilité d utilisation	5
Moyenne
Chargement, attendez s'il vous plait

Nooj

Publié par admin

NooJ est un environnement de développement linguistique qui permet de construire et de gérer des dictionnaires et grammaires électroniques à large couverture, afin de formaliser divers niveaux des langues naturelles : orthographe, morphologie flexionnelle et dérivationnelle, lexique de mots simples, mots composés et expressions figées, syntaxe locale et désambiguïsation, syntaxe structurelle et transformationnelle, sémantique et ontologies. Les descriptions formalisées peuvent ensuite être appliquées pour traiter des textes et corpus de taille importante.

FICHE DESCRIPTIVE DE L’OUTIL

Responsable du projet	Max Silberztein
Dernière version	Nooj 2.0
Site Web	http://www.nooj4nlp.net/pages/nooj.html
Accessibilité	Téléchargement en ligne gratuit ici
Systèmes	Windows, Mac OSX, LINUX et Unix
Interface – Ergonomie	Interface en anglais
Licence	LGPL
Format des corpus en entrée	NooJ peut traiter des textes et des corpus dans plus de 100 formats de fichiers, y compris HTML, PDF, MS-Office, toutes les variantes de l’Unicode, ASCII, etc.
Format des corpus en sortie	HTML – XML – CSV
Fonctionnalités	Permet de formaliser huit niveaux de phénomènes linguistiques : orthographe et typographie, morphologie flexionnelle et dérivationnelle, syntaxe locale et structurelle, grammaire transformationnelle et analyse sémantique Contient des outils informatiques adaptés à chaque type de phénomène (grammaires rationnelles, hors contexte, contextuelles et non restreintes) Permet de développer des ressources à large couverture dans une perspective de linguistique descriptive
Annotations gérées par l’outil
Documentation	Manuel d’utilisation
Type d’outil	Annotation

Signaler des erreurs et/ou proposer des modifications

Donner votre avis sur l’outil :

Interface - Ergonomie	6
Fonctionnalités	6
Facilité d utilisation	5
Moyenne
Chargement, attendez s'il vous plait

Frantext

Publié par admin

Frantext est le nom d’une base de données de textes français : textes littéraires et philosophiques, mais aussi scientifiques et techniques (environ 10%), développée et maintenue au sein de l’ATILF-CNRS (ex INaLF). Elle a été créée autour d’un noyau de mille textes, dans les années 70, afin de fournir des exemples pour le Trésor de la Langue Française. Une fois le dictionnaire terminé, elle a continué à évoluer : d’abord mise à disposition dans les années 80 sous forme d’un CD ( » Discotext « ), elle a été mise en ligne sur le web en 1998 par l’informaticien auteur de son moteur de recherches, Jacques Dendien.

FICHE DESCRIPTIVE DE L’OUTIL

Responsable du projet	Laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française)
Dernière version	Frantext – Octobre 2014
Accessibilité	Accès à la version intégrale sur abonnement iciAccès en ligne à Frantext démonstration avec toutes les fonctionnalités sur un corpus de 35 textes libres de droits
Format des corpus en entrée	Txt, Xml, Html
Fonctionnalités	– Consultation et sélection de textes grâce à des critères bibliographiques (titres, auteurs, dates, genres littéraires) – Recherche dans les textes (d’un mot, d’une expression) – Calcul de fréquences (comptage du nombre d’occurrences d’un mot ou de plusieurs mots donnés) – Expressions de séquences (recherche de contexte contenant une suite de mots consécutifs) –
Annotations gérées par l’outil	Annotations morphosyntaxique
Documentation	Manuel d’utilisation
Type d’outil	Analyse
Visée	Moteur – Recherche d’informations – Traitement quantitatif

PRATIQUES ET USAGES DE FRANTEXT

1. Fiche renseignée par : Véronique Montémont (Université Henri Poincaré – Nancy 1 – ATILF) , Frédéric Landragin (LaTTice – CNRS) :

Objectifs de recherche	Collecte d’exemples attestés sur des phénomènes linguistiques divers
Pratiques	Concordance
Scénarios	Concordancier en ligne sur corpus à définir par l’utilisateur (max 4842 textes / 261 850 685 occ) – concordances de cooccurrences – corpus annoté ou non

Signaler des erreurs et/ou proposer des modifications

Donner votre avis sur l’outil :

Interface - Ergonomie	1
Fonctionnalités	1
Facilité d utilisation	1
Moyenne
Chargement, attendez s'il vous plait

CorText

Publié par admin

Hyperbase

Publié par admin

Logiciel documentaire et statistique pour l’exploration des textes

Fiche descriptive de l’outil

Responsable du projet	Etienne Brunet – Laboratoire BCL (UMR 6039)
Dernière version	Hyperbase 9.0
Accessibilité	Téléchargement d’une version d’évaluation ici
Systèmes	Windows
Format des corpus en entrée	Corpus textuel
Format des corpus en sortie	non renseigné
Fonctionnalités	Retour au texte plein ou lemmatisé pour une lecture naturelle du corpus Navigation hypertextuelle dans le corpus par mots-clefs Recherche et tri des contextes et des concordances d’une unité Index et dictionnaires des formes, des lemmes, des codes et des fréquences Calcul des spécificités et graphes de distribution des unités linguistiques du corpus Indices de richesse lexicale et d’accroissement du vocabulaire Traitement et représentation factoriels de matrices lexicales ou grammaticales complexes Calcul de distances entre textes, classification et représentation arborées Extraction des phrases typiques et des segments répétés Calcul et représentations des cooccurrences et réseaux thématiques Comparaison statistique avec le Trésor de la langue française, GoogleBooks, le British National Corpus
Annotations gérées par l’outil	Annotation morphosyntaxique (Cordial, TTG)
Documentation	Manuel d’utilisation
Type d’outil	Analyse
Visée	Textométrie

Pratiques et usages de Hyperbase

Fiches renseignées par Véronique Magri Mourgues (Université de Nice Sophia Antipolis)

Fiche 1 :

Objectifs de recherche	Analyse lexicale et morphosyntaxique d’un corpus textuel (littéraire, scientifique, journalistique…) en vue de la caractérisation d’un style d’auteur, de genre, d’époque…
Pratiques	Concordance
Scénarios	Concordance sur corpus annotés morphosyntaxiquement, regexp sur les mots (jokers)

Fiche 2 :

Objectifs de recherche	Faire émerger en corpus les motifs textuels spécifiques à une typologie textuelle
Pratiques	Segments répétés(voir glossaire)
Scénarios	Calcul des segments répétés de Lexico3

Fiche 3 :

Objectifs de recherche	Observer en corpus des typologies textuelles (discursives, génériques, etc.)
Pratiques	Explorer la structure d’un corpus
Scénarios	AFC – analyse arborée

Signaler des erreurs et/ou proposer des modifications

Donner votre avis sur l’outil :

Interface - Ergonomie	1
Fonctionnalités	1
Facilité d utilisation	1
Moyenne
Chargement, attendez s'il vous plait

Glozz

Publié par admin

Environnement d’annotation et d’exploration de corpus

Fiche descriptive de l’outil

Responsable du projet	Projet ANR Annodis (Laboratoire GREYC avec la collaboration des laboratoires ERSS et IRIT)
Dernière version	GLOZZ 2.0.1 – Juillet 2014
Accessibilité	Téléchargement en ligne ici
Site web	http://www.glozz.org
Systèmes	OS X, Linux et Windows
Format des corpus en entrée	Corpus en texte brut
Format des corpus en sortie	Texte brut, formats Linguastream, CSV
Fonctionnalités	Annotation manuelle de textes disposant éventuellement d’annotations préalables Annotation et visualisation de structures simples ou complexes (unités, relations et schémas (ou agglomérats)) Modèle générique pouvant se conformer (par instanciation) à tout paradigme d’annotation Déclaration, en XML, du modèle d’annotation retenu Modes ou vues adaptés au traitement spécifique de la co-référence, des structures du discours… Vues multiples et simultanées (sur le texte lui-même, sous forme de graphes, de prédicats, par des alignements d’annotations) Langage de requêtes intégré GlozzQL, et export SQL, pour l’exploration des annotations Module intégré d’alignement et de mesure d’accord inter-annotateurs
Documentation	Manuel d’utilisation
Type d’outil	Annotation

Pratiques et usages de GLOZZ

Fiche renseignée par : Fréderic Landragin et Laurence Longo

Objectifs de recherche	Analyse de la structure discursive (macro-syntaxe) d’un texte, chaînes de coréférence
Visée	Annotation manuelle XML de segments et de relations entre unités du texte
Pratiques	Annotation
Scénarios	Annotation, possibilité d’interroger les données annotées via un langage de requête évolué, GLOZZQL, prise en compte des différents annotateurs et calcul de scores inter-annotateurs

Signaler des erreurs et/ou proposer des modifications

Donner votre avis sur l’outil :

Interface - Ergonomie	7
Fonctionnalités	6
Facilité d utilisation	5
Moyenne
Chargement, attendez s'il vous plait

DtmVic

Publié par admin

Logiciel d’analyse exploratoire multidimensionnelle des données numériques, nominales et textuelles

FICHE DESCRIPTIVE DE L’OUTIL

Responsable du projet	Ludovic Lebart – Directeur de recherches CNRS (Telecom -ParisTech)
Dernière version	Dtm-Vic 5.7
Accessibilité	Téléchargement en ligne gratuit ici
Site web	http://www.dtmvic.com/
Systèmes	Windows 2000, XP, Vista, Windows 7 et Windows 8.1
Interface – Ergonomie	Interface conviviale distinguant les traitements statistiques, les visualisations et la manipulation des corpus
Format des corpus en entrée	Corpus textuel de grande taille et données numériques
Format des corpus en sortie	non renseigné
Fonctionnalités	Analyse des données, visualisations de type cartographique (factorielles, kohonen…) avec aides pour fiabilité de l’interprétation – Analyse Factorielle des Correspondances – Analyse d’une partition (recherche de spécificités)
Annotations gérées par l’outil	Annotation morphosyntaxique (Treetagger)
Documentation	Manuel d’utilisation
Type d’outil	Analyse
Visée	Analyse de données numériques et textuelles, Text mining

PRATIQUES ET USAGES DE DtmVic

Fiches renseignées par Céline Poudat (Université de Nice Sophia Antipolis)

Fiche 1 :

Objectifs de recherche	Observer en corpus des typologies textuelles (discursives, génériques, etc.)
Pratiques	Explorer la structure d’un corpus
Scénarios	ACP + CAH pour les données numériques de type morphosyntaxiques, AFC pour le lexique, cartes de Kohonen, sériation

Fiche 2 :

Objectifs de recherche	Tester une hypothèse de variation
Pratiques	Mettre au jour les spécificités d’une partition (voir glossaire)
Scénarios	Description des classes obtenues avec les mots et les catégories mobilisées (valeur-test), différentes possibilités de projeter mots ou catégories pour affiner la description d’une partition

Fiche 3 :

Objectifs de recherche	Faire émerger en corpus les motifs textuels spécifiques à une typologie textuelle
Pratiques	Segments répétés (voir glossaire)
Scénarios	Calcul des segments répétés de Lexico3

Signaler des erreurs et/ou proposer des modifications

Donner votre avis sur l’outil :

Interface - Ergonomie	0
Fonctionnalités	0
Facilité d utilisation	0
Moyenne
Chargement, attendez s'il vous plait

Exploration de corpus : outils et pratiques

Auteur : admin

ConcQuest

Le Trameur

Unitex

Lexico3

Nooj

Frantext

CorText

Hyperbase

Glozz

DtmVic