Corpus et lexiques

Orthocorpus sur Ortolang
Le corpus OrthoCorpus regroupe 1158 articles parus entre 1997 et 2020 dans la revue Rééducation Orthophonique, revue de référence fondée en 1962 par Suzanne Borel-Maisonny. Ces articles ont été écrits par des orthophonistes, par d’autres professionnels de santé ou de l’éducation (psychologues, médecins, linguistes, kinésithérapeutes…) ou par d’autres parties prenantes (représentants d’associations, parents…).Cette ressource (4 millions de mots) a été constituée dans le cadre du projet du même nom OrthoCorpus (2015-2017), et augmentée en 2019(V1.1), 2020(V2), et 2023(V3). Le projet OrthoCorpus a permis la construction et l’exploitation de corpus de spécialité en orthophonie, dans une perspective d’analyse terminologique. Il a été réalisé avec le concours financier de la Région Lorraine, du laboratoire ATILF, du Centre Hospitalier de Bar-le-Duc et de la Fédération Nationale des Orthophonistes.OrthoCorpus est disponible dans deux formats: un en XML-TEI, le deuxième permet une interrogation directe sous TXM. Il a été enrichi en métadonnées telles que le statut de l’auteur (orthophoniste ou non), le pays de l’auteur, le numéro et l’année de parution, la rubrique assignée à l’article, s’il concerne une population d’enfants ou non. Les résumés, mots clés en anglais et en français ont été conservés, ainsi que la structuration des documents (titres et sous-titres, introduction, conclusion…). Les figures, les tableaux et les annexes, ainsi que les références bibliographiques ont été exclues. Il est accessible aux membres de l’ESR, et, sur demande, aux orthophonistes praticiens-chercheurs.
La version V2 comporte des ajustements et des corrections, et y apparaissent également des métadonnées supplémentaires concernant les thèmes, les sous-thèmes et les catégories des articles.
La version V3 a principalement consisté en l’ajout des articles manquants et des métadonnées, et donne également sous TXM un affichage chronologique des articles.

Contributrices
Frédérique Brin-Henry, Jessika Cardinali, Concettina Husson-Giardina, Evelyne Jacquey, Sandrine Ollinger (ATILF)

Pour en savoir plus
– Une documentation technique sur la constitution de ce corpus est disponible sur HAL-SHS
Frédérique Brin-Henry, Evelyne Jacquey, Jessika Perignon, Sandrine Ollinger (2019). Rapport technique de la constitution du corpus OrthoCorpus. [Rapport de recherche] ATILF.
– Une information complémentaire sur le logiciel TXM est disponible ici

Accès à la ressource
Analyse et traitement informatique de la langue française – UMR 7118 (ATILF) (2023). OrthoCorpus [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) – www.ortolang.fr, v3, https://hdl.handle.net/11403/orthocorpus/v3.

Corpus ISTEX du domaine de l'orthophonie
Ce corpus a été constitué dans le cadre du projet 2019 MOCOLANG-O, subventionné par le pôle scientifique CLCS (Connaissance, Langage, Communication, Sociétés) de l’Université de Lorraine, la Fédération Nationale des Orthophonistes, l’ATILF et le CH de Bar-le-Duc. L’intérêt pour la plate-forme ISTEX est qu’elle regroupe un nombre important de documents accessibles directement (23 millions de documents provenant de 31 corpus de littérature scientifique dans toutes les disciplines, soit plus de 9 318 revues et 348 769 ebooks entre 1473 et 2019 pour l’ESR).Une première version d’un corpus en langue française d’articles du domaine de l’orthophonie issu d’ISTEX avait été constituée en 2017 dans le cadre du projet OrthoCorpus. Ce corpus a été mis à disposition en 2018, il comportait alors 39 articles.
Le corpus augmenté en 2019 dans le cadre de ce projet MOCOLANG-O a été constitué grâce à une requête utilisée pour extraire les articles depuis ISTEX. Les descripteurs ont été sélectionnés de façon intuitive, pour obtenir des résultats assez larges afin de garantir un résultat conséquent.
L’objectif était de disposer pour MOCOLANG-O d’exemples de contextes d’utilisation d’une liste pré-établie de termes diagnostiques dans un corpus élargi et bilingue.
Nous avons été confrontées à plusieurs problèmes pour constituer ce corpus, notamment dans le choix des descripteurs (dont certains étaient inadaptés). Le plus gros défi est représenté par la disproportion du nombre de parutions en langue française en comparaison avec celles en langue anglaise.

Contributrices
Frédérique Brin-Henry (ATILF-CNRS), Clémentine Arnicot (ATILF-CNRS), Sabine Barreaux (INIST-CNRS).

Pour en savoir plus
La plateforme ISTEX est accessible ici
Nous avons rédigé en 2019 un document technique permettant de documenter les étapes clés, et notamment les choix effectués pour obtenir des sous-corpus cohérents.
Le corpus de 71 textes en français et ses métadonnées sont accessibles ici
Le corpus de 425 textes en anglais et ses métadonnées sont accessibles ici

Termes de base
OBJECTIFS
Dans le cadre du projet MOCOLANG-O (projet 2019 subventionné par le pôle scientifique CLCS (Connaissance, Langage, Communication, Sociétés) de l’Université de Lorraine, la Fédération Nationale des Orthophonistes, l’ATILF et le CH de Bar le Duc, nous avons procédé à la sélection et à la validation d’une liste de 45 termes de base du diagnostic orthophonique en langue française, anglaise et portugaise.Il s’agissait de pouvoir disposer en plusieurs langues de termes considérés comme spécifiques et essentiels en orthophonie, ainsi que de leurs équivalents validés en deux langues par des orthophonistes natifs plurilingues. La liste a été validée par un groupe d’experts constitué d’orthophonistes de différents horizons.

Contributeurs
Frédérique Brin-Henry (ATILF-CNRS), Clémentine Arnicot (ATILF-CNRS). Merci aux orthophonistes et docteurs Dina Caetano Alves, professeur associée à l’Institut Polytechnique de Setúbal (Portugal), et Mark Jayes PhD, MRCSLT, de l’université métropolitaine de Manchester (UK).

Pour en savoir plus
Nous avons rédigé en 2020 un document technique reprenant les étapes de constitution de ce corpus. Par ailleurs cette liste est disponible sur la plate-forme Ortolang, et mise à disposition de la communauté de chercheurs et praticiens-chercheurs qui le souhaitent.

ParaMorpho
OBJECTIFS : Dans le cadre du projet ANR DEMONEXT, nous avons procédé à une étude pilote qui s’inscrit dans les préoccupations du Lot 4 (usage de la base de données).
Notre étude a consisté en la construction d’un jeu de données et son analyse. Nous avons constitué un corpus de 182 couples de mots associant dénomination attendue et réponse produite par le patient (paraphasie construite par la morphologie ou la syntaxe). Nous avons ensuite recherché le niveau de similarité morphologique dans des couples de mots, puis identifié les types d’écarts entre A et P indiquant que les patients pourraient avoir conservé des connaissances ou des représentations de la construction des mots. L’analyse du jeu de données a permis de construire une notation spécifique permettant de mettre en avant les liens de similarité morphologique et de sous-tendre un raisonnement sur la (non) conservation des connaissances ou représentations de la construction des mots chez ces patients aphasiques. En voici un extrait ci-dessous :
Les détails concernant les objectifs du projet sont disponibles sur cette page : DEMONEXT ou cellle-ci : Morphologie et aphasie
Le classeur annoté est mis à disposition ici : ParaMorpho_transformations aphasiques_juin2023.

Contributrices
Frédérique Brin-Henry, Fiammetta Namer, Stéphanie Lignon (ATILF-CNRS) et Mélanie Rigollet (M1 M2 CCFUO université de Lorraine)