Corpus et lexiques

Orthocorpus sur Ortolang
Le corpus OrthoCorpus regroupe 1158 articles parus entre 1997 et 2020 dans la revue Rééducation Orthophonique, revue de référence fondée en 1962 par Suzanne Borel-Maisonny. Ces articles ont été écrits par des orthophonistes, par d’autres professionnels de santé ou de l’éducation (psychologues, médecins, linguistes, kinésithérapeutes…) ou par d’autres parties prenantes (représentants d’associations, parents…).Cette ressource (4 millions de mots) a été constituée dans le cadre du projet du même nom OrthoCorpus (2015-2017), et augmentée en 2019(V1.1), 2020(V2), et 2023(V3). Le projet OrthoCorpus a permis la construction et l’exploitation de corpus de spécialité en orthophonie, dans une perspective d’analyse terminologique. Il a été réalisé avec le concours financier de la Région Lorraine, du laboratoire ATILF, du Centre Hospitalier de Bar-le-Duc et de la Fédération Nationale des Orthophonistes.OrthoCorpus est disponible dans deux formats: un en XML-TEI, le deuxième permet une interrogation directe sous TXM. Il a été enrichi en métadonnées telles que le statut de l’auteur (orthophoniste ou non), le pays de l’auteur, le numéro et l’année de parution, la rubrique assignée à l’article, s’il concerne une population d’enfants ou non. Les résumés, mots clés en anglais et en français ont été conservés, ainsi que la structuration des documents (titres et sous-titres, introduction, conclusion…). Les figures, les tableaux et les annexes, ainsi que les références bibliographiques ont été exclues. Il est accessible aux membres de l’ESR, et, sur demande, aux orthophonistes praticiens-chercheurs.
La version V2 comporte des ajustements et des corrections, et y apparaissent également des métadonnées supplémentaires concernant les thèmes, les sous-thèmes et les catégories des articles.
La version V3 a principalement consisté en l’ajout des articles manquants et des métadonnées, et donne également sous TXM un affichage chronologique des articles.
 
Contributrices
Frédérique Brin-Henry, Jessika Cardinali, Concettina Husson-Giardina, Evelyne Jacquey, Sandrine Ollinger (ATILF)
 
Pour en savoir plus
– Une documentation technique sur la constitution de ce corpus est disponible sur HAL-SHS
Frédérique Brin-Henry, Evelyne Jacquey, Jessika Perignon, Sandrine Ollinger (2019). Rapport technique de la constitution du corpus OrthoCorpus. [Rapport de recherche] ATILF.
– Une information complémentaire sur le logiciel TXM est disponible ici
 
Accès à la ressource
Analyse et traitement informatique de la langue française – UMR 7118 (ATILF) (2023). OrthoCorpus [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) – www.ortolang.fr, v3, https://hdl.handle.net/11403/orthocorpus/v3.
Corpus ISTEX du domaine de l'orthophonie
Ce corpus a été constitué dans le cadre du projet 2019 MOCOLANG-O, subventionné par le pôle scientifique CLCS (Connaissance, Langage, Communication, Sociétés) de l’Université de Lorraine, la Fédération Nationale des Orthophonistes, l’ATILF et le CH de Bar-le-Duc. L’intérêt pour la plate-forme ISTEX est qu’elle regroupe un nombre important de documents accessibles directement (23 millions de documents provenant de 31 corpus de littérature scientifique dans toutes les disciplines, soit plus de 9 318 revues et 348 769 ebooks entre 1473 et 2019 pour l’ESR).Une première version d’un corpus en langue française d’articles du domaine de l’orthophonie issu d’ISTEX avait été constituée en 2017 dans le cadre du projet OrthoCorpus. Ce corpus a été mis à disposition en 2018, il comportait alors 39 articles.
Le corpus augmenté en 2019 dans le cadre de ce projet MOCOLANG-O a été constitué grâce à une requête utilisée pour extraire les articles depuis ISTEX. Les descripteurs ont été sélectionnés de façon intuitive, pour obtenir des résultats assez larges afin de garantir un résultat conséquent.
L’objectif était de disposer pour MOCOLANG-O d’exemples de contextes d’utilisation d’une liste pré-établie de termes diagnostiques dans un corpus élargi et bilingue.
Nous avons été confrontées à plusieurs problèmes pour constituer ce corpus, notamment dans le choix des descripteurs (dont certains étaient inadaptés). Le plus gros défi est représenté par la disproportion du nombre de parutions en langue française en comparaison avec celles en langue anglaise.
 
Contributrices
Frédérique Brin-Henry (ATILF-CNRS), Clémentine Arnicot (ATILF-CNRS), Sabine Barreaux (INIST-CNRS).
 
Pour en savoir plus
La plateforme ISTEX est accessible ici
Nous avons rédigé en 2019 un document technique permettant de documenter les étapes clés, et notamment les choix effectués pour obtenir des sous-corpus cohérents.
Le corpus de 71 textes en français et ses métadonnées sont accessibles ici
Le corpus de 425 textes en anglais et ses métadonnées sont accessibles ici
Termes de base
OBJECTIFS
Dans le cadre du projet MOCOLANG-O (projet 2019 subventionné par le pôle scientifique CLCS (Connaissance, Langage, Communication, Sociétés) de l’Université de Lorraine, la Fédération Nationale des Orthophonistes, l’ATILF et le CH de Bar le Duc, nous avons procédé à la sélection et à la validation d’une liste de 45 termes de base du diagnostic orthophonique en langue française, anglaise et portugaise.Il s’agissait de pouvoir disposer en plusieurs langues de termes considérés comme spécifiques et essentiels en orthophonie, ainsi que de leurs équivalents validés en deux langues par des orthophonistes natifs plurilingues. La liste a été validée par un groupe d’experts constitué d’orthophonistes de différents horizons.
 
Contributeurs
Frédérique Brin-Henry (ATILF-CNRS), Clémentine Arnicot (ATILF-CNRS). Merci aux orthophonistes et docteurs Dina Caetano Alves, professeur associée à l’Institut Polytechnique de Setúbal (Portugal), et Mark Jayes PhD, MRCSLT, de l’université métropolitaine de Manchester (UK).
 
Pour en savoir plus
Nous avons rédigé en 2020 un document technique reprenant les étapes de constitution de ce corpus. Par ailleurs cette liste est disponible sur la plate-forme Ortolang, et mise à disposition de la communauté de chercheurs et praticiens-chercheurs qui le souhaitent.
Paraphasies
OBJECTIFS : Dans le cadre du projet ANR DEMONEXT, nous avons procédé à une étude pilote qui s’inscrit dans les préoccupations du Lot 4 (usage de la base de données). L’objectif du lot est de pouvoir promouvoir l’utilisation de la base pour créer du matériel permettant d’évaluer ou de rééduquer les compétences en morphologie dérivationnelle.
Pour ce faire, nous avons dans un premier temps constitué un corpus mettant en lien des unités lexicales recueillies dans un cadre clinique, dans lequel un patient présentant une aphasie (déf) dénomme une image.Ainsi nous avons constitué une ressource, un classeur Excel, qui associe les unités lexicales que l’orthophoniste souhaite voir produire (la réponse attendue) avec ce qui a été effectivement énoncé par le patient (réponse produite). En voici un extrait ci-dessous :extrait classeur PARAMORPHO

Ce classeur est en cours de refonte (fin 2021) afin de mieux caractériser les processus en jeu. Cette ressource a été exploitée pour une étude pilote « Etude formelle des procédés morphologiques dans un corpus de 183 paraphasies » qui est détaillée dans la page consacrée au projet DEMONEXT.
 
Contributrices
Frédérique Brin-Henry, Fiammetta Namer, Stéphanie Lignon (ATILF-CNRS) et Mélanie Rigollet (M1 M2 CCFUO université de Lorraine)