La version V2 comporte des ajustements et des corrections, et y apparaissent également des métadonnées supplémentaires concernant les thèmes, les sous-thèmes et les catégories des articles.
La version V3 a principalement consisté en l’ajout des articles manquants et des métadonnées, et donne également sous TXM un affichage chronologique des articles.
Contributrices
Frédérique Brin-Henry, Jessika Cardinali, Concettina Husson-Giardina, Evelyne Jacquey, Sandrine Ollinger (ATILF)
Pour en savoir plus
– Une documentation technique sur la constitution de ce corpus est disponible sur HAL-SHS
Frédérique Brin-Henry, Evelyne Jacquey, Jessika Perignon, Sandrine Ollinger (2019). Rapport technique de la constitution du corpus OrthoCorpus. [Rapport de recherche] ATILF.
– Une information complémentaire sur le logiciel TXM est disponible ici
Accès à la ressource
Analyse et traitement informatique de la langue française – UMR 7118 (ATILF) (2023). OrthoCorpus [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) – www.ortolang.fr, v3, https://hdl.handle.net/11403/orthocorpus/v3.
Le corpus augmenté en 2019 dans le cadre de ce projet MOCOLANG-O a été constitué grâce à une requête utilisée pour extraire les articles depuis ISTEX. Les descripteurs ont été sélectionnés de façon intuitive, pour obtenir des résultats assez larges afin de garantir un résultat conséquent.
L’objectif était de disposer pour MOCOLANG-O d’exemples de contextes d’utilisation d’une liste pré-établie de termes diagnostiques dans un corpus élargi et bilingue.
Nous avons été confrontées à plusieurs problèmes pour constituer ce corpus, notamment dans le choix des descripteurs (dont certains étaient inadaptés). Le plus gros défi est représenté par la disproportion du nombre de parutions en langue française en comparaison avec celles en langue anglaise.
Contributrices
Frédérique Brin-Henry (ATILF-CNRS), Clémentine Arnicot (ATILF-CNRS), Sabine Barreaux (INIST-CNRS).
Pour en savoir plus
La plateforme ISTEX est accessible ici
Nous avons rédigé en 2019 un document technique permettant de documenter les étapes clés, et notamment les choix effectués pour obtenir des sous-corpus cohérents.
Le corpus de 71 textes en français et ses métadonnées sont accessibles ici
Le corpus de 425 textes en anglais et ses métadonnées sont accessibles ici
Dans le cadre du projet MOCOLANG-O (projet 2019 subventionné par le pôle scientifique CLCS (Connaissance, Langage, Communication, Sociétés) de l’Université de Lorraine, la Fédération Nationale des Orthophonistes, l’ATILF et le CH de Bar le Duc, nous avons procédé à la sélection et à la validation d’une liste de 45 termes de base du diagnostic orthophonique en langue française, anglaise et portugaise.Il s’agissait de pouvoir disposer en plusieurs langues de termes considérés comme spécifiques et essentiels en orthophonie, ainsi que de leurs équivalents validés en deux langues par des orthophonistes natifs plurilingues. La liste a été validée par un groupe d’experts constitué d’orthophonistes de différents horizons.
Contributeurs
Frédérique Brin-Henry (ATILF-CNRS), Clémentine Arnicot (ATILF-CNRS). Merci aux orthophonistes et docteurs Dina Caetano Alves, professeur associée à l’Institut Polytechnique de Setúbal (Portugal), et Mark Jayes PhD, MRCSLT, de l’université métropolitaine de Manchester (UK).
Pour en savoir plus
Nous avons rédigé en 2020 un document technique reprenant les étapes de constitution de ce corpus. Par ailleurs cette liste est disponible sur la plate-forme Ortolang, et mise à disposition de la communauté de chercheurs et praticiens-chercheurs qui le souhaitent.
Notre étude a consisté en la construction d’un jeu de données et son analyse. Nous avons constitué un corpus de 182 couples de mots associant dénomination attendue et réponse produite par le patient (paraphasie construite par la morphologie ou la syntaxe). Nous avons ensuite recherché le niveau de similarité morphologique dans des couples de mots, puis identifié les types d’écarts entre A et P indiquant que les patients pourraient avoir conservé des connaissances ou des représentations de la construction des mots. L’analyse du jeu de données a permis de construire une notation spécifique permettant de mettre en avant les liens de similarité morphologique et de sous-tendre un raisonnement sur la (non) conservation des connaissances ou représentations de la construction des mots chez ces patients aphasiques. En voici un extrait ci-dessous :
Les détails concernant les objectifs du projet sont disponibles sur cette page : DEMONEXT ou cellle-ci : Morphologie et aphasie
Le classeur annoté est mis à disposition ici : ParaMorpho_transformations aphasiques_juin2023.
Contributrices
Frédérique Brin-Henry, Fiammetta Namer, Stéphanie Lignon (ATILF-CNRS) et Mélanie Rigollet (M1 M2 CCFUO université de Lorraine)