Parution de la V4 de OrthoCorpus : 25 ans d’orthophonie !
Le corpus OrthoCorpus regroupe 1253 articles parus entre 1997 et 2022 dans la revue Rééducation Orthophonique, revue de référence fondée en 1962 par Suzanne Borel-Maisonny. Ces articles ont été écrits par des orthophonistes, par d’autres professionnel·les de santé ou de l’éducation (psychologues, médecins, linguistes, kinésithérapeutes…) ou par d’autres parties prenantes (représentant·es d’associations, parents…). Ils concernent tout l’exercice de l’orthophonie, et comportent des points théoriques sur les pathologies dont s’occupent les orthophonistes, des points sur les traitements et les rééducations, les évaluations, ainsi que des comptes-rendus d’études et quelques témoignages.
Cette ressource (plus de 6 millions de mots) a été constituée dans le cadre du projet éponyme OrthoCorpus (2015-2017), et augmentée, corrigée et enrichie en 2019 (V1.1), 2020 (V2) et 2022 (V3). Le projet OrthoCorpus a permis la construction et l’exploitation de corpus de spécialité en orthophonie, dans une perspective d’analyse terminologique. Il a été réalisé avec le concours financier de la Région Lorraine, du laboratoire ATILF, du Centre Hospitalier de Bar-le-Duc et de la Fédération Nationale des Orthophonistes.
Ce corpus a été enrichi en métadonnées qui comportent : le statut de l’auteur·rice (orthophoniste ou non), si l’auteur·rice écrit seul·e ou pas, le pays de l’auteur·rice principal·e, le numéro, sa thématique et l’année de sa parution, la rubrique assignée à l’article, la catégorie et le sous-thème (pathologie) de l’article, s’il concerne une population d’enfants ou non. Les résumés, mots clés en anglais et en français ont été conservés, ainsi que la structuration des documents (titres et sous-titres, introduction, conclusion…). Les figures, les tableaux et les annexes, ainsi que les références bibliographiques ont été exclues.
Dans OrthoCorpus V4, les notes de bas de page ont été regroupées en fin de chaque fichier (représentant un article) afin de faciliter leur exploitation. De plus, des problèmes lors de la segmentation en paragraphes ont été étudiés et résolus, permettant un traitement des données plus pertinent.
OrthoCorpus est disponible dans deux formats : un en XML-TEI, le deuxième permet une interrogation directe sous TXM. Une version complémentaire à la V4 (appelée CASFIN V4), segmentée en phrases est également rendue disponible.
OrthoCorpus est accessible aux membres de l’ESR, et aux orthophonistes praticiens-chercheurs (sur demande à l’adresse de contact, pour des projets de recherche)
Référence : ATILF – UMR 7118 (2025). OrthoCorpus [Corpus]. ORTOLANG, v4, https://hdl.handle.net/11403/orthocorpus/v4
– Une documentation technique sur la constitution de ce corpus est disponible sur HAL-SHS:
Frédérique Brin-Henry, Evelyne Jacquey, Jessika Cardinali, Sandrine Ollinger. Rapport technique de la constitution du corpus OrthoCorpus. [Rapport de recherche] ATILF. 2019.
– L’outil de segmentation en phrases est disponible sur Ortolang . Pour en savoir plus, voir Ollinger S., Maurel D. (2024). Segmentation en phrases : ouvrez les guillemets sans perdre le fil. Actes de la conférence JADT 2024.
– Une information complémentaire sur le logiciel TXM est disponible ici
