top of page

Recrutement : Contrat postdoc : Sémantique Diachronique Computationnelle


Dans le cadre des travaux de notre Axe 5 (Analyse Sémantique Computationnelle), nous sommes à la recherche d'un.e chercheur.e postdoctoral.e en Sémantique Diachronique Computationnelle.


Sujet: modèles computationnels interprétables pour la détection et le suivi automatiques des évolutions sémantiques : combinaison des approches Contextual Embeddings et Pattern Mining


Durée du contrat : 18 mois


Localisation : Paris


Établissement et laboratoire de rattachement : Université Sorbonne Paris Nord, LIPN

UMR7030 CNRS


Date limite pour candidater : 15 janvier 2022


Période des auditions : 15-30 janvier 2022


Date de prise de fonctions : à partir du 1er février 2022


Contexte, problématiques et axes de la recherche


Les langues évoluent continuellement, poussées par la double nécessité de s'adapter aux développements socioculturels et technologiques et de rendre la communication plus efficace et expressive. En particulier, des mots nouveaux sont forgés ou empruntés à d'autres langues, certains mots deviennent obsolètes, d’autres enfin acquièrent de nouvelles significations ou perdent des significations existantes.


En TAL, l’étude du dynamisme des langues, notamment du point de vue lexical, est devenu depuis quelques années un sujet de recherche important qui complète les approches synchroniques. Le champ de recherche se structure, avec des états de l’art récents (Monteirol et al., 2021; Tahmasebi et al., 2021) et plusieurs manifestations scientifiques (International Workshop on Computational Approaches to Historical Language Change 2019 et 2021, ACL 2019 et 2020). Deux premières tâches d’évaluation des systèmes de détection ont été proposées (Unsupervised Lexical Semantic Change Detection Task, SemEval2020) et des jeux de références ont été mis en place pour quatre langues (anglais, latin, suédois et allemand).


Les systèmes de détection des changements lexicaux ont suivi les avancées des méthodes de TAL : après les premiers systèmes essentiellement basés sur les évolutions de fréquence (par exemple Gulordova & Baroni, 2011), les systèmes ont utilisé les word embeddings (Kim et al., 2014, Schletchweg et al., 2019) puis les contextual embeddings (Hu et al., 2019; Martinc et al., 2019; Giulianelli et al., 2020). Ces derniers systèmes procèdent généralement en regroupant les représentations vectorielles contextuelles des différents usages en clusters de sens, puis détectent les évolutions selon différentes métriques (Monteirol et al. 2021). Les systèmes actuels connaissent encore de nombreuses limitations. Principalement, l’opacité des modèles neuronaux ne permet pas de caractériser ces évolutions, en particulier il est difficile, voire impossible de lier les changements sémantiques à des caractéristiques linguistiques (morphologique, syntaxique, lexico-syntaxique), ou de catégoriser les types de changements (extension, restriction, métaphore, métonymie, etc.).


Dans ce but, une piste serait de combiner les approches neuronales avec des approches

Pattern Mining ou de fouille de motifs (Béchet et al. 2015) ou encore des méthodes issues de la linguistique de corpus (par exemple Gries, 2012) qui permettent d’extraire les

constructions lexico-syntaxiques les plus saillantes d’un corpus d’occurrences et d’identifier leurs évolutions. Il serait également intéressant d’exploiter les informations contextuelles des occurrences des nouveaux emplois (date, type de source, de domaine, origine géographique, etc.) pour caractériser et suivre l’évolution des emplois.


L’objectif est donc de mettre en place une approche permettant de caractériser

automatiquement les évolutions sémantiques. Une première étape consistera à

expérimenter les travaux de l’état de l’art pour la détection des évolutions. Il s’agira ensuite à partir des embeddings contextuels et des corpus diachroniques de concevoir une approche pour mettre en évidence les caractéristiques linguistiques de chacun des clusters de sens et leur évolution. Les corpus étudiés seront principalement en anglais et en français. Le postdoctorant ou la postdoctorante travaillera en collaboration avec des informaticiens et des linguistes qui construisent actuellement un corpus de référence d’évolutions sémantiques pour le français (méthodologie Durel : Schlechtweg et al., 2018).

D’autres problématiques pourront, dans un second temps, également être abordées par la personne recrutée et notamment : les systèmes actuels ne tiennent pas compte de

l’évolution graduelle, se limitant généralement à comparer deux états de langue

synchroniques ; pour obtenir la représentation vectorielle d’une lexie dans un contexte, il

est possible d’utiliser l’une des couches cachées ou une combinaison de celles-ci. Il n’existe pas aujourd’hui de consensus sur la couche à prendre en compte pour obtenir la

représentation sémantique la plus adéquate.


La personne recrutée rejoindra, dans l’axe 5 du Labex “Sémantique computationnelle”,

l’équipe de chercheurs et d’enseignants-chercheurs du Labex qui travaillent sur l’opération “Variation et changement sémantique” qui vise à :


- développer de nouveaux modèles et méthodes pour la détection automatique des

changements sémantiques lexicaux, la typologie des changements des points de vue intra-linguistiques, diachroniques et diastratiques ;

- développer un jeu de référence d’évolutions sémantiques pour le français

contemporain, en s’appuyant sur les corpus diachroniques disponibles.


Profil recherché

‐ doctorat en informatique spécialisé en Traitement Automatique des Langues et

Apprentissage Automatique

- maîtrise des méthodes d’apprentissage profond et des modèles de langue

‐ langue de travail : français et/ou anglais


Composition du dossier

  • une lettre de motivation

  • un descriptif du projet de recherche en lien avec la problématique à résoudre

  • un CV avec liste de publications et 3 publications représentatives (pdf ou lien),

  • lettres de recommandations ou noms de deux référents.

Le dossier sera envoyé à emmanuel.cartier@lipn.univ-paris13.fr et

thierry.charnois@lipn.univ-paris13.fr avant le 15 janvier 2022.


Les auditions des candidat(e)s pré-sélectionné(e)s auront lieu fin janvier 2022.


Références

Béchet N., Cellier P., Charnois T. and Crémilleux B. (2015). “Sequence mining under multiple constraints”. In Proceedings of the 30th Annual ACM Symposium on Applied Computing (SAC 2015), ACM Press, Salamanca, Spain, pages. 908--914.


Giulianelli, M., Tredici, M.D., & Fernández, R. (2020). “Analysing Lexical Semantic Change with Contextualised Word Representations”. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 3960–3973 July 5 - 10, 2020. https://www.aclweb.org/anthology/2020.acl-main.365.pdf


Gries Stefan Th. (2012). "Behavioral Profiles: a fine-grained and quantitative approach in corpus-based lexical semantics". In Gonia Jarema, Gary Libben, Chris Westbury (eds.), Methodological and analytic frontiers in lexical research, 57-80. Amsterdam Philadelphia: John Benjamins.


Montariol, S. (2021). Models of diachronic semantic change using word embeddings. (Modèles diachroniques à base de plongements de mot pour l'analyse du changement sémantique). PhD Thesis, Paris-Saclay. 223 pages https://tel.archives-ouvertes.fr/tel-03199801/document


Montariol S., Doucet A. and Allauzen A. (2021). “Etat de l’art du changement sémantique à partir de plongements contextualisés”. In Coria 2021, http://coria.asso-aria.org/2021/articles/court_27/main.pdf


Montariol, S., Martinc, M., & Pivovarova, L. (2021). “Scalable and Interpretable Semantic Change Detection”. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4642–4652 June 6–11, 2021. . https://www.aclweb.org/anthology/2021.naacl-main.369.pdf


Schlechtweg, D., McGillivray, B., Hengchen, S., Dubossarsky, H., & Tahmasebi, N. (2020). “SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection”. Proceedings of the 14th International Workshop on Semantic Evaluation, pages 1–23 Barcelona, Spain (Online), December 12, 2020. https://www.aclweb.org/anthology/2020.semeval-1.1.pdf


Schlechtweg, D., & Walde, S.S. (2020). “Simulating Lexical Semantic Change from Sense-Annotated Data”. In Ravignani, A. and Barbieri, C. and Martins, M. and Flaherty, M. and Jadoul, Y. and Lattenkamp, E. and Little, H. and Mudd, K. and Verhoef, T. (Eds.): The Evolution of Language: Proceedings of the 13th International Conference (EvoLang13). http://brussels.evolang.org/proceedings/paper.html?nr=9


Tahmasebi, N., Borin, L., & Jatowt, A. (2018). “Survey of Computational Approaches to Lexical Semantic Change”. Computational Linguistics, vol. 1, n°1, https://arxiv.org/pdf/1811.06278.pdf


Tahmasebi N., Borin L., Jatowt A., Xu Y. and Hengchen S. (éds, 2021). Computational approaches to semantic change, Language Science Press, 396p. https://langsci-press.org/catalog/book/303


Schlechtweg D., Schulte im Walde S. and Eckmann S. (2018). Diachronic usage relatedness (DURel): A framework for the annotation of lexical semantic change. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 169–174, New Orleans, Louisiana. Association for Computational Linguistics. https://www.aclweb.org/anthology/N18-2027.pdf



Comments


Post: Blog2_Post
bottom of page