Une ré-édition du Trésor de la Langue Française informatisé, le TLFi, additionné d'un dictionnaire de synonymes, lui même intégré aux recherches du TLFi.
Cette ré-édition est en date du 12 mai 2020. Elle a été assemblée à partir du CNRTL, le Centre National de Ressoures Textuelles et Linguistiques, convertie en org-mode et prête à l'emploi pour des recherches locales, dans Emacs, avec Helm, et en plein texte dans l'intégralité du corpus.
Voici les rappels du laboratoire ATILF (Analyse et de Traitement de la Langue Française unité de recherche du CNRS et de l'Université de Lorraine) à propos du TLFi :
Le TLFi est la version informatisée du TLF, un dictionnaire des XIXe et XXe siècles en 16 volumes et 1 supplément : 100 000 mots avec leur histoire, 270 000 définitions, 430 000 exemples…
Avertissement : la rédaction du TLF est terminée depuis 1994 et la plupart des contributeurs ont quitté le laboratoire. Il n’a pas vocation à être mis à jour. Cette ressource, qui ne fait pas l’objet d’une veille lexicographique, est donc close « en l’état ». Il est donc tout à fait naturel que les définitions qui s’y trouvent ne rendent pas compte des évolutions de la société.
La présente ressource est produite et diffusée par l’ATILF à des fins de consultation pour l’enseignement et la recherche, à l’exclusion de toute exploitation commerciale. Le secretariat@atifl.fr semble quant à lui être fermé.
C'est à ces mêmes fins que j'ai souhaité obtenir "le trésor" mais aussi pour pouvoir y apporter des corrections. Un dictionnaire doit permettre de parcourir et de naviguer les mots voisins dans l'ordre lexicographique : le résultat d'une recherche dans un dictionnaire informatique ne fournit que le mot recherché or dans la majorité des cas, les mots partageant une racine commune sont étymologiquement proches et peuvent présenter un intérêt à être consultés.
Cette copie n'ayant pas été bâtie sur les sources originales (xml) ne dispose pas non plus du balisage qui permet de repérer automatiquement ces formes : auteur d'exemple, code grammatical, construction, crochets, date d'exemple, définition, domaine technique, entrée exemple, indicateur, mot vedette, plan de l'article, publication, source synonyme/antonyme, syntagme, titre d'exemple…
A l'instar d'un programme d'annotation, je pense que ces informations, tout en étant des références fixes, devraient être annexes au fichier source de l'article en lui-même.
Le format des sources autorise des recherches pleins textes, ce qui ouvre la possibilité de trouver les mots qui apparaissent dans des définitions. Ces recherches peuvant à leur tour être indexées. Ce n'est pas une nécessité sur une machine personnelle, les filtres dont tout bon système d'exploitation dispose pour faire converger les résultats ou effectuer des recoupements sont suffisamment rapides.
Les articles ont été convertis au format Org-mode
Ils sont prévus pour être consultés avec Emacs
sur un système de fichiers standard. Au 20 Mai 2021,
Emacs
et Org-mode
sont respectivement dans les
versions 26.3 et 9.3.6,
Org-Mode
est — entre autres choses — une syntaxe pour des
fichiers plein-textes qui offre des documents lisibles dans
leur format source original et convertibles en des variétés
d'autres formats de lecture et d'édition, quasiment prêts pour
des tirages papiers typographiés. "Quasiment", car la révision
et l'impression des pages nécessiterait les attentions
méticuleuses qui devrait être apportée à chaque article pour
qu'un tel ouvrage puisse voir le jour.
Le dossier des scripts fournit avec cette archive
contient des fonctions elisp
pour effectuer des
recherches dans le corpus.
Cette édition contient 87827 fichiers d'articles et comprend également une version du DES, Le Dictionnaire Électronique des Synonymes produit par le CRISCO de l'Université de Caen.
Ce dictionnaire informatisé ouvre une voie d'aboutissement pour composer des dictionnaires futurs. J'espère que cela permettra de dépasser l'avertissement de l'ATILF et de relancer le travail de lexicographes qui voudront proposer des données dont les sources dont puissent être mises à disposition de chacun.
La citation d’un extrait de la ressource au sein d’une publication scientifique est autorisée sous condition de porter la mention suivante :
TLFi : Trésor de la langue Française informatisé, http://www.atilf.fr/tlfi, ATILF - CNRS & Université de Lorraine.
L'archive est en cours de finalisation pour être distribuée en ligne sous une license ouverte adaptée. Elle sera disponible très prochainement