6. Conclusion et perspectives
Les résultats obtenus avec Graphist sont très encourageants, comme le montrent
les résultats précédents. Le programme pourrait cependant évoluer de plusieurs
manières:
- en augmentant la taille du dictionnaire de référence (nouvelles entrées, nouvelles graphies
anciennes); cela ferait diminuer le nombre de "mots inconnus" lors de l'analyse des documents; pourtant,
de notre point de vue, il ne s'agit pas là d'une difficulté majeure et ne résout pas les
véritables problèmes de la lemmatisation automatique;
- en adaptant le programme pour qu'il puisse traiter des textes plus anciens; cela suppose (1) une adaptation du
dictionnaire de référence, (2) un enrichissement du module d'analyse morphologique et (3) un
enrichissement des règles de modifications orthographiques. Il s'agit là d'un travail
conséquent, mais de premier intérêt;
- en améliorant la résolution automatique des ambiguïtés; ce point nous paraît
tout à fait essentiel, et est même crucial si l'on envisage de traiter des corpus de textes importants. En
effet, même si, comme le montrent les résultats précédents, 90 à 95% des textes
sont actuellement analysés, les 5 à 10% restants peuvent représenter plusieurs dizaines de
milliers de mots-occurrences à réviser manuellement.
Graphist représente donc une premier étape, à la fois dans le domaine
de la lemmatisation automatique et dans le domaine du traitement des textes anciens. Si un traitement
entièrement automatique s'avère, comme cela était prévisible, probablement
impossible à réaliser, du moins le logiciel nous enseigne-t-il d'une part que l'on peut espérer
traiter automatiquement 95% des occurrences d'un texte, et d'autre part que de multiples facilités permettent
de traiter simplement et rapidement les problèmes restants. Ce type d'outils devrait naturellement se
développer dans un proche avenir, parallèlement à la diffusion de plus en plus large des
corpus textuels et des méthodes d'indexation de documents.
[Retour à la table des matières]