close

Вход

Забыли?

вход по аккаунту

1227423

код для вставки
Sublim : un systeme universel de bases lexicales
multilingues et Nadia : sa specialisation aux bases
lexicales interlingues par acceptions
Gilles Serasset
To cite this version:
Gilles Serasset. Sublim : un systeme universel de bases lexicales multilingues et Nadia : sa specialisation aux bases lexicales interlingues par acceptions. Interface homme-machine [cs.HC]. Université
Joseph-Fourier - Grenoble I, 1994. Français. �tel-00005112�
HAL Id: tel-00005112
https://tel.archives-ouvertes.fr/tel-00005112
Submitted on 25 Feb 2004
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
THéSE
prŽsentŽe par
Gilles SƒRASSET
pour obtenir le titre de
DOCTEUR DE L'UNIVERSITƒ JOSEPH FOURIER Ñ GRENOBLE 1
(ARRæTƒS MINISTƒRIELS DU 5 JUILLET 1984 ET DU 30 MARS 1992)
SpŽcialitŽ
INFORMATIQUE
SUBLIMÊ: un syst•me universel de bases lexicales
multilingues
et
NADIAÊ: sa spŽcialisation aux bases lexicales
interlingues par acceptions
8 dŽcembre 1994
Composition du jury :
PrŽsident
Rapporteurs
Examinateurs
Directeur
Marie-France
Helmut
Jean
Vincent
Fran•ois
Christian
BRUANDET
SCHNELLE
VƒRONIS
QUINT
RECHENMANN
BOITET
THéSE PRƒPARƒE AU SEIN DU LABORATOIRE GETA (IMAG, UJF & CNRS)
Remerciements
Au moment dÕamener les voiles, le marin sait quÕil ne doit son arrivŽe au port quÕaux vents
qui ont su lÕy mener.
Au vif zŽphyr (Christian Boitet) qui, jubilant sur les kumquats du clown gracieux et non
content dÕavoir affrŽtŽ le brigantin, a su gonfler ses voiles et le diriger sans abattre la m‰ture.
Ë lÕaquilon (Fran•ois Peccoud) qui mÕa accueilli dans son aire et dont la force et la
persŽvŽrance mÕont empŽchŽ dÕaffaler.
Ë ƒole (Marie-France Bruandet) et aux quatres vents (Vincent Quint, Fran•ois Rechenmann,
Helmut Schnelle et Jean VŽronis), qui ont su Žtudier les nÏuds du mousse et y voir un travail
de matelot.
Ë tous les vents de la rose, autan, mistral, khamsin, sirocco, harmattan, noro”t, simoun,ÊÉ
(membres du GETA, Žquipe de BÕVITAL,ÊÉ) qui, par babord ou tribord, gonflant brigantine
ou huniers, portant chant de sir•nes ou arome de terre, rafraichissant cale et carrŽ,
rŽchauffant marins et matelots, ont aidŽ esquif et Žquipage ˆ maintenir le cap vers de
nouveau rivages.
Je ne peux oublier le brick (Mathieu Lafourcade) qui ˆ quelques enc‰blures, cinglait, tout
comme moi, dans le sillage de la goŽlette (HervŽ Blanchon) qui a ouvert la marche.
Au foehn (Maria), qui a su prodiguer douceur et chaleur lorsque se profilaient sargasses et
dŽrives dans le cÏur du matelot.
Ë tous les vents que je ne peux citer ici, quÕils me pardonnent et sachent que je nÕoublie pas
leur souffle enivrant.
Table des matières
INTRODUCTION
1
ƒTAT DE LÕ ART ET PROBLéMES INTƒRESSANTS
3
I.
DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES
1.
Dictionnaires sur papier............................................................................................ 6
1.1.
Dictionnaires monolingues ....................................................................................... 6
1.2.
Thesaurii.................................................................................................................... 8
1.3.
Dictionnaires bilingues ............................................................................................. 9
1.4.
Dictionnaires multilinguesÊ ...................................................................................... 10
2.
Dictionnaires sur support Žlectronique .................................................................. 11
2.1.
Un format de codageÊ: SGML/TEI............................................................................ 12
2.2.
Dictionnaires en ligne: le Collins On-Line ............................................................. 13
2.3.
Gestionnaires de dictionnaires terminologiquesÊ: MTX Termex ............................ 14
2.4.
Un environnement originalÊ: le Dicologique .......................................................... 14
3.
II.
Syst•mes lexicaux spŽcialisŽs ................................................................................. 16
3.1.
BDLex ...................................................................................................................... 16
3.2.
Dictionnaires du LADL............................................................................................ 17
3.3.
Ariane ...................................................................................................................... 17
3.4.
BDTAO .................................................................................................................... 19
3.5.
METAL ..................................................................................................................... 19
E FFORTS EN COURS
1.
5
21
Le Lexicaliste ........................................................................................................... 22
ii
Table des mati•res
1.1.
Vue gŽnŽrale du syst•me ........................................................................................ 22
1.2.
RŽseau lexical et sŽmantique.................................................................................. 23
1.3.
VŽrifications de cohŽrence et valeurs par dŽfaut ................................................... 23
2.
EDR ......................................................................................................................... 24
2.1.
Architecture lexicale ............................................................................................... 24
2.2.
Architecture linguistique......................................................................................... 25
2.3.
Dictionnaire de concepts ........................................................................................ 27
3.
GENELEX .................................................................................................................. 31
3.1.
Le mod•le conceptuel de GENELEX ....................................................................... 32
3.2.
Vue gŽnŽrale dÕune unitŽ du lexique ..................................................................... 33
3.3.
Le mod•le morphologique ..................................................................................... 34
3.4.
Le mod•le syntaxique ............................................................................................. 36
3.5.
Le mod•le sŽmantique............................................................................................ 38
4.
MULTILEX ................................................................................................................. 39
4.1.
Architecture lexicale ............................................................................................... 39
4.2.
Architecture linguistique......................................................................................... 40
4.3.
Architecture logicielle ............................................................................................. 42
III.
LES PROBLéMES INTƒRESSANTS
45
1.
Architecture lexicale ............................................................................................... 45
2.
Architecture linguistique......................................................................................... 48
3.
PrŽsentation de lÕinformation ................................................................................. 49
CONCEPTION D'UNE BASE LEXICALE MULTILINGUE MULTIAPPLICATIONS
51
INTRODUCTION
53
IV.
55
DƒFINITION D ÕUNE BASE LEXICALE MULTILINGUE
1.
DŽfinition de lÕarchitecture lexicale ....................................................................... 55
1.1.
Exemples ................................................................................................................. 55
1.2.
Le langage de dŽfinition de lÕarchitecture lexicaleÊ: LEXARD .................................. 59
2.
V.
DŽfinition de lÕarchitecture linguistique ................................................................. 60
2.1.
Exemples ................................................................................................................. 61
2.2.
Le langage de dŽfinition de lÕarchitecture linguistiqueÊ: L INGARD ......................... 75
2.3.
ImplŽmentation ....................................................................................................... 87
ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION
91
1.
Architecture logicielle ............................................................................................. 91
2.
Niveau InterneÊ: manipulation des informations linguistiques............................... 92
Table des mati•res
iii
2.1.
DŽnoter un ensemble de structures ....................................................................... 93
2.2.
Manipuler une structure linguistique...................................................................... 93
3.
ƒditeur, navigateur .................................................................................................. 95
3.1.
Les documents structurŽs........................................................................................ 95
3.2.
Le dictionnaire, un document structurŽ ................................................................. 97
4.
VŽrificateur de cohŽrence..................................................................................... 103
4.1.
Notions .................................................................................................................. 103
4.2.
Structure de la base lexicale ................................................................................. 104
4.3.
Exemples de contraintes ....................................................................................... 106
5.
DŽfauteur .............................................................................................................. 108
5.1.
Notions .................................................................................................................. 108
5.2.
Exemples de r•gles de valeurs par dŽfaut ........................................................... 109
6.
Import/Export ....................................................................................................... 110
6.1.
Notions .................................................................................................................. 110
6.2.
Exemple dÕexport .................................................................................................. 112
SPƒCIALISATION Ë LÕINTERLINGUE PAR ACCEPTIONS
117
INTRODUCTION
119
VI.
121
LÕAPPROCHE PAR ACCEPTIONS
1.
Acceptions et concepts ......................................................................................... 121
1.1.
Acceptions ............................................................................................................. 121
1.2.
Concepts ............................................................................................................... 123
1.3.
Variantes et discussion ......................................................................................... 125
2.
Acceptions et fonctions lexicales.......................................................................... 129
3.
Parax, une expŽrimentation ................................................................................. 129
3.1.
Les dictionnaires monolingues ............................................................................. 130
3.2.
Le dictionnaire interlingue .................................................................................... 130
3.3.
Parax et les fonctions lexicales ............................................................................. 133
3.4.
Probl•mes et limitations........................................................................................ 134
4.
Conclusion de lÕŽtude ........................................................................................... 134
VII.
IMPLƒMENTATION
1.
2.
137
LÕacception, une structure logique supplŽmentaire............................................. 137
1.1.
Acceptions monolingues ...................................................................................... 137
1.2.
Acceptions interlingues ........................................................................................ 138
1.3.
Dictionnaires dÕacceptions.................................................................................... 139
Le lien lexical ........................................................................................................ 139
iv
Table des mati•res
2.1.
Lien gŽnŽral........................................................................................................... 139
2.2.
Lien de raffinement ............................................................................................... 140
2.3.
Liens Òˆ la MelÕcÿ ukÓ .............................................................................................. 140
3.
VŽrification de cohŽrence..................................................................................... 141
3.1.
Exemples de schŽmas ˆ dŽtecter .......................................................................... 141
3.2.
DŽclaration dÕune contrainte de cohŽrence sur le rŽseau lexical ........................ 142
CONCLUSION
145
BIBLIOGRAPHIE
147
ANNEXES
159
ANNEXE AÊ: INTRODUCTION Ë SGML
161
ANNEXE BÊ: INTRODUCTION Ë GRIF
165
A NNEXE CÊ: EXEMPLES D ÕARTICLES DU D ICTIONNAIRE E XPLICATIF ET C OMBINATOIRE DU F RAN‚AIS
CONTEMPORAIN
171
Liste des figures
I.
DES DICTIONNAIRES SUR PAPIER AUX BASES LEXICALES
5
Figure 1.1Ê: Article ÒcomposerÓ du petit Robert (Ždition de 1970) ............................................. 6
Figure 1.2Ê: LÕunitŽ lexicale complexe ÒconstruireÓ..................................................................... 7
Figure 1.3Ê: Un article du RodgetÕs thesaurus .............................................................................. 8
Figure 1.4Ê: Structure hiŽrarchique de la section G (Arithmetical and logic operations) du
vocabulaire de traitement de lÕinformation. ............................................................................... 9
Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation ...................... 9
Figure 1.6Ê: Un exemple d'article du Robert & Collins.............................................................. 10
Figure 1.7Ê: Une entrŽe du dictionnaire terminologique des sciences de lÕinformation .......... 11
Figure 1.8Ê: LÕentrŽe ÒcomposerÓ du Collins On-line, version Macintosh ................................. 13
Figure 1.9Ê: Un exemple dÕentrŽe dÕun dictionnaire MTX Termex ........................................... 14
Figure 1.10Ê: Exemple de la structure des ŽlŽments du Dicologique ....................................... 15
Figure 1.11Ê: Un exemple dÕentrŽes de BDLex.......................................................................... 17
Figure 1.12Ê: Automate reprŽsentant la forme flŽchie ÒpasseÓ .................................................. 17
Figure 1.13Ê: Automate reprŽsentant les diffŽrentes variantes du mot composŽ Òun roman policier
de la sŽrie noireÓÉ ................................................................................................................... 17
Figure 1.14Ê: Exemple dÕarticle gŽnŽrŽ par Visulex................................................................... 18
Figure 1.15Ê: Une entrŽe lexicale de BDTAO ............................................................................ 19
II.
E FFORTS EN COURS
21
Figure 2.1Ê: Une entrŽe de dictionnaire crŽŽe par Le Lexicaliste .............................................. 22
Figure 2.2Ê: ƒlŽments de la dŽfinition dÕun dictionnaire ........................................................... 22
Figure 2.3Ê: Architecture lexicale du projet EDR ....................................................................... 25
vi
Liste des figures
Figure 2.4Ê: Structure dÕune entrŽe de dictionnaire monolingue EDR ...................................... 25
Figure 2.5Ê: Exemple dÕentrŽe de dictionnaire monolingue EDR ............................................. 25
Figure 2.6Ê: Un exemple dÕinformation grammaticale associŽe ˆ une entrŽe .......................... 26
Figure 2.7Ê: Exemple dÕinformation sŽmantique associŽe ˆ une entrŽe ................................... 26
Figure 2.8Ê: Structure dÕun article de dictionnaire bilingue EDR .............................................. 26
Figure 2.9Ê: Exemple dÕentrŽes de dictionnaire bilingue .......................................................... 26
Figure 2.10Ê: Un exemple dÕentrŽes de dictionnaire bilingues ................................................. 27
Figure 2.11Ê: Un exemple de classification de concepts ........................................................... 30
Figure 2.12Ê: Un extrait de la hiŽrarchie de concepts du dictionnaire EDR.............................. 30
Figure 2.13Ê: Le mŽcanisme dÕhŽritage et les relations nŽgatives ............................................. 31
Figure 2.14Ê: LÕarticulation globale dÕune unitŽ du lexique ....................................................... 33
Figure 2.15Ê: Un exemple dÕunitŽ morphologique simple prŽsentŽe sous forme graphique .. 35
Figure 2.16Ê: Description de base associŽe ˆ lÕentrŽe ÒintŽressantÓ (adjectif) .......................... 37
Figure 2.17Ê: Description de lÕUSyn composŽe Òmettre en ÏuvreÓ .......................................... 37
Figure 2.18Ê: Un exemple de relations entre les diffŽrents mod•les GENELEX ......................... 38
Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX ..................................................................... 39
Figure 2.20Ê: Vue gŽnŽrale dÕune LU (Lexical Unit) de MULTILEX ............................................ 41
Figure 2.21Ê: Relations multi-bilingues de la LU allemande ÒFahrradÓ ..................................... 41
Figure 2.22Ê: Architecture logicielle dÕun syst•me de gestion de bases lexicales selon MULTILEX
................................................................................................................................................... 42
III.
LES PROBLéMES INTƒRESSANTS
45
Figure 3.1Ê: Une base lexicale basŽe sur lÕapproche bilingue................................................... 46
Figure 3.2Ê: Une base lexicale basŽe sur lÕapproche interlingue. ............................................. 47
IV.
DƒFINITION D ÕUNE BASE LEXICALE MULTILINGUE
55
Figure 4.1Ê: Base lexicale quintilingue fondŽe sur une approche bilingue unidirectionnelle . 56
Figure 4.2Ê: Base lexicale quintilingue fondŽe sur une approche interlingue.......................... 58
Figure 4.3Ê: Base lexicale anglais-japonais fondŽe sur une approche mixte ............................ 58
Figure 4.4Ê: Un exemple dÕentrŽe de dictionnaire..................................................................... 61
Figure 4.5Ê: Table des attributs et de leurs valeurs possibles .................................................... 61
Figure 4.6Ê: Vue gŽnŽrale dÕune LU (Lexical Unit) de MULTILEX .............................................. 64
Figure 4.7Ê: Structure commune aux unitŽs morphologiques de GENELEX .............................. 66
Figure 4.8Ê: Structure de lÕUM simple ........................................................................................ 67
Figure 4.9Ê: RŽgime dÕenseigner 1, sous forme dÕautomate ...................................................... 72
Figure 4.10Ê: Structure interne dÕune expression linguistique, valeur de fonction lexicale ..... 73
Figure 4.11Ê: Vue globale du treillis (Σ,<<)................................................................................ 76
V.
ARCHITECTURE LOGICIELLE ET OUTILS DE GESTION
91
Figure 5.1Ê: Architecture logicielle du syst•me SUBLIM ............................................................. 92
Figure 5.2Ê: Un article vu sous forme de table des mati•res ..................................................... 96
Figure 5.3Ê: Le m•me article vu sous la forme habituelle.......................................................... 97
Figure 5.4Ê: Vue intŽgrale de lÕentrŽe composer (transitif)....................................................... 99
Liste des figures
vii
Figure 5.5Ê: Vue intŽgrale de lÕentrŽe composer (intransitif) .................................................. 100
Figure 5.6Ê: Vue Žditoriale du dictionnaire bilingue ............................................................... 101
Figure 5.7.Ê: Vue ÒsyntaxiqueÓ du dictionnaire bilingue. ........................................................ 102
Figure 5.8Ê: Premi•re Žtape du processus dÕexport................................................................. 111
Figure 5.9Ê: Seconde Žtape du processus dÕexport.................................................................. 112
VI.
LÕAPPROCHE PAR ACCEPTIONS
121
Figure 6.1Ê: LÕinterlingue par acception dans des conditions idŽales ..................................... 122
Figure 6.2Ê: Acceptions interlingues pour rivi•re, fleuve et river............................................ 122
Figure 6.3Ê: Acceptions interlingues pour rivi•re, fleuve et river, avec liens de raffinement. 122
Figure 6.4Ê: Un exemple de lien de raffinement motivŽ par un phŽnom•ne contrastif non
sŽmantique .............................................................................................................................. 123
Figure 6.5Ê: Un ensemble de dictionnaires monolingues........................................................ 124
Figure 6.6Ê: Une base de connaissances .................................................................................. 124
Figure 6.7Ê: Une base lexicale fondŽe sur la connaissance ..................................................... 124
Figure 6.8Ê: Le syst•me de gestion lexicale dÕULTRA ............................................................... 126
Figure 6.9Ê: CrŽation du dictionnaire dÕacceptions, premi•re Žtape. ...................................... 127
Figure 6.10Ê: ƒtat de la base lexicale apr•s avoir liŽ rivi•re, avant dÕavoir liŽ fleuve ............. 128
Figure 6.11Ê: Configuration illicite dŽtectŽe par le syst•me .................................................... 128
Figure 6.12Ê: Les diffŽrentes solutions aux probl•mes contrastifs. ......................................... 128
Figure 6.13Ê: Le dictionnaire monolingue de PARAX ............................................................... 130
Figure 6.14Ê: LÕacception interlingue Ò#acheter_commerceÓ................................................... 131
Figure 6.15Ê: LÕacception interlingue Ò#acheter_commerceÓ et ses traductions en chinois ... 131
Figure 6.16Ê: LÕacception interlingue Ò#acheter_commerce$engrosÓ et ses traductions en chinois
................................................................................................................................................. 132
Figure 6.17Ê: Une entrŽe chinoise correspondant ˆ lÕacception Ò#acheter_commerceÓ......... 132
Figure 6.18Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Fran•aise
Ò#acheter_commerceÓ ............................................................................................................. 133
Figure 6.19Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Fran•aise
Ò#acheter_corrompreÓ ............................................................................................................. 133
VII.
IMPLƒMENTATION
137
Figure 7.1Ê: Le lien de synonymie interlingue doit se reflŽter dans le dictionnaire monolingue
................................................................................................................................................. 141
Figure 7.2Ê: Configuration illicite dans le sous-rŽseau de synonymie englobante Syn∩ ....... 142
Figure 7.3Ê: Configuration illicite dans le sous rŽseau lexical interdictionnaire de synonymie
englobante Syn∩..................................................................................................................... 142
ANNEXE BÊ: INTRODUCTION Ë GRIF
165
Figure B.1Ê: Une instance de document de la classe Anthology ............................................ 168
Introduction
Les besoins en ressources lexicales de grande taille sont de plus en plus importants. Les
causes en sont multiplesÊ: le dŽveloppement commercial de nombreux syst•mes de Traitement
Automatique des Langues Naturelles (TALN), le volume des textes ˆ traduire, qui augmente
dans de nombreuses institutions et en particulier ˆ lÕUnion EuropŽenne, lÕapparition dÕoutils
dÕaide ˆ la traduction humaine, qui nŽcessitent une couverture gŽnŽrale de la langue, etc.
Il faut donc dŽvelopper des dictionnaires qui soient ˆ la fois ˆ usage humain et ˆ usage
ÒmachinalÓ. DiffŽrents outils existent dŽjˆ pour faciliter le dŽveloppement de bases lexicales,
comme par exemple le gestionnaire de dictionnaires de METAL (SNI-Germany) spŽcialisŽ
dans le traitement des bases lexicales de syst•mes de traduction automatique. Parall•lement,
la TEI (Text Encoding Initiative) propose des standards de codage de dictionnaires imprimŽs
(ˆ usage humain). Entre les deux, de nombreux efforts ont ŽtŽ accomplis sur la dŽfinition de
gestionnaires de bases lexicales indŽpendants des applications. Parmi ces efforts, le plus
poussŽ est le projet ESPRIT MULTILEX . NŽanmoins, ce projet prŽsente quelques faiblesses
(dictionnaires bilingues par transfert, obligation de coder les structures linguistiques sous
forme de structures de traits typŽsÉ). Nous nous proposons de dŽfinir un syst•me de gestion
de bases lexicales multilingues (BDLM) en partant des acquis de projets tels que MULTILEX .
Le projet Sublim apporte des nouveautŽs par rapport aux diffŽrents syst•mes de gestion de
bases lexicales multilingues. Il permet de spŽcifier lÕarchitecture lexicale dÕune base
particuli•re en utilisant des dictionnaires monolingues, bilingues ou interlingues dont la
gestion globale (acc•s aux unitŽs, structures squelettesÉ) est prise en charge par le syst•me.
Les unitŽs des dictionnaires, ainsi que les informations quÕelles portent, ne sont pas
contraintes. Cela permet dÕutiliser SUBLIM pour implŽmenter des bases lexicales ÒfondŽes sur
la connaissanceÓ inspirŽes de projets tels que EDR (Japon) ou KBMT-89 (USA). On peut aussi
implŽmenter des bases lexicales fondŽes sur une approche par transfert comme celles du
projet Multilex ou comme les dictionnaires de METAL.
Le linguiste peut dŽfinir lÕarchitecture linguistique des diffŽrents dictionnaires de sa base
lexicale. Pour cela, il choisit les structures logiques servant de base ˆ ses structures
linguistiques parmi une importante collection (automates, graphes, arbres, structures de traits
typŽs, ensembles, listesÉ). En combinant ces structures, on peut dŽfinir des structures
2
Introduction
linguistiques complexes dÕune mani•re naturelle. Cette approche universelle permet la
crŽation de bases lexicales pour des usages diffŽrents, automatiques aussi bien quÕhumains.
Lorsque lÕon veut construire des bases lexicales comportant de nombreuses langues, une
approche interlingue semble sÕimposer. Cependant, les projets EDR et KBMT, fondŽs sur la
connaissance ÒextralinguistiqueÓ du domaine du discours, ont rencontrŽ des probl•mes
thŽoriques complexes (raffinement des concepts, classification et exceptions, description des
conceptsÉ), avec pour consŽquence un cožt ŽlevŽ de dŽveloppement et des probl•mes de
cohŽrence.
CÕest pourquoi, comme le projet ULTRA, nous avons choisi pour nos applications de privilŽgier
une architecture lexicale interlingue fondŽe sur les connaissances linguistiques plut™t que sur
les connaissances extralinguistiques. Le lexique ÒpivotÓ nÕest alors plus formŽ de ÒconceptsÓ
(indŽpendants des langues), mais ÒdÕacceptions interlinguesÓ fonctions des langues en
prŽsence. Les bases utilisant cette architecture sont appelŽes Òbases NADIAÓ.
Nous avons dŽveloppŽ autour de SUBLIM des outils facilitant la gestion de bases NADIA. Dans
une base N ADIA , on dŽfinit deux nouvelles classes de dictionnaires hŽritant des classes
monolingues et interlingues de SUBLIM. On introduit aussi de nouvelles mŽthodes pour leur
gestion, ainsi que des ÒunitŽs dictionnairiquesÓ (acceptions monolingues, acceptions
interlinguesÉ) dont le linguiste hŽrite pour dŽfinir son architecture linguistique.
Pour que SUBLIM (et a fortiori NADIA) puisse •tre utilisable pour dŽfinir, construire et maintenir
des dictionnaires de grande taille, ˆ usage ÒmachinalÓ aussi bien quÕhumain, il doit intŽgrer
des outils conviviaux permettant dÕŽditer, de parcourir et de manipuler des structures
complexes dans diffŽrents modes, textuels et graphiques.
Pour cela, nous utilisons Grif, un puissant Žditeur de documents structurŽs. LÕutilisation de
diffŽrentes vues dÕune m•me structure permet la crŽation et le formatage dÕun dictionnaire
sous diverses formes (textes SGML, formulaires, graphiques, dictionnaires imprimablesÉ).
Pour la maintenance, il est Žgalement intŽressant de visualiser une structure linguistique sous
diffŽrentes formes, avec possibilitŽ de cacher une partie de lÕinformation.
Nous dŽfinissons aussi dÕautres outils facilitant la gestion et lÕexploitation des dictionnaires
(vŽrification de cohŽrence, import/export, r•gles de valeurs par dŽfautÉ). Ces outils sont
organisŽs au sein dÕune architecture ˆ trois niveaux sŽparant clairement les probl•mes de
stockage, de manipulation et de visualisation.
Dans la premi•re partie de ce document, nous prŽsentons les travaux qui ont ŽtŽ effectuŽs
dans le domaine. Cela nous permet ensuite dÕanalyser les probl•mes des dictionnaires et
dÕŽvaluer les solutions qui ont ŽtŽ proposŽs par les auteurs des diffŽrents syst•mes.
La seconde partie dŽfinit le projet SUBLIM de syst•me universel de gestion de bases lexicales
multilingues. Nous verrons comment on peut, avec ce syst•me, dŽfinir une base lexicale
multilingue (en dŽfinissant lÕensemble de ses dictionnaires et leurs architectures linguistiques).
Nous Žtudierons ensuite lÕarchitecture logicielle et les outils dŽfinis dans ce syst•me.
Dans la troisi•me partie, nous spŽcialisons SUBLIM ˆ lÕapproche interlingue par acceptions.
Nous exposons les principes de cette architecture lexicale interlingue fondŽe sur une les
connaissances linguistiques. Nous montrons ensuite que cette architecture lexicale est propice
ˆ lÕutilisation de fonctions lexicales Òˆ la MelÕcÿ ukÓ. Nous prŽsentons enfin PARAX, la maquette
dÕune base lexicale utilisant cette approche, et dŽgageons les caractŽristiques gŽnŽriques de
cette approche. Enfin, nous dŽveloppons lÕimplŽmentation de NADIA, un gestionnaire de
bases lexicales interlingues par acceptions, qui se prŽsente du point de vue logique et
informatique comme un spŽcialisation du syst•me SUBLIM.
État de l’art et problèmes intéressants
I. Des dictionnaires sur papier aux bases lexicales
Les dictionnaires ont une longue histoire. Le mot lui-m•me est introduit d•s 1539, avec le
dictionnaire fran•ais-latin de R. Estienne. Auparavant, on parlait de ÒthesaurusÓ pour les
dictionnaires en une seule langue.
Les dictionnaires Žlectroniques sont apparus d•s les dŽbuts de lÕinformatique, et se
dŽveloppent aujourdÕhui de fa•on spectaculaire.
Le besoin en dictionnaires Žlectroniques est motivŽ principalement par deux mouvementsÊ:
- porter des dictionnaires existants sur un support Žlectronique afin de simplifier leur
acc•s ou pour les intŽgrer ˆ des environnements informatiques de rŽdaction,
- construire des dictionnaires ˆ usage informatique, cÕest ˆ dire utilisŽs comme donnŽes
linguistiques par des processus automatiques.
Depuis quelques annŽes, ces deux mouvements tendent ˆ se rapprocher, notamment par
lÕapparition de travaux visant ˆ la construction de bases lexicales ˆ usage humain et/ou ˆ
usage automatique.
Bien que nos travaux se veuillent indŽpendants de lÕinformation linguistique et lexicale
associŽe aux diffŽrentes entrŽes du dictionnaire, il est important dÕŽtudier les diffŽrents
dictionnaires qui existent, afin dÕen dŽgager les particularitŽs, pour garantir la conservation de
leurs fonctionnalitŽs.
Au cours de ce Òvoyage au pays des lexiquesÓ, le lecteur doit garder ˆ lÕesprit quelques
questions, dont les rŽponses donnent les particularitŽs de chacun des dictionnaires observŽsÊ:
- Comment acc•de-t-on ˆ lÕinformationÊ?
- Quelle est lÕunitŽ dÕinformation (lÕunitŽ lexicale)Ê?
- Ë quelle information acc•de-t-onÊ?
- Comment lÕinformation est-elle codŽeÊ?
Dans la suite de ce chapitre, nous t‰cherons de rŽpondre ˆ ces questions pour les diffŽrents
dictionnaires ŽtudiŽs, obtenant ainsi une idŽe de lÕŽtonnante diversitŽ du monde des
dictionnaires (Žlectroniques ou non).
Nous dŽveloppons ce tour dÕhorizon en suivant la chronologie, cÕest ˆ dire en Žvoquant tout
dÕabord les dictionnaires papier afin dÕavoir une illustration de la richesse des informations qui
peuvent •tre prŽsentes dans un dictionnaire. Nous continuons en Žtudiant les dictionnaires
sur support Žlectronique et nous terminons en Žtudiant les bases lexicales spŽcialisŽes, qui
sont des dictionnaires construits pour un usage automatique.
1.
Dictionnaires sur papier
Le petit Robert dŽfinit un dictionnaire comme Žtant un recueil de mots rangŽs dans un ordre
convenu qui donne une dŽfinition ou des informations sur les signes.
Nous verrons que sous cette dŽfinition se cache une incroyable diversitŽ de types
dÕinformation (dŽfinition, ŽtymologieÉ), de moyen dÕacc•s (dictionnaires de kanjis, de
lemmes, par unitŽs lexicales complexesÉ) de formatage, dÕusage, de sŽlection des mots, etc.
1.1.
Dictionnaires monolingues
Les dictionnaires monolingues sont les plus rŽpandus. Qui nÕa pas un petit Robert ou un
Larousse, voire un Hachette dans sa biblioth•queÊ? Nous connaissons tous le moyen de les
utiliser. Et pourtant, ici aussi, on peut avoir des surprises.
1.1.1. Un dictionnaire classiqueÊ: le petit Robert
Dans un dictionnaire classique, lÕentrŽe se fait par le lemme et la catŽgorie. On trouve ainsi
deux articles diffŽrents pour le lemme devant (devant - prŽposition adverbiale et devant nom masculin). Une entrŽe peut •tre simple (devoir, constaterÉ) ou composŽe (pomme de
terre, deus ex machinaÉ).
On peut accŽder ˆ une unitŽ du lexique par plusieurs entrŽes (exÊ: DICO n.m. v. DICTIONNAIRE).
Une unitŽ lexicale est ensuite dŽcoupŽe en diffŽrents sens. Notons quÕil y a autant de
dŽcoupages quÕil y a de dictionnaires monolingues. Dans le Robert par exemple, les verbes
sont dŽcoupŽs selon leur comportement syntaxique (verbes transitifs ou intransitifs) puis
selon leur sens.
On trouve de nombreuses informations dans ces dictionnaires. Pour chaque lemme, on a sa
prononciation, sa catŽgorie, son genre et son Žtymologie. Pour chaque sens, on a sa
dŽfinition, des exemples, des rŽfŽrences ˆ dÕautres entrŽes synonymes ou antonymes, un
domaine voire un niveau de langue.
Composer v. (XIIe; lat. componere, dÕapr. poser).
I. V. tr. ×1¡ (1559). Former par lÕassemblage, la combinaison de parties. V. Agencer, arranger,
assembler, constituer, disposer, faire, former, organiser. Composer un rem•de, un breuvage,
un plat. V. Confectionner, prŽparer. Pi•ces qui composent une machine.Ñ Fig. ÇTu composes
dans ta jeunesse lÕhomme mžr, le vieillard que tu serasÈ (Mac Orlan). × 2¡ (v. 1480) Faire, produire
(une oeuvre). V. B‰tir, crŽer, Žcrire, produire. Composer un livre, un po•me, des vers. × 3¡
(1690). ƒcrire (une Ïuvre musicale). Composer une sonate, un chÏur. Ñ Absolt. CÕest un grand
interpr•te, mais il ne compose pas. × 4¡ Imprim. (1621). Assembler des caract•res pour former (un
texte). ÇIl eut, le premier, fini de composer 4 lignesÈ (Duham.). Le texte est composŽ, on va
commencer le tirage. × 5 ¡ (1559). ƒlaborer, adopter (une apparence, un comportement). V.
Affecter. Composer son attitude, son maintien (se donner, prendre une contenance). Composer
son visage, ses paroles. V. ƒtudier. Se composer un visage de circonstance.
II. V. intr. × 1¡ (xve) SÕaccorder (avec qqn ou qqch.) en faisant des concessions. V. Accommoder
(sÕ), entendre (sÕ), traiter, transiger. Composer avec ses crŽanciers. Composer avec lÕennemi. V.
Pactiser. Composer avec sa conscience. ÇJe fus l‰che, et je composai avec ma dŽceptionÈ (Colette). ×
2¡ Faire une composition. Les Žl•ves sont en train de composer.
III. SE COMPOSER. v. pron. × 1¡ ætre composŽ de . V. Comporter, comprendre. La maison se
compose de deux Žtages. × 2¡ Se faire, Se former. ÇLes choses de la vie, comme les ondes de lÕocŽan,
se composent et se dŽcomposent sans cesseÈ (Hugo). × 3¡ (RŽcipr.). Se m•ler en sÕorganisant (de
plusieurs ŽlŽments). × 4¡ (RŽfl.). Vieilli. Composer son attitude. ÇlÕart de se composerÈ (Beaumarch.).
× ANT. Analyser, dŽcomposer, dŽfaire, dissocier.
Figure 1.1Ê: Article ÒcomposerÓ du petit Robert (Ždition de 1970)
Cette information est destinŽe ˆ un usage humain. Aussi, on utilise diffŽrents styles de
caract•res pour dŽnoter diffŽrents types dÕinformation. Ces styles sont en nombre limitŽ, dÕo•
une surcharge de certains styles (qui deviennent donc ambigus). CÕest par sa connaissance de
la langue que lÕutilisateur peut restituer le type dÕinformation prŽsent dans un article du
dictionnaire.
1.1.2. Un dictionnaire dÕunitŽs complexesÊ: le LOGOS
DÕautres dictionnaires monolingues se distinguent par le fait que leur unitŽs lexicales sont
diffŽrentes de celles des dictionnaires classiques ŽvoquŽs plus haut. Parmi ces dictionnaires,
on peut citer le LOGOS de Bordas.
Les entrŽes du LOGOS correspondent ˆ des familles de lemmes dŽrivŽs du m•me lemme
dÕorigine, conformŽment ˆ des schŽmas dŽrivationnels rŽguliers. Cette unitŽ lexicale est notŽe
par son lemme dÕorigine. Par exemple, lÕunitŽ lexicale produire regroupe les lemmes
produire, producteur, productif, productivitŽ, produit.
LÕentrŽe de ce dictionnaire se fait par le lemme origine de lÕunitŽ lexicale. Ainsi, si lÕon
cherche le lemme producteur, il faut savoir quÕil appartient ˆ lÕunitŽ lexicale produire pour
trouver ses informations associŽes.
LÕinformation dÕune unitŽ lexicale du LOGOS est composŽe de deux partiesÊ:
¥ La liste des sens du lemme vedette,
¥ La liste des dŽrivations de lÕunitŽ lexicale.
Pour chaque sens et pour chaque dŽrivation du lemme vedette, on a les m•mes informations
que dans un dictionnaire classique. De plus, ces informations apparaissent sous une forme
analogue.
construire v. t. (latin construere, m•me sens).
¶ ƒdifier ou faire ŽdifierÊ: construire une maison, un pont, une digueÉ Ñ (absolument) On
construit beaucoup actuellement dans les banlieues des grandes villes; jÕai achetŽ un terrain, car
jÕai lÕintention de faire construire. Ñ (par extension) RŽaliser ou faire rŽaliser (une chose qui
suppose un plan prŽalable et un travail considŽrable et complexe)Ê: les chantiers navals
construisent les navires; construire un alternateur, des camionsÉ
· (figurŽ) Composer, former selon un plan ou un syst•me plus ou moins rigoureuxÊ: construire
lÕintrigue dÕun roman, le plan dÕun exposŽ; cette dissertation nÕest pas construiteÊ: nÕa pas de plan
logique et net; construire une thŽorie philosophique. Ñ (spŽcialement, grammaire) Disposer les
mots ou les propositions ˆ lÕintŽrieur dÕune phrase, selon un ordre dŽterminŽÊ: construire une
phrase, une pŽriode oratoire. Ñ Construire une phrase latine, grecqueÉÊ: disposer les mots quÕelle
contient de mani•re ˆ les ordonner selon lÕordre analytique (sujet, verbe, complŽmentsÉ), avant de
la traduire.
cf. b‰tir, disposer, dresser, Ždifier, Žlever, Žtablir, fabriquer, rŽaliser; agencer, arranger, articulier,
assembler, combiner, composer. Ñ ANT. abattre, dŽmolir, dŽtruire.
u se construire v. pron. 1¡ (sens passif) ætre en cours de constructionÊ: un pont se construit
actuellement ˆ la sortie du village. Ñ ætre construitÊ: un tel immeuble ne peut se construire en
moins de six mois. Ñ (grammaire) Se construire avecÉ, sÕemployer avecÉÊ: le verbe apprendre
peut se construire avec ˆ suivi de lÕinfinitif (jÕapprends ˆ lire). Ñ 2¡ (sens rŽflŽchi indirect) É
u constructeur, trice n. m. ou adj. 1¡ n. m. Celui qui construitÊ: un constructeur de bateaux,
dÕavions; un constructeur-promoteur (voir promoteur). Ñ (figurŽ) Alexandre le Grand fut le
constructeur dÕun immense empire. Ñ 2¡ adj. (nŽologisme) Se dit des idŽes dont la rŽalisation
permettrait un progr•s quelconqueÊ: une proposition constructrice. ¥ N. B.Ê: mieuxÊ: constructif.
u constructif, ive adj. Qui est naturellement fait pour construireÊ: une intelligence constructive. Ñ
Qui permet de rŽaliser un progr•sÊ: un programme constructif.
u construction n. f. 1¡ action dÕŽdifier, de construireÊ: une maison en construction; construction
dÕun navire; chantier de construction navale; É Ñ 2¡ Mani•re dont une chose est construiteÊ: la
construction prŽfabriquŽe permet de rŽduire le prix de revient des immeubles;É Ñ 3¡ ƒdificeÊ: raser
une ancienne construction. Ñ 4¡ (figurŽ) Action de composer, de rŽaliser selon un plan; la
mani•re dont un ouvrage est composŽ, organisŽÊ: la construction de lÕintrigue dÕune comŽdie;É Ñ
5¡ (spŽcialement, grammaire) Ordre dans lequel les mots se prŽsentent dans une phraseÊ: la
construction allemande diff•re de la construction fran•aise. Ñ É
Figure 1.2Ê: LÕunitŽ lexicale complexe ÒconstruireÓ. Cette unitŽ regroupe les lemmes construire, constructeur,
constructif et construction
1.2.
Thesaurii
Les thesaurii sont des dictionnaires de concepts. LÕacc•s ˆ ce type de dictionnaire ne se fait
pas par une forme graphique. Les concepts sont classŽs selon leur sens dans une hiŽrarchie
de concepts utilisŽe pour la recherche. Nous allons Žtudier deux de ces thesauri.
1.2.1. Le RodgetÕs Thesaurus of English Words and Phrases
Le Rodget thesaurus comporte 1000 unitŽs. Ces unitŽs sont classŽes selon 39 catŽgories
rŽparties dans 7 classes. LÕentrŽe de ce thesaurus est un nombre (de 1 ˆ 1000). Pour accŽder ˆ
ce dictionnaire, il faut savoir ˆ quelle classe et ˆ quelle catŽgorie appartient lÕarticle recherchŽ.
On peut ainsi chercher lÕarticle en question gr‰ce ˆ une table organisŽe hiŽrarchiquement.
Notons que, gr‰ce ˆ un index, on peut aussi accŽder ˆ un article par un mot qui le dŽsigne.
Un article de ce lexique est reprŽsentŽ par un entier et par un mot vedette. LÕarticle est ensuite
dŽcomposŽ en catŽgories linguistiques (nom, verbe, adjectifÉ). Pour chaque catŽgorie
linguistique, on a un ensemble de mots (classŽs par signification) qui sont liŽs ˆ ce concept.
Certains de ces mots apparaissent avec une rŽfŽrence ˆ un autre concept. Enfin, on a un
ensemble de liens vers des concepts sŽmantiquement liŽs au concept courant.
Si on lit le texte dÕun article, on trouve des mots sŽmantiquement liŽs. Le sens des mots
trouvŽs Žvolue peu ˆ peu vers des contextes diffŽrents. Pour rendre cette transition plus
distincte, certains mots sont parfois ajoutŽs comme pointeurs du contexte plut™t que comme
ŽlŽments de vocabulaire.
480 Judgment: conclusion
N. judgment, judging (see estimate); good judgment, discretion 463 n. discrimination; bad
judgment, indiscretion 464 n. indiscrimination; power of judgment, deiscretionary judgment,
arbitrement 733 n. authority; arbitration, arbitrage, umpirage; judgment of facts, verdict, finding;
penal judgment, sentence 963 n. punishment; spoken judgment, pronouncement; act of
judgment, decision, adjudication, award; order, ruling; order of the court 737 n. decree;É
estimate, estimation, view 485 n. opinion; assessment, valuation, evaluation, calculation 465 n.
measurement; consideration, ponderation; comparing, contrasting 462 n. comparison;
transvaluation 147 n. conversion; appreciation, appraisal, appraisement; criticism, constructive c.
703 n. a id; destructive criticism 702 n. hindrance; critique, crit, review, notice, press n.,
comment, comments, observations, remarks 591 n. dissertation;É
estimator, judge, adjudicator; arbitrator, umpire, referee; surveyor, valuer 465 n. appraiser;
inspector, inspecting officer, referendary, reporter, examiner 459 n. enquirer; counsellor 691 n.
adviser; censor, critic, reviewer, commendator 591 n. dissertator; É
Adj. judicial, judicious, judgmatic 463 adj. discriminating; unbiased, dispassionate 913 adj. just;
juridical, juristic,É
Vb. judge, sit in judgment, hold the scales; arbitrate, referree; hear, try, hear the case, try the cause
955 vb. hold court; uphold an objection, disallow an o.;É
estimate, form an e., make an e., measure, calculate, make 465 vb. gauge; value, evaluate,
appraise;É
Adv. sub judice, under trial, under sentence.
See: 147, 438, 449, 462É
Figure 1.3Ê: Un article du RodgetÕs thesaurus
Les mots en italiques en dŽbut de paragraphe reprŽsentent les sous-concepts. La virgule est
utilisŽe pour sŽparer les mots de m•me sens. Le point-virgule sŽpare des sens lŽg•rement
diffŽrents.
Ce thesaurus se prŽsente donc comme un rŽseau de mots, liŽs sŽmantiquement, et auxquels
on acc•de gr‰ce ˆ une classification hiŽrarchique de concepts.
1.2.2. Le vocabulaire de traitement de lÕinformation (IFIP & ICC)
Le vocabulaire de traitement de lÕinformation de lÕIFIP (International Federation for
Information Processing) et lÕICC (International Computation Center) est un dictionnaire
terminologique qui se prŽsente comme un thesaurus. Les articles de ce dictionnaire sont
rangŽs selon 20 catŽgories, classŽes dans 6 sections principales.
Chacune de ces catŽgories est dŽcomposŽe de mani•re hiŽrarchique en termesÊ:
Operation
Operand Result
Dyadic
Monadic operation
operation
Arithmetical Boolean
operation operation
Overflow Underflow
Binary
arith op.
Compare (to)
Logic
operation
Dual
operation
Shift
Arithmetical
shift
Logical
shift
Complementary
operation
Borrow
Negation
Dyadic
B. op.
Carry
Carry (to)
Figure 1.4Ê: Structure hiŽrarchique de la section G (Arithmetical and logic operations) du vocabulaire de
traitement de lÕinformation.
Chaque terme est associŽ ˆ un symbole composŽ dÕune lettre (la catŽgorie) et dÕun chiffre
(numŽro du terme).
Les termes sont ensuite dŽcrits, soit par une dŽfinition compl•te, soit en apparaissant ˆ
lÕintŽrieur de la dŽfinition dÕun autre terme. Ainsi, les termes result (G2) et operands (G3)
apparaissent dans la dŽfinition de operation (G1)Ê:
G1
G2
G3
OPERATION
A general term for any well-defined action, especially the derivation
of a unit of data (the RESULT) from one or more given units of data
(the OPERANDS), according to defined rules which specify the
result for any permissible combination of values of the operands.
Note: The term operands is sometimes used collectively for both
operands and results since the results will often be operands in
subsequent operations.
Figure 1.5Ê: Un exemple dÕarticle du vocabulaire de traitement de lÕinformation
Notons quÕun index permet de retrouver un article du dictionnaire ˆ partir dÕun terme.
Un article de ce dictionnaire contient une dŽfinition. On peut aussi trouver des notes ou des
exemples illustrant le terme dŽcrit. La catŽgorie linguistique des termes nÕest pas indiquŽe.
Les dŽfinitions sont donnŽes de mani•re prŽcise plut™t que concise. Les termes utilisŽs dans
les dŽfinitions et dŽfinis par ailleurs dans le dictionnaire sont indiquŽs en italiques. Des
alternatives au terme sont notŽes en soulignŽ.
1.3.
Dictionnaires bilingues
Les entrŽes des dictionnaires bilingues sont quasiment les m•mes que celles des dictionnaires
monolingues classiques. La diffŽrence provient des entrŽes composŽes (pomme de terreÉ)
qui ne sont plus considŽrŽes comme des entrŽes mais comme des parties dÕun article
(pommeÉ). Ces entrŽes (les lemmes) donnent acc•s ˆ des traductions des diffŽrents sens du
lemme dans la langue cible.
Ces dictionnaires sont bien souvent construits en collaboration entre deux Žditeurs de
dictionnaires monolingues. Ainsi, la dŽcomposition en sens du dictionnaire bilingue est
identique ˆ la dŽcomposition en sens du dictionnaire monolingue source. Par contre, la forme
est assez diffŽrente, puisquÕelle est nŽgociŽe entre les deux Žditeurs. Ainsi, le petit Robert
utilise des chiffres pour numŽroter ses sens, alors que le Robert & Collins utilise des lettres.
composer 1 vt (a) (confectionner) plat, mŽdicament to make (up); Žquipe de football etc. to select;
assemblŽe, Žquipe scientifique to form, set up. lÕŽtalagiste compose une belle vitrine the
window dresser is arranging ou laying out ou setting up a fine display.
(b) (Žlaborer) po•me, lettre, roman to write, compose; symphonie to compose; tableau to paint;
numŽro de tŽlŽphone to dial; projet, programme to work out, draw up; couleurs, ŽlŽments dÕun
tableau to arrange harmoniously; bouquet to arrange, make up.
(c) (constituer) ensemble, produit, groupe to make up; assemblŽe to form, make up. pi•ces qui
composent une machine parts which (go to) make up a machine; ces objets composent un
ensemble harmonieux these objects form ou make a harmonious group.
(d) (Typ) to set.
(e) (frm: Žtudier artificiellement) ~ son visage to assume an affected expression; ~ ses gestes to
use affected gestures; attitudes/allures composŽes studied behaviours/manners; il sÕŽtait
composŽ un personnage de dandy he had established his image as that of a dandy; se ~ un
visage de circonstance to assume a suitable expression.
2 vi (a) (Scol) ~ en anglais to sit (surtout Brit) ou take an English test; les Žl•ves sont en train de
~ the pupils are (in the middle of) doing a test ou an exam.
(b) (traiter) to compromise. ~ avec adversaire etc. to come to terms with, compromise with.
3 se composer vpr (consister en) se ~ de ou •tre composŽ de to be composed of, be made up
of, consist of, comprise; la vitrine se compose ou est composŽe de robes the window display is
made up of ou composed of dresses.
Figure 1.6Ê: Un exemple d'article du Robert & Collins
Les sens du Robert monolingue se retrouvent assez facilement dans cet article de dictionnaire.
On observe que ces sens sont raffinŽs ˆ un niveau supplŽmentaire par diffŽrents contextes.
Ces contextes servent au choix de la traduction anglaise dŽsirŽe. On observe aussi de
nombreux exemples qui, eux aussi, servent de contexte.
Ces dictionnaires ne peuvent •tre utilisŽs que dans un sens. Ils sont Òmono-directionnelsÓ.
1.4.
Dictionnaires multilingues
Des dictionnaires multilingues ont aussi ŽtŽ construits. LorsquÕon aborde le multilinguisme, on
peut envisager deux types de dictionnaires papierÊ:
¥ les dictionnaires Ò1 vers nÓ,
¥ les dictionnaires Òn vers nÓ.
Les dictionnaires Ò1 vers nÓ sont des dictionnaires bilingues ÒamŽliorŽsÓ. Ils ont le m•me type
dÕentrŽes, et les informations classiques de plusieurs dictionnaires bilingues sont regroupŽes
dans un m•me article.
Les dictionnaires Òn vers nÓ sont plus intŽressants puisquÕils ne privilŽgient aucune langue
source. Chaque langue peut •tre utilisŽe pour accŽder aux Žquivalents dans les autres
langues. Les contraintes linguistiques font que ce type de dictionnaire est limitŽ ˆ des
domaines terminologiques.
Le dictionnaire des sciences de lÕinformation (Moscou 1975) est un dictionnaire
terminologique de 2235 termes en russe, bulgare, hongrois, espagnol, macŽdonien, allemand,
polonais, roumain, serbo-croate, slovaque, slov•ne, tch•que, anglais et fran•ais. Ce
dictionnaire comprend deux parties.
La premi•re contient la liste des termes et de leurs synonymes en ordre alphabŽtique et de
leur dŽfinition en langue russe. Chacun des termes est accompagnŽ des termes Žquivalents
correspondants dans les autres langues. Chaque terme du dictionnaire terminologique
comporte un numŽro dÕordreÊ; ce numŽro accompagne le terme et permet de retrouver la
notion correspondante. Apr•s chaque terme, un chiffre dŽsigne la rubrique ˆ laquelle
appartient ce terme, conformŽment ˆ une subdivision hiŽrarchique en rubriques thŽmatiques.
1629
ðåäàêöèîííàß êîëëåãèß Ê(08.3)
‘îâåùàòåëüíûé îðãàí,
âêëþ÷àþùèé îôèöèàëüíî
óòâåðæäåííûé ñîñòàâ ñïåöèàëèñòîâ,
îñóùåñòâëßþùèõ îáùåå íàó÷íîå è
îðãàíèçàöèîííîå ðóêîâîäñòâî ïî
ïîäãîòîâêå êàêîãî-ëèáî èçäàíèß è
âûïîëíßþùèõ îïðåäåëåííûå
ðåäàêöèîííûå ôóíêöèè.
(á) ðåäàêöèîííà êîëåãèß
(â) szerkesztÎ bizotts‡g
(è) consejo de redacci—n
(ì) ðåäàêöèñè êîëåãèóì
(í) ÊRedaktioskollegium
(ï) kolegium redakcyjne
(ð) comitet de redact,ie
(ñõ) redakcijski kolegijum
(ñ) redak‹n‡ rada
(ñë) uredniäki odbor
(÷) redak‹n’ rada
(à) editorial board, body
of editors
(ô ) comitŽ m de
rŽdaction
Figure 1.7Ê: Une entrŽe du dictionnaire terminologique des sciences de lÕinformation
La seconde partie du dictionnaire terminologique comporte les listes des termes en ordre
alphabŽtique pour les autres langues, en tenant compte des diverses variantes possibles
dÕinversion des mots. Chaque terme Žquivalent est suivi du numŽro dÕordre du terme
correspondant en langue russe.
On peut accŽder ˆ ce dictionnaire par un lemme de nÕimporte laquelle des 14 langues
considŽrŽes. On peut ainsi utiliser ce dictionnaire dans nÕimporte quel sens. Par contre, on nÕa
acc•s quÕa une dŽfinition russe des termes.
2.
Dictionnaires sur support électronique
Le premier support qui a rendu les dictionnaires accessibles ˆ la machine a ŽtŽ la bande de
photocomposition. Ces bandes ne prŽsentent pas un marquage descriptif des entrŽes en
champs logiques (orthographe, catŽgorie, prononciation, dŽfinitionÉ), mais un marquage
typographique indiquant les changements de fontes, des caract•res spŽciaux ou des attributs
de mise en page.
De nombreuses Žquipes se sont donc intŽressŽes au probl•me de la transformation de ce
format typographique en un format logique utilisable par la machine. Cet effort a abouti ˆ
lÕapparition de dictionnaires (notamment le Longman Dictionary of Contemporary English,
LDOCE) sur support informatique, sous un format logique.
Cet effort nÕa pas pu se faire sans le choix dÕun codage logique pour les informations lexicales.
Nous prŽsenterons donc un codage pour les dictionnaires, extrait des travaux de la Text
Encoding Initiative (TEI).
Parall•lement, les Žditeurs de dictionnaires se sont h‰tŽs de prendre une place sur le marchŽ
des outils dÕaide ˆ la rŽdaction ou ˆ la traduction, en proposant une version informatisŽe de
leurs dictionnaires. Pour illustrer ce type dÕoutils, nous Žtudierons lÕutilitaire Collins On-line
sur Macintosh.
Dans le m•me temps, le travail des traducteurs sÕeffectuant de plus en plus sur ordinateur, on
a dŽveloppŽ des utilitaires permettant de crŽer, de gŽrer et de consulter des bases lexicales
terminologiques. Nous nous intŽresserons ˆ lÕun de ces outilsÊ: MTX Termex.
Enfin, lÕutilisation du support informatique a permis dÕŽtudier et de dŽvelopper des
dictionnaires Žlectroniques ayant des fonctionnalitŽs diffŽrentes de celles dÕun dictionnaire
papier. Cette Žtude a menŽ ˆ la construction dÕenvironnements de dŽcouverte lexicale dont
nous Žtudierons un exempleÊ: le Dicologique.
2.1.
Un format de codage : SGML/TEI
La Text Encoding Initiative (TEI) Žtudie un standard de codage et dÕŽchange de documents
textuels. Ce standard se prŽsente sous forme de recommandations et de structures de
documents (pour la prose, les vers, les dictionnaire imprimŽs, les drames, les dictionnaires
terminologiquesÉ). Cette initiative est parrainŽe par lÕAssociation for Computers and the
Humanities (ACH), lÕAssociation for Computational Linguistics (ACL) et lÕAssociation for
Literary and Linguistic Computing (ALLC).
Le format TEI est basŽ sur SGML (Standard Generalized Markup Language). SGML est un
standard international (ISO 8879) pour la reprŽsentation de textes sous une forme
Žlectronique indŽpendamment de la machine et du syst•me1. SGML utilise des Žtiquettes pour
structurer les diffŽrents ŽlŽments dÕun texte. Ces Žtiquettes sont notŽes entre chevrons (exÊ:
<paragraph>) et agissent comme des parenth•ses, lÕŽtiquette fermante Žtant notŽe avec un Ò /Ó
(exÊ: </paragraph>). Dans certaines conditions, lÕŽtiquette fermante peut •tre omise.
Parmi les types de documents qui nous intŽressent, la TEI a publiŽ des standards pour le
codage de dictionnaires imprimŽs et de bases terminologiques ([Sperberg-McQueen &
Burnard 1994], chapitres 12 et 13).
La structure globale dÕun dictionnaire est analogue ˆ celle de textes usuels. On retiendra les
ŽlŽments suivantsÊ:
<text>Ê:
contient du texte de nÕimporte quelle sorte (structurŽ ou non),
<front>Ê:
contient tout ce qui se trouve avant le dŽbut du dictionnaire lui m•me
(Ent•tes, page de titre, prŽface, dŽdicaceÉ),
<back>Ê:
contient tout ce qui se trouve apr•s la fin du dictionnaire lui m•me
(AnnexesÉ),
<body>Ê:
contient lÕensemble du texte du dictionnaire, sauf les parties front et back,
<div>Ê:
contient une subdivision des parties front, body ou back du dictionnaire,
<div0>Ê:
contient une subdivision (du plus haut niveau) du dictionnaire,
<div1>Ê:
contient une subdivision (du niveau infŽrieur) du dictionnaire,
<entry>Ê:
contient une entrŽe structurŽe du dictionnaire,
<entryFree>Ê: contient une entrŽe non conforme ˆ la structure dÕune entrŽe du
dictionnaire,
<superentry>Ê: groupe les entrŽes dÕun ensemble dÕhomographes.
Voici un exemple de structure de dictionnaire conforme aux recommandations de la TEIÊ:
<body>
<div0 type=‘dictionary’>
<!-- English-French -->
<entry>...</entry>
<entry>...</entry>
<!-- ... -->
</div0>
<div0>
<!-- French-English -->
<entry>...</entry>
<entry>...</entry>
<!-- ... -->
</div0>
</body>
Les ŽlŽments entry et entryFree partagent les attributs type (entrŽe standard, homographe,
rŽfŽrence croisŽe, affixe, abrŽviationÉ) et clŽ (une sŽquence de caract•res reflŽtant la
position alphabŽtique de lÕentrŽe dans le dictionnaire).
1 Une introduction à SGML est donnée en annexe A.
Le format de codage des dictionnaires permet aussi de coder de mani•re structurŽe les entrŽes
dÕun dictionnaire. La dŽcomposition de lÕentrŽe est effectuŽe gr‰ce aux ŽlŽments suivantsÊ:
<hom>Ê:
regroupe les informations propres ˆ un homographe de lÕentrŽe,
<sense>Ê:
regroupe les informations propres ˆ un sens,
<form>Ê:
regroupe les informations sur la forme (orthographique et phonŽtique),
<gramGrp>Ê:
regroupe lÕinformation morpho-syntaxique dÕune unitŽ du dictionnaire,
<def>Ê:
contient une dŽfinition,
<trans>Ê:
contient du texte traduit et les informations associŽes,
<eg>Ê:
contient un texte exemple contenant au moins une occurrence de lÕentrŽe,
<def>Ê:
contient une dŽfinition,
<usg>Ê:
contient les informations sur lÕusage,
<xr>Ê:
contient des rŽfŽrences croisŽes,
<etym>Ê:
contient lÕinformation Žtymologique,
<re>Ê:
contient une entrŽe correspondant ˆ une unitŽ lexicale liŽe ˆ lÕentrŽe
(expression, forme dŽrivŽeÉ),
<note>Ê:
contient des annotations.
Le format de la TEI rend possible une dŽcomposition plus fine de la structure dÕune entrŽe de
dictionnaire imprimŽ. Nous ne dŽtaillerons pas cette dŽcomposition ici. Le lecteur pourra se
reporter ˆ [Sperberg-McQueen & al. 1994].
2.2.
Dictionnaires en ligne: le Collins On-Line
La plupart des Žditeurs proposent aujourdÕhui des versions informatiques de leurs
dictionnaires. Ces versions reprennent les donnŽes et les fonctionnalitŽs des dictionnaires
papier.
Ces outils sont utilisŽs en complŽment dÕun traitement de texte comme aide ˆ la rŽdaction ou
ˆ la traduction de textes. Leurs fonctionnalitŽs sont assez rŽduites, puisquÕelles ne permettent
en gŽnŽral pas dÕautre acc•s que lÕacc•s alphabŽtique classique du dictionnaire papier.
Le Collins On-line, avec ses dictionnaires fran•ais-anglais et anglais-fran•ais, en est un
exemple reprŽsentatif. Cet outil, avec ses dictionnaires, est le reflet du Robert et Collins,
prŽsentŽ plus haut.
Figure 1.8Ê: LÕentrŽe ÒcomposerÓ du Collins On-line, version Macintosh
La dŽcomposition en sens et les Žquivalents sont les m•mes. Par contre, la forme est assez
diffŽrente. Les contextes sont notŽs de mani•re plus succincte et les informations sont rendues
sous forme de liste. En effet, les contraintes sont diffŽrentes. La prŽsentation du dictionnaire
papier est motivŽe par des contraintes de place, alors que la prŽsentation du dictionnaire
Žlectronique est motivŽe par des contraintes de lisibilitŽ ˆ lÕŽcran.
Des contraintes dÕinterface ont obligŽ les concepteurs ˆ changer lŽg•rement lÕentrŽe du
dictionnaire. En effet, le dictionnaire papier utilise le lemme et sa catŽgorie pour crŽer une
entrŽe, alors que le dictionnaire Žlectronique nÕutilise que le lemme, les diffŽrentes catŽgories
Žtant regroupŽes dans le m•me article.
Il est possible dÕaccŽder rapidement ˆ lÕun des mots de la langue source apparaissant dans
lÕarticle, en le sŽlectionnant et en appuyant sur une combinaison de touches. Par contre, il
nÕest pas possible de faire la recherche rapide dÕun mot de la langue cible dans le dictionnaire
inverse.
2.3.
Gestionnaires de dictionnaires terminologiques : MTX Termex
Le travail des traducteurs professionnels sÕeffectue maintenant en majoritŽ sur support
informatique. Il est donc crucial quÕils disposent dÕoutils leur permettant dÕavoir acc•s aux
donnŽes lexicales sur leur machine, de mani•re intŽgrŽe ˆ leur environnement de travail.
Ces traducteurs Žtant bien souvent spŽcialisŽs dans un domaine ou employŽs par des
entreprises spŽcialisŽes, ils poss•dent gŽnŽralement leur propre terminologie. Des outils de
gestion de dictionnaires terminologiques sont nŽcessaires, en plus des outils de consultation
de dictionnaires classiques.
MTX Termex est un outil de ce genre. Il permet de consulter des dictionnaires du commerce,
et aussi de crŽer son propre dictionnaire terminologique ou de modifier certaines entrŽes des
dictionnaires du commerce.
Avec cet outil, une entrŽe est simplement une cha”ne de caract•res. Cette cha”ne peut
comporter des blancs et des symboles de ponctuation. LÕinformation associŽe ˆ cette entrŽe
est un texte simple. On peut utiliser ce texte comme une structure Òattributs-valeursÓ en notant
les attributs entre accolades.
Ainsi, on est libre de crŽer un dictionnaire ayant une structure quelconque.
MTX (tm)
<F1>: Help
Choose a command (or <esc>)===>
[Bulgaria]
{1}
{cap}
{pop}
{lan}
{cur}
{gov}
<F8>: Menu
Europe
Sofia
8 944 000
Bulgarian
lev
Republic
<Esc> to exit window
File Name
Figure 1.9Ê: Un exemple dÕentrŽe dÕun dictionnaire MTX Termex
Avec MTX 2, un traducteur peut tr•s facilement crŽer un petit dictionnaire terminologique
multilingue. Il paut aussi gŽrer les variantes orthographiques dÕune entrŽe en les liant ˆ
lÕentrŽe vedette.
La consultation et la navigation sont elles aussi assez simples (possibilitŽ de crŽer des
rŽfŽrences croisŽes, de revenir aux fiches prŽcŽdentesÉ). De plus, cet outil est intŽgrŽ aux
traitements de texte usuels (appel et consultation automatique de la sŽlection).
2.4.
Un environnement original : le Dicologique
Le Dicologique est un produit commercialisŽ par la sociŽtŽ MEMODATA (Caen) et
fonctionnant sous DOS et Windows. Cet outil utilise vŽritablement les avantages de
lÕinformatique pour renouveler les moyens dÕacc•s au dictionnaire. En utilisant une approche
ensembliste du lexique([Dutoit 1992]), il permet un acc•s par th•mes, analogies, idŽesÉ
Le Dicologique regroupe 120Ê000 entrŽes, 25Ê000 concepts et 350Ê000 relations. Les relations se
font principalement au travers deÊ:
th•mesÊ:
listesÊ:
classesÊ:
qui regroupent des ŽlŽments selon une approche analogique (ainsi, le
th•me PæCHE regroupe une liste de p•cheurs, les techniques de la p•che,
les bateaux de p•cheÉ),
qui regroupent des ŽlŽments proches par synonymie (ainsi la liste BATEAU
DE MARCHANDISE regroupe pŽniche, cargo, mŽthanier, pŽtrolierÉ),
qui regroupent des ŽlŽments de m•me classe dans une hiŽrarchie (ainsi, la
classe NAVIRE ET BATEAU regroupe la classe des bateaux de p•che, la
liste des bateaux de commerceÉ).
Les mots terminaux se trouvent au bout dÕun graphe regroupant ces diffŽrents ŽlŽmentsÊ:
p•cheur (L)
technique de p•che (T)
p•che (T)
bateau de p•che (T)
bateau de p•che (L)
bateau de p•che de loisir (L)
bateau de loisir (T)
bateau de loisir (L)
bateau (T)
bateau (LC)
bateau de guerre (L)
bateau de guerre (T)
pŽniche
cargo
bateau de marchandise (L)
bateau de marchandise (T)
mŽthanier
pŽtrolier
pŽtrole (termes liŽs)
commerce (T)
grand (caractŽristique)
Figure 1.10Ê: Exemple de la structure des ŽlŽments du Dicologique
Il est possible dÕaccŽder directement ˆ un article en donnant son lemme. On obtient ainsi sa
ou ses Òquasi-dŽfinitionsÓ. Une quasi-dŽfinition est lÕensemble de classes, th•mes, listesÉ
menant ˆ ce mot. Ainsi, si lÕon cherche le lemme Òall•geÓ, on obtient lÕinformation suivanteÊ:
1 :
>
>
>
2 :
>
>
allège,
appui, soutien, support (classe)
mur (description)
fenêtre (termes liés)
allège
bateau (autre) (classe)
chargement d’un navire (termes liés)
n.f.
(448 Noms)
(32 Noms)
(15 Mots)
(31 Noms)
(21 Mots)
Il est possible, ˆ partir de cette prŽsentation de naviguer dans le Dicologique en sŽlectionnant
lÕun des ŽlŽments de la quasi-dŽfinition.
Le principal acc•s ˆ ce dictionnaire reste un acc•s par idŽe. LÕutilisateur peut construire des
requ•tes sous formes dÕexpressions boolŽennes. Les opŽrateurs sont ET, OU, SAUF, il y a une
possibilitŽ de parenthŽsage, et les opŽrandes sont des ŽlŽments (classe, liste, th•me ou autre)
du Dicologique.
Ainsi, la requ•teÊ: A ET B, avec les sŽlectionsÊ:
A = navire et bateau (liste)
B = hydrocarbure (thème)
(270 Noms)
(350 Mots)
produit la listeÊ:
asphaltier
bitumier
butanier
méthanier
pétrolier
propanier
supertanker
tanker
n.m
n.m.
n.m.
n.m.
n.m.
n.m.
n.m.
n.m.
Le Dicologique ajoute ˆ cet acc•s original dÕautres petits outils tels que la recherche par une
rime ou avec des caract•res inconnus (pour les mots croisŽs). Notons aussi un acc•s par
anagrammes.
3.
Systèmes lexicaux spécialisés
Apr•s lÕŽtude des dictionnaires sur papier et des dictionnaires classiques informatisŽs, nous
nous intŽressons aux dictionnaires crŽŽs pour •tre utilisŽs par une machine. Ces dictionnaires
comportent des informations hautement structurŽes nŽcessaires ˆ certains traitements. Ils ont
ŽtŽ crŽŽs de toutes pi•ces pour des traitements linguistiques particuliers sous une forme dictŽe
par des probl•mes informatiques (temps dÕacc•s, encombrementÉ).
LÕŽtude de lÕhistoire des lexiques dans le domaine du traitement des langues nous permet de
dŽgager les tendances suivantesÊ:
¥ Les dictionnaires Žtaient considŽrŽs uniquement comme la composante lexicale dÕune
application particuli•re, lÕintŽr•t des chercheurs se portant plut™t sur les structures de
donnŽes et les algorithmes. Peu de travaux ont ŽtŽ dŽveloppŽs pour simplifier la
crŽation et la maintenance de ces composantes lexicales.
¥ Au fur et ˆ mesure de la montŽe en puissance des syst•mes de traitement des langues, la
composante lexicale a prŽsentŽ des probl•mes de plus en plus importants. Le cožt de
dŽveloppement de cette composante peut reprŽsenter plus de la moitiŽ du cožt dÕun
syst•me. De plus, lÕimportance des dictionnaires rend difficile toute modification de leur
structure (obligation de modifier toutes les entrŽes existantes).
¥ On essaye donc de dissocier la structure des informations lexicales de la structure
utilisŽe par les algorithmes de traitement. On crŽe ainsi des dictionnaires indŽpendants
(et des syst•mes pour les gŽrer) qui servent de sources pour gŽnŽrer des dictionnaires
dÕapplications. Pourtant, ces dictionnaires restent spŽcialisŽs pour un type de traitement
donnŽ. Nous appellerons donc ces dictionnaires (et leur syst•mes de gestion) des
syst•mes spŽcialisŽs.
Les syst•mes spŽcialisŽs sont des dictionnaires Žlectroniques dŽveloppŽs pour servir de
ressources de connaissances lexicales pour certaines applications particuli•res. Certains ne
sont utilisŽes que par une application. DÕautres sont utilisŽs par plusieurs applications du
m•me type.
Dans cette partie, nous Žtudierons dÕabord des bases lexicales monolingues dont lÕintŽr•t
rŽside dans le type dÕinformation et dans leur structure. Nous nous intŽresserons ensuite ˆ des
syst•mes qui illustrent diffŽrentes Žtapes vers la crŽation dÕune base lexicale multi-usages.
3.1.
BDLex
BDLex est une base de donnŽes lexicales du fran•ais dŽveloppŽe par lÕIRIT (Institut de
Recherche en Informatique de Toulouse). Cette base lexicale est monolingue. Elle est utilisŽe
par de nombreux partenaires du PRC ÒCommunication Homme MachineÓ.
BDLex contient environ 25Ê000 lemmes (correspondant ˆ environ 300Ê000 formes flŽchies).
Les informations contenues dans BDLex sont morphologiques et phonologiques. LÕunitŽ
lexicale de cette base est le lemme.
lemme
nabab
nabi
nabot
nacelle
HG
11
11
11
11
PHON
/nA/bAb
/nA/bi
/nA/bo
/nA/s&l
FPH
t"
e
HP
11
11
11
11
CL_PHON
/NA/DAD
/NA/DI
/NA/DE
/NA/SEL
NS
2
2
2
2
F
CS
N
N
N
N
GN
Mn
Mn
gn
Fn
CF
01
01
01
81
Figure 1.11Ê: Un exemple dÕentrŽes de BDLex ; (HGÊ: numŽro dÕhomographe, PHONÊ: phonŽtique, FPHÊ:
terminaison phonŽtique, HPÊ: numŽro dÕhomophone, CL_PHONÊ: classe phonŽtique, NSÊ: nombre de syllabes,
FÊ:ÊfrŽquence, CSÊ: classe syntaxique, GNÊ: variation en genre et nombre et CFÊ: classe flexionnelle)
Ce dictionnaire est typiquement ˆ usage informatique. Les informations telles que le numŽro
dÕhomographe ou dÕhomophone sont particuli•rement utiles pour gŽrer les probl•mes
dÕambigu•tŽ lexicale, qui sont cruciaux lors du traitement automatique dÕune langue.
De plus, les informations de ce dictionnaire sont codŽes et difficilement utilisables par un
humain. On notera nŽanmoins que ce codage est relativement simple (structure en colonne,
codes mnŽmotechniques), ce qui explique son succ•s aupr•s de nombreux laboratoires.
3.2.
Dictionnaires du LADL
Le LADL (ˆ lÕUniversitŽ Paris VII) a dŽveloppŽ le dictionnaire DELAF, un dictionnaire
contenant 600Ê000 formes flŽchies du fran•ais. Ce laboratoire a aussi dŽveloppŽ le dictionnaire
DELACF, contenant 150Ê000 formes flŽchies de mots composŽs fran•ais.
Outre leur taille (qui les place parmi les plus importants dictionnaires fran•ais), le DELAF et le
DELACF prŽsentent un aspect remarquableÊ: leurs entrŽes sont reprŽsentŽes par des automates
dÕŽtats finis. Cette structure dÕautomate est utilisŽe ˆ diffŽrents niveaux. AppliquŽe au codage
des informations morphologiques et syntaxiques dÕune forme flŽchie, elle permet de
reprŽsenter les diffŽrentes ambigu•tŽs des formes flŽchies.
m
nom
verbe
s
f
P
1
S
2
Y
3
passe
s
Figure 1.12Ê: Automate reprŽsentant la forme flŽchie ÒpasseÓ. Les abrŽviations utilisŽes sontÊ: m pour masculin, f
pour fŽminin, s pour singulier, 1,2 et 3 pour dŽnoter la personne, P pour prŽsent, S pour subjonctif, Y pour
impŽratif.
Enfin, elle est utilisŽe pour reprŽsenter les diffŽrentes variantes dÕun mot composŽ.
un
roman
policier
de
la
sŽrie
noire
policier
Figure 1.13Ê: Automate reprŽsentant les diffŽrentes variantes du mot composŽ Òun roman policier de la sŽrie
noireÓ qui peut se trouver sous les formes Òun sŽrie noireÓ, Òun policier de sŽrie noireÓÉ
3.3.
Ariane
Le laboratoire GETA (Groupe dÕƒtude pour la Traduction Automatique) a dŽveloppŽ un
gŽnŽrateur dÕapplications de traduction automatique nommŽ ARIANE. En dŽveloppant des
applications de traduction, les chercheurs du GETA se sont vite rendu compte que le
probl•me de la gestion des dictionnaires Žlectroniques Žtait un probl•me crucial. Aussi, des
outils ont ŽtŽ dŽveloppŽs pour faciliter cette gestion.
Chaque application de traduction automatique dŽveloppŽe sous ARIANE a son propre
dictionnaire, ŽclatŽ en divers composants (pour lÕanalyse morphologique ou syntaxique, le
transfert lexical ou structural, la gŽnŽration syntaxique ou morphologiqueÉ). Chacun de ces
composants est exprimŽ dans un format spŽcialisŽ du langage en charge de la phase de
traitement en question.
LÕŽclatement du dictionnaire introduit des probl•mes de cohŽrence des informations lexicales
rŽparties dans les divers composants. Aussi, un outil (Visulex) a ŽtŽ dŽveloppŽ pour rŽunir et
visualiser les diffŽrentes informations lexicales dÕune application de traduction automatique.
Cet outil ne permet de manipuler quÕun couple de langues ˆ la fois.
Dans une telle base, lÕunitŽ lexicale est une famille de lemmes liŽs par certaines fonctions
lexico-sŽmantiques. Par exemple, les lemmes ÒconstructionÓ, ÒconstructifÓ, ÒconstruireÓ,
ÒreconstruireÓ appartiennent tous ˆ une m•me unitŽ lexicale notŽe Òconstruire-VÓ.
Visulex gŽn•re deux niveaux de fichiers pour le linguiste. Le premier niveau donne
lÕensemble des commentaires associŽs ˆ une unitŽ lexicale. Le second niveau donne le dŽtail
des informations linguistiques associŽes ˆ une unitŽ lexicale, sous la forme o• on les trouve
dans les dictionnaires dÕapplications. Commentaires et informations dŽtaillŽes sont donnŽs de
mani•re structurŽe. Un article de Visulex contient notamment un contexte, une morphologie,
des dŽtails sur les ŽlŽments du contexte et une liste dÕŽquivalents (avec des conditions de
choix).
-------------------------------------------------------------'GEHEN'
--------contextes-'GEHEN'
--arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4))
0:'GEHEN'
--cmt?---morphologie---cmt?-FORME COMPLETE DE PARTICIPE PASSE FLECHISSABLE
GEGANGENPARADIGME 09 INCLUS DANS 01(LEG) SAUF POUR -T QUI NE ...
PEUT FAIRE LE PARTICIPE PASSE
GEHPARADIGME 29, DESINENCES -0, -E, -EN, -EST, -ET, -ST, -T
GING--expansions---arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4))
X:'VBPSP'
--cmt?-0:'GEHEN'
--cmt?-…
--equivalents---------------'ALLER'
'ALLER'
VERBE SANS AUCUNE RECTION DONNEE, EX: 'MARCHER'
--cmt?---si: --cmt?-'''AILL'
BASE ACCEPTANT LES DESINENCES DE L'IMPARFAIT,DU...
PRESENT SUB
--si: --cmt?-'''IR'
--cmt?---si: --cmt?-'VAIS'
--si: --cmt?-'VAS'
--si: --cmt?-'VA'
--si: --cmt?-'VONT'
--si: --cmt?-'''ALLER'
TABLE+S
--sinon:
'''ALL'
COUP+ER,E,EUR,ANT
--------------------------------------------------------------
-------------------------------------------------------------'GEHEN'
--------contextes-'GEHEN'
--arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4))
0:'GEHEN'
IST:SUBV:=SEIN
--morphologie-VIDE:
FCPPA:KMS-E-VB-U-ADJ,MT-E-PPA,SUBADJ-E-RSTA
GEGANGENWSING:KMS-E-VB
GEHWFIEL:KMS-E-VB
GING--expansions---arbre: X(0,P1(1(V2)),P2(2),P3(3),P4(4))
X:'VBPSP'
VID:
0:'GEHEN'
IST:SUBV:=SEIN
…
--equivalents---------------'ALLER'
'ALLER'
VB:
R3:AX:=ETR,RFRUS:=SUPPR
--si: SUBJ3:MOD-E-SUB-ET-TF-E-PRE-ET-NUM-E-SIN-OU-MOD...
-E-SUB-ET-TF-E-PRE-ET-P-E-3
'''AILL'
VERBE:PGMV-E-VERBE
--si: FUT:TF-E-FUT-OU-MOD-E-CDL
'''IR'
AUR:PGMV-E-FUTUR
--si: SUIS:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-SIN-ET-P-E-1
'VAIS'
--si: DUEPRE:P-E-2-ET-TF-E-PRE-ET-NUM-E-SIN
'VAS'
--si: SAI:NUM-E-SIN-ET-TF-E-PRE-ET-MOD-E-IND-OU-MOD-E...
-IMP-ET-NUM-E-SIN
'VA'
--si: SONT:TF-E-PRE-ET-MOD-E-IND-ET-NUM-E-PLU-ET-P-E-3
'VONT'
--si: NVBMAS:CPRD-E-VBACT-ET-CAT-E-CATN-ET-GNR-E-MAS
'''ALLER'
MOT:FLXN-E-MOT
--sinon:
'''ALL'
V1AFE1:FLXV-E-AIMER,DRNV-E-FEME1
--------------------------------------------------------------
Figure 1.14Ê: Exemple dÕarticle gŽnŽrŽ par Visulex
Visulex rassemble des informations dispersŽes dans les nombreux dictionnaires des diffŽrents
composants dÕune application linguistique. Il est ainsi possible de consulter les informations
liŽes ˆ une unitŽ lexicale pour retrouver la source dÕŽventuelles erreurs de traduction. Par
contre, la modification des dictionnaires ne peut se faire quÕau travers dÕARIANE, composant
par composant. NŽanmoins, lÕoutil Visulex est un premier pas vers la crŽation dÕune base
lexicale spŽcialisŽe pour la Traduction Automatique.
3.4.
BDTAO
BÕVITAL utilise le syst•me ARIANE pour construire des applications de traduction
automatique industrielles. Pour cela, cette entreprise a dŽveloppŽ une base lexicale
rŽutilisable (BDTAO) ˆ partir de laquelle il est possible de gŽnŽrer des composants du
dictionnaire de lÕapplication, au format ARIANE.
Cette base lexicale est spŽcialisŽe pour la traduction automatique, mais elle est indŽpendante
dÕune application de traduction particuli•re. Une m•me base peut •tre utilisŽe pour lÕanalyse
et la gŽnŽration. De plus, les entrŽes terminologiques sont rŽversibles en transfert.
BDTAO contient des dictionnaires Òen fourcheÓ (1 langue source -> n langues cibles).
Comme dans les bases Visulex, lÕunitŽ lexicale est une famille de lemmes liŽs par certaines
fonctions lexico-sŽmantiques. Les informations linguistiques sont codŽes dans une structure
Òattribut-valeurÓ plate. Cette structure est sŽparŽe en deux sections. La premi•re contient
lÕinformation monolingue, la seconde contient diffŽrentes traductions de lÕentrŽe dans
diffŽrentes langues, avec Žventuellement des conditions guidant le choix.
*ADJECTIF
001 prochain
002 COU
101 S
103 ES
105 E
107 O
504 SXA
990 - prochainement = bientôt, dans un
990
proche avenir
99D 22/03/88
99A IM
$CODE
$UL PROCHAIN -A
$PH AM 1 29/09/88
$AM PROCHAIN ADJ1 Z000154
BDTAO est une vŽritable base lexicale
spŽcialisŽe. En effet, toute modification ou
crŽation dÕinformation lexicale se fera
dans ce format. On peut ensuite gŽnŽrer
des dictionnaires spŽcialisŽs pour chacun
des composants dÕune application
linguistique sous ARIANE.
Un tel outil simplifie grandement la
gestion des dictionnaires dÕapplication
puisque la consultation et la modification
se font ˆ un m•me endroit et dans un
format simple. Les noms des attributs ne
Figure 1.15Ê: Une entrŽe lexicale de BDTAO
dŽpendent pas des noms des variables
utilisŽes dans les grammaires des applications lexicales envisagŽes. Cette indŽpendance de
BDTAO vis-ˆ-vis dÕune application particuli•re permet dÕutiliser une base lexicale pour
plusieurs applications diffŽrentes.
LÕindexage de cette base lexicale est fait en utilisant des bordereaux dÕindexage o• le
lexicographe rŽpond ˆ des questions simples sur lÕentrŽe en question. De plus, BÕVITAL a
construit un outil permettant de rŽcupŽrer les informations lexicales des applications de
traduction dŽveloppŽes antŽrieurement ˆ BDTAO.
3.5.
METAL
Pour son gŽnŽrateur de syst•mes de Traduction Automatique (METAL 3.0), SIEMENS a
dŽveloppŽ des outils pour faciliter la manipulation des dictionnaires. Il y a deux types de
dictionnaires sous METAL 3.0Ê: les dictionnaires monolingues et les dictionnaires de transfert.
Les structures des entrŽes de ces dictionnaires sont des structures de traits plates. Les traits des
dictionnaires de transfert sont fixŽs pour chaque paire de langues. Les traits des dictionnaires
monolingues sont dŽfinis pour chaque langue par un fichier de description.
Une entrŽe de dictionnaire METAL est un ensemble de traits avec leurs valeurs. Les valeurs de
ces traits peuvent •tre de lÕun des types suivantsÊ:
INTEGER
STRING
SYMBOL
BOOLEAN
SET
LIST
tout nombre entier entre -228+1 et 228-1.
une sŽquence de caract•res entre guillemets, exÊ: ÒlexiqueÓ.
un symbol Lisp
soit T, soit NIL
une sŽquence dÕINTEGERs, de STRINGs et/ou de
SYMBOLs, non ordonnŽs et sans duplication.
une sŽquence ordonnŽe dÕINTEGERs, de STRINGs, de
SYMBOLs, et/ou de LISTs.
LÕutilisateur peut dŽfinir ses propres structures linguistiques via un fichier de description. Ce
fichier contient dÕune part la description des traits (avec le type de ses valeurs) et dÕautre part
la dŽfinition des catŽgories lexicales. Une catŽgorie lexicale est une structure complexe
regroupant plusieurs traits. La syntaxe de ces descriptions est une syntaxe LISP. Nous
donnons en exemple les dŽfinitions dÕun trait et dÕune catŽgorie lexicale.
La macro defeat dŽfinit un trait nommŽ a-cl qui accepte une valeur de type ensemble sur 6
symboles de base. On nÕautorise pas plus de 7 combinaisons sur lÕensemble du dictionnaire.
(defeat a-cl :set
:values (FMNP1 FMNP2 FMNP3 FMNPS1 FMNPS2 FMNPS3)
:allocate 7
:pretty-name “Anaphoric class”)
La macro defcat dŽfinit une catŽgorie lexicale nommŽe det qui contient un trait obligatoire
(ca) et 3 traits optionnels ( a-cl, abb et plc). La valeur par dŽfaut du trait plc est Žgale au
symbole NF.
(defcat det :optional (A-CL FMNP1 FMNP2 FMNPS3)
:optional ABB
:required CA
:optional PLC
:default (PLC NF)
:check-consistency t
:pretty-name “Determiner”)
Ce langage de dŽfinition est dÕun usage assez simple et il est effectivement utilisŽ par des
linguistes. Par contre, on peut regretter que la dŽfinition dÕun trait fasse intervenir des
considŽrations linguistiques (contraintes sur le type du trait) et des considŽrations
informatiques (espace allouŽ pour le stockage des informations).
Nous avons ici un premier pas vers la gŽnŽricitŽ dans les bases lexicales. Les structures
linguistiques ne sont pas figŽes, mais peuvent •tre redŽfinies par des linguistes. Par contre, la
structure logique utilisŽe dans cette base lexicale est fixeÊ: il sÕagit de structures de traits plates
utilisŽes par le syst•me METAL.
II. Efforts en cours
Les syst•mes spŽcialisŽs permettent un gestion assez aisŽe des donnŽes lexicales de
diffŽrentes applications, mais sont peu adaptables ˆ dÕautres types dÕapplication. En effet, non
seulement leur formalisme est Žtroitement liŽ aux applications pour lesquelles ils ont ŽtŽ
dŽveloppŽs, mais aussi les types dÕinformation linguistique quÕils contiennent sont limitŽs ˆ
ces applications. Par exemple, une base lexicale spŽcialisŽe ˆ la TAO ne contient ni
prononciation, ni Žthymologie, ni exemples dÕusage.
Ces syst•mes prŽsentent un avantage Žconomique ÒlocalÓ. En effet, ils permettent de rŽduire
les cožts de dŽveloppement des dictionnaires dÕun type dÕapplication particulier. Ils
reprŽsentent un ensemble de sources assez bien organisŽs pour permettre une utilisation par
des laboratoires ou groupe diffŽrents.
Ces sources ne sont hŽlas pas dans un format standardisŽ, ni facilement rŽcupŽrables. La
rŽutilisabilitŽ de ces bases est donc un probl•me rŽel. Pour y remŽdier, on peut envisager
diffŽrentes solutionsÊ:
¥ mettre au point un standard de codage des informations linguistiques,
¥ construire de nouvelles bases lexicales assez compl•tes pour •tre indŽpendante dÕune
application particuli•re et assez gŽnŽrales pour •tre indŽpendantes dÕue thŽorie
linguistique particuli•re,
¥ regrouper des ressources lexicales en un m•me lieu, sans sÕoccuper de leur forme.
Cette derni•re solution a ŽtŽ prise par le CLR (Consortium for Lexical Research) qui propose
un serveur FTP (File Transfer Protocol) pour centraliser toutes les donnŽes disponibles. Une
telle initiative ne r•gle aucun probl•me technique, mais facilite singuli•rement la recherche de
donnŽes lexicales, qui tenait, auparavant, du marathon.
De nombreux chercheurs se sont posŽ le probl•me de la construction de bases lexicales
multi-applications.
Parmi les projets qui en sont rŽsultŽ, quatre sont particuli•rement intŽressants, et nous les
examinerons en dŽtail. Il sÕagit de Le Lexicaliste, EDR, GENELEX et MULTILEX .
Ces projets diff•rent en de nombreux aspects, comme leurs motivations, leurs choix
technologiques, leurs moyens, etc., mais chacun est remarquable ˆ plusieurs titres, et
lÕensemble offre une vision assez juste des efforts actuellement en cours sur le domaine des
bases lexicales.
1.
Le Lexicaliste
Le Lexicaliste est un syst•me de gestion de bases lexicales monolingues dŽveloppŽ et
commercialisŽ par la sociŽtŽ SITE.
1.1.
Vue générale du système
Le Lexicaliste sÕappuie sur une description des entrŽes du lexique. Un article est un arbre
dŽcorŽ dont la racine correspond ˆ lÕentrŽe du dictionnaire (lemme) et les nÏuds aux
diffŽrents sens de lÕarticle. Les dŽcorations sont des structures attributs-valeurs simples portŽes
par les diffŽrents sens de lÕarticle.
Morphological information
category: verb
conjugation: V27
…
Syntactical information 2/2
Syntactical information 1/2
auxiliary: avoir
transitivity: intransitive
prop.gov.: à <infinitive>
Misc. information
hyphen: ap-pren-dre
…
Apprendre =
sense 0
Semantic information
definition: "S'instruire"
example: "Apprendre à faire du piano"
sense
… 2
sense 1
sense 1.1
sense 1.2
sense 2.1
sense 2.2
Figure 2.1Ê: Une entrŽe de dictionnaire crŽŽe par Le Lexicaliste
Le linguiste dŽfinit les attributs (et les valeurs) qui sont utilisŽs dans une base lexicale
particuli•re. Cette description est appelŽe ÒrŽfŽrentielÓ. Il peut aussi donner des propriŽtŽs
(attributs monovaluŽs, multivaluŽs, relations acycliquesÉ) sur les attributs de la base. Ces
propriŽtŽs sont contenues dans le ÒmŽta-rŽfŽrentielÓ.
Meta-rŽfŽrentiel
DŽcrit les propriŽtŽs des
attributs dŽfinis dans le
rŽfŽrentiel
RŽfŽrentiel
DŽcrit la structure
des articles de la
base lexicale
Base lexicale
Figure 2.2Ê: ƒlŽments de la dŽfinition dÕun dictionnaire
Les attributs sont sŽparŽs en 5 catŽgories distinctes:
-
attributs des lemmes (exÊ: catégorie),
attributs des sens (exÊ: transitivité, définition),
attributs des r•gles flexionnelles (exÊ: nombre, genre),
relations lexicales (exÊ: abréviation, dérivation),
relations sŽmantiques (exÊ: hyperonymie, synonymie).
Lorsque ce travail de dŽfinition a ŽtŽ accompli, les tables SQL et lÕinterface sont
automatiquement gŽnŽrŽes par le syst•me.
1.2.
Réseau lexical et sémantique
Le syst•me g•re deux types de relations, qui dŽfinissent deux rŽseaux diffŽrents ˆ lÕintŽrieur
du dictionnaireÊ:
- les relations lexicales, dŽfinies sur un ensemble de sens de mots,
- les relations sŽmantiques, dŽfinies sur un ensemble de concepts.
Une relation lexicale relie deux sens de mots au niveau lexical. Par exempleÊ:
- ÒapptÓ est-abreviation-de ÒappartementÓ,
- ÒclefÓ est-variante-orthographique-de ÒclŽÓ
- ÒapprentissageÓ est-nominalisation-de ÒapprendreÓ.
Les relations lexicales relient les diffŽrents sens des lemmes, et non diffŽrents lemmes. Cela
permet par exemple de relier les deux sens diffŽrents de ÒblanchirÓ ˆ leur nominalisation
ÒblanchissageÓ et ÒblanchimentÓ). On aura doncÊ:
- ÒblanchissageÓ est-nominalisation-de Òblanchir-1Ó,
- ÒblanchimentÓ est-nominalisation-de Òblanchir-2Ó.
Une relation sŽmantique relie deux concepts au niveau sŽmantique (au sens de la rŽfŽrence
au monde rŽel)Ê:
- ÒchaiseÓ est-un ÒmeubleÓ,
- ÒpoissonÓ a-connotation-avec ÒmerÓ,
- ÒmalariaÓ est-synonyme-de ÒpaludismeÓ.
Chaque sens de mot peut •tre associŽ ˆ un concept par un attribut particulierÊ: le prŽdicat
sŽmantique. RŽciproquement, chaque concept peut •tre associŽ ˆ un ou plusieurs sens de
mot.
1.3.
Vérifications de cohérence et valeurs par défaut
Pour simplifier la maintenance et lÕindexage dÕun dictionnaire, le linguiste dispose dÕun
langage spŽcialisŽ avec lequel il peut dŽfinir des contraintes sur certains des attributs dÕun
article.
Ces contraintes sont utilisŽes de deux mani•res pourÊ:
- VŽrifier la cohŽrence dÕun article (dŽjˆ indexŽ dans le dictionnaire),
- Attribuer des valeurs par dŽfaut ˆ certains attributs dÕun article en cours de crŽation.
Avec ce langage, le linguiste peut par exemple exprimer les contraintes suivantesÊ:
- un verbe pronominal prend lÕauxiliaire Ò•treÓ,
- un verbe impersonnel nÕa pas de forme passive,
- lÕattribut transitivité prend la valeur directe pour les verbes se terminant en ÒiserÓ
(cette valeur par dŽfaut sera proposŽe),
- lÕattribut conjugaison dÕun verbe se terminant par ÒgerÓ prend la valeur V1 ou V2.
Voici un exemple de ces contraintesÊ:
DECL-MESSAGES
msg-aux "l'attribut auxiliaire n'est pas défini"
msg-transit "l'attribut transitif n'est pas défini"
msg-transObj2 "l'attribut transObj2 doit être défini"
msg-frmPassif "l'attribut frmPassif doit être défini"
DECL-CONTRAINTES
// Syntactic attributes for verbs
SI cat = verb ALORS
// the default auxilary is “avoir” (to have)
aux DEFINI DEFAUT {avoir} MESSAGE msg-aux
// if the verb ends with “ter”, the conjugation is
// V3 or V3H or V3Q (default V3).
si cle = "*ter" alors
mm dans { V3, V3H, V3Q } defaut V3
FSI
// An intransitive verb does not admit passive (by default)
SI transit = intrans ALORS
passiv DEFAUT non
FSI
FSI
2.
EDR
Le plus grand projet mondial de construction dÕune base lexicale multilingue a dŽbutŽ ˆ
Tokyo le 26 avril 1986. DÕune durŽe de 9 ans, ce projet a impliquŽ 1200 hommes-annŽes pour
un cožt total de 14 milliard de Yens (environ 750 MF).
Au terme de son contrat, EDR a atteint ses objectifsÊ: la construction dÕune base lexicale
anglais-japonais utilisable par des syst•mes de traduction automatique. Les dictionnaires
anglais et japonais comportent 300Ê000 entrŽes chacun (200Ê000 en vocabulaire gŽnŽral et
100Ê000 en vocabulaire terminologique). EDR a aussi dŽcrit 640Ê000 concepts correspondant ˆ
ces entrŽes. La base lexicale comporte enfin deux dictionnaires bilingues (1 par sens) de
300Ê000 entrŽes et deux corpus (anglais et japonais) de 250Ê000 phrases analysŽe. Ces corpus
comportent aussi 20 millions de phrase Japonaises et 10 millions de phrases anglaises.
EDR est avant tout un projet industriel visant la construction dÕune base lexicale de grande
taille. Cet objectif nÕa pu •tre atteint quÕau prix dÕune simplification des structures
linguistiques prŽsentes dans les dictionnaires. NŽanmoins, ces dictionnaires sont suffisamment
complets pour •tre utilisŽs comme une source de donnŽes lexicales par de nombreux
syst•mes de traduction dŽveloppŽs au Japon.
2.1.
Architecture lexicale
Le projet EDR a dŽlibŽrŽment adoptŽ une approche mixte o• lÕon trouve un dictionnaire
interlingue et des dictionnaires bilingues.
Les dictionnaires de mots (anglais et japonais) sont divisŽs en deux parties. La premi•re
contient environ 200Ê000 termes gŽnŽraux, et la seconde contient environ 100Ê000 termes
techniques (dans le domaine du traitement de lÕinformation). Ces dictionnaires contiennent
les informations grammaticales sur les entrŽes et les concepts auxquels elles sont associŽes.
Le dictionnaire de concepts regroupe 640Ê000 concepts, parmi lesquels, 100Ê000 proviennent
des entrŽes terminologiques et sont communs aux deux langues. Par ailleurs, 60Ê000 concepts
sur environ 300Ê000 concepts issus de chaque dictionnaire gŽnŽral sont communs aux deux
langues (Ch. Boitet, communication personnelle).
640 000 concepts
+
description
english
word dictionary
200 000
General
400 000 bilingual
entries
100 000
Terms
Japanese
word dictionary
200 000
General
Coocurrence
English corpus
dictionary
250 000 sent.
300 000 words
100 000
Terms
Coocurrence
Japanese corpus
dictionary
250 000 sent.
300 000 words
Figure 2.3Ê: Architecture lexicale du projet EDR
Les informations sur ces concepts sont sŽparŽes en deux partiesÊ: la classification des concepts
et leur description.
2.2.
Architecture linguistique
Le souci principal du projet EDR est la taille des dictionnaires. Aussi, ce projet a adoptŽ une
architecture lexicale assez simple. Les informations grammaticales contenues dans les
dictionnaires sÕexpriment selon un ensemble fermŽ dÕattributs. LÕabsence dÕune vŽritable
morphologie rend cette structure difficilement adaptable ˆ des langues plus flexionnelles que
lÕanglais ou le japonais, comme le fran•ais ou lÕallemand.
2.2.1. Dictionnaires monolingues
Les articles des dictionnaires monolingues EDR se composent de quatre partiesÊ (cf. figure 2.4.)
EntrŽe
Informations
grammaticales
EntrŽe
CatŽgorie
Constituants
Arbre syntaxique
Forme normale
Flexion
Attributs dÕadjacence Attributs grammaticaux
Division en syllabes
Fonction (prŽp, articlesÉ)
Prononciation
Informations
sŽmantiques
Identificateur de concept
Illustration du concept
Informations
supplŽmentaires
Usage
FrŽquence
Figure 2.4Ê: Structure dÕune entrŽe de dictionnaire monolingue EDR
LÕentrŽe du dictionnaire correspond ˆ une occurrence. Lorsque cette entrŽe est complexe, elle
est notŽe sous forme dÕune liste de constituants, dont on conna”t la forme normale et des
contraintes sur leur forme dans lÕentrŽe complexe. On dispose aussi de la division de lÕentrŽe
en syllabes et de la prononciation.
Headword
Word
Retrieval Entry
study
stud(ELV1,ECV5)
eat
eat(ELV2,ECV7)
ate
ate(ELV2,ERV3)
give up
give(ELV1,ECV9)
Constituent Information
/w#suf(*,*)/(ELB1,ERB1)
/up(ELW1,ERD5)
Figure 2.5Ê: Exemple dÕentrŽe de dictionnaire monolingue EDR
Les informations grammaticales regroupent la catŽgorie de lÕentrŽe, sa catŽgorie flexionnelle,
un ensemble dÕattributs grammaticaux et, pour les mots outils (prŽpositions, articlesÉ), la
fonction. Si lÕentrŽe est complexe, un arbre syntaxique en dŽtaille la structure.
Headword
Part of
Speech
Syntactic Tree
mak/w#suf/ /*/ /use/ /of/ /*
EVP
EVP(EVE(EVE(mak)/EEV(W#suf))/ESY()/
ENP(ENP([EAP(*)]/EN1(use))/ESY()/
EPP(EPR(of)/ESY()/{ENP(*)})))
mak/w#suf/ /up/ /w#oneÕs/ /mind
EVP
EVP(EVE(EVE(mak)/EEV(w#suf))/ESY()/ED3(up)/
ESY()/ENP(EP1(w#oneÕs)/ESY()/EN1(mind)))
Figure 2.6Ê: Un exemple dÕinformation grammaticale associŽe ˆ une entrŽe
Les informations sŽmantiques regroupent un identificateur de concept, qui renvoie au
dictionnaire de concept, et une explication en anglais et japonais permettant ˆ un utilisateur
dÕidentifier le concept dont il est question.
Concept Illustration
HeadWord
Primary Illustration
Concept Explanation
plane(ELN1,ECN1)
airplane(vehicle)
A vehicle called airplane
plane(ELN1,ECN1)
plane(tool)
A carpentry tool called plane
Figure 2.7Ê: Exemple dÕinformation sŽmantique associŽe ˆ une entrŽe
Enfin, un article du dictionnaire monolingue contient aussi des informations sur lÕusage et la
frŽquence de lÕentrŽe.
2.2.2. Dictionnaire bilingue
Les articles de dictionnaire bilingue comportent deux parties principalesÊ: lÕentrŽe en langue
source et les informations sur ses Žquivalents en langue cible.
EntrŽes
EntrŽe
Notations supplŽmentaires
Correspondances
Correspondant
Relation de correspondance
Explications supplŽmentaires
Figure 2.8Ê: Structure dÕun article de dictionnaire bilingue EDR
LÕentrŽe est une cha”ne de caract•res (avec des espaces si elle est composŽe) donnant la
forme canonique (infinitif des verbesÉ). Dans le dictionnaire japonais-anglais, les notations
supplŽmentaires contiennent la prononciation de lÕentrŽe (en katakana). Dans les deux
dictionnaires bilingues, on trouve aussi une information sur les parties variables de lÕentrŽe.
Un point est placŽ apr•s la partie de lÕentrŽe qui nÕest pas modifiŽe par les flexions.
EntrŽes
Ê
study
name
write
wrote
Notations
supplŽmentaire
studÊ.Êy
name
writÊ.Êe
wrote
Figure 2.9Ê: Exemple dÕentrŽes de dictionnaire bilingue
Le correspondant en langue cible dÕune entrŽe en langue source est une liste dÕentrŽes du
dictionnaire de langue cible, ˆ moins quÕune flexion particuli•re ne soit nŽcessaire lors de la
traduction.
Les Žquivalences entre langues nÕŽtant gŽnŽralement pas parfaites (nuances entre les concepts
recouverts par un mot et sa traductionÉ), on donne la relation de correspondance qui existe
entre lÕentrŽe et son Žquivalent. Il existe 5 relations de correspondanceÊ:
¥ ŽquivalenceÊ: les concepts recouverts par lÕentrŽe et sa traduction sont Žquivalents,
¥ sous-relationÊ: le concept de lÕentrŽe est plus large que le concept de sa traduction,
¥ super-relationÊ: le concept de lÕentrŽe est un sous-concept de celui de la traduction,
¥ synonymieÊ: la diffŽrence entre les concepts est minime,
¥ remarqueÊ: le correspondant est une transcription de lÕentrŽe. Dans ce cas, une
explication est donnŽe en information supplŽmentaire.
EntrŽes
Relations de
Correspondances
correspondance
Žquivalence
left
Žquivalence
annihilation
sous-relation
sous-relation
allege
dog
<explanation> circuitous
super-relation
super-relation
abbey
synonymie
ameer
remarque
remarque
(in) other words
ebosikago [bamboo hand-basket]Ê?
Figure 2.10Ê: Un exemple dÕentrŽes de dictionnaire bilingues
LÕexplication supplŽmentaire est indiquŽe entre chevrons(<>), parenth•ses (()) ou crochets
([]) suivant que lÕon a affaire (respectivement) ˆ une sous-relation, une super-relation ou une
remarque.
2.3.
Dictionnaire de concepts
Dans les trois phrases suivantesÊ:
¥ Un ŽlŽphant appara”t,
¥ Un ŽlŽphant nÕoublie jamais,
¥ LÕŽlŽphant est une esp•ce en danger,
le mot ŽlŽphant renvoie tour ˆ tour ˆ un individu de lÕesp•ce des ŽlŽphants, ˆ un prototype
dÕŽlŽphant ou ˆ lÕesp•ce des ŽlŽphants. NŽanmoins, ce mot rŽf•re ˆ quelque chose de
commun ˆ chacun de ces usages. Ce quelque chose est le contenu sŽmantique du mot
z™., qui a le m•me contenu
ŽlŽphant. La m•me remarque sÕapplique au mot japonais
sŽmantique que le mot ŽlŽphant.
Le contenu sŽmantique dÕun mot, ainsi dŽfini, est reprŽsentŽ par un ŽlŽment du dictionnaire
de concepts (un concept). Un concept (correspondant ˆ un mot) a une identificateur unique.
Ainsi, le concept correspondant ˆ ŽlŽphant a lÕidentificateur <3bf246>. NŽanmoins, comme il
nÕy a pas de possibilitŽs de confusion (polysŽmieÉ), ce concept est aussi appelŽ Òconcept
ŽlŽphantÓ et notŽ ÇŽlŽphantÈ.
Dans le dictionnaire de concepts, lÕidentificateur est accompagnŽ dÕune illustration (une
phrase en anglais et en japonais) qui permet ˆ lÕutilisateur de conna”tre le concept quÕil
manipule.
Le plus important travail de recherche, dÕindexage et de maintenance a ŽtŽ effectuŽ sur le
dictionnaire de concepts. Ce dictionnaire est dŽcomposŽ en deux parties. Dans la premi•re
partie, les concepts sont dŽcrits par un ensemble de relations quÕils entretiennent entre eux.
Dans la seconde partie, les concepts sont classifiŽs hiŽrarchiquement.
2.3.1. Description des concepts
EDR a rejetŽ lÕapproche consistant ˆ dŽcrire un concept ˆ lÕaide de concepts de base plus
simples. Aussi, chaque unitŽ sŽmantique, correspondant ˆ un mot ou une expression
complexe, sÕexprime par un concept (que lÕon peut identifier et manipuler), et ce, m•me si la
sŽmantique de ce concept peut se traduire par une description ˆ base de concepts plus
simples.
La description des concepts se base sur un ensemble de relations quÕils entretiennent entre
eux. EDR a retenu 24 relations et 50 attributs (relations unaires) pour cette descriptionÊ:
agent
a-object
object
cause
implement
material
source
goal
place
sujet dÕune action volontaire. Les
entitŽs conscientes ou automatisŽes
peuvent •tre de tels sujets.
Òun animal mangeÓ
ÇmangerÈ ÑÊagentÊ→ ÇanimalÈ
attribut dÕun objet
Òles tomates sont rougesÓ
ÇrougeÈ ÑÊa-objectÊ→ ÇtomateÈ
objet affectŽ par une action ou un
changement
Òmanger de la viandeÓ
ÇmangerÈ ÑÊobjectÊ→ ÇviandeÈ
la cause
Òmort de froidÓ
ÇmortÈ ÑÊcauseÊ→ ÇfroidÈ
instrument ou moyen dans une
action volontaire
Òcouper avec un couteauÓ
ÇcouperÈ ÑÊimplementÊ → ÇcouteauÈ
composant matŽriel ou structurel
Òfait avec du laitÓ
ÇfaireÈ ÑÊmaterialÊ→ ÇlaitÈ
sujet dÕun ŽvŽnement ou position ou
condition initial dÕun objet
Òvenir de TokyoÓ
ÇvenirÈ ÑÊsourceÊ → ÇTokyoÈ
sujet dÕun ŽvŽnement ou position ou
condition finale dÕun objet
Òaller ˆ TokyoÓ
ÇallerÈ ÑÊgoalÊ→ ÇTokyoÈ
lieu o• se tient un ŽvŽnement
Òjouer dans la chambreÓ
ÇjouerÈ ÑÊplaceÊ→ ÇchambreÈ
scene
contexte dans lequel un ŽvŽnement
a lieu
Òjouer dans un drameÓ
ÇjouerÈ ÑÊsceneÊ→ ÇdrameÈ
manner
mani•re dont se passe une action ou
un changement
Òparler lentementÓ
ÇparlerÈ ÑÊmannerÊ→ ÇlentementÈ
time
instant o• se passe un ŽvŽnement
Òse lever ˆ lÕheureÓ
Çse leverÈ ÑÊtimeÊ→ Lj lÕheureÈ
time-from
instant o• dŽbute un ŽvŽnement
Òje travaille depuis le matinÓ
ÇtravaillerÈ ÑÊtime-fromÊ→ ÇmatinÈ
time-to
instant o• se termine un ŽvŽnement
Òje travaille jusquÕau soirÓ
ÇtravaillerÈ ÑÊtime-toÊ→ ÇsoirÈ
quantity
quantitŽ de chose, dÕaction ou de
changement
Òun kilo de pommesÓ
ÇpommesÈ ÑÊquantityÊ→ ÇkiloÈ
number
nombre
Ò3 kilosÓ
ÇkiloÈ ÑÊnumberÊ→ Ç3È
condition
relation de condition entre
ŽvŽnements ou circonstances
Òaller pleurerÓ
ÇallerÈ ÑÊconditionÊ→ ÇpleurerÈ
cooccurrence relation simultanŽe entre
ŽvŽnements ou circonstances
Òpartir en pleurantÓ
ÇpartirÈ ÑÊcooccurrenceÊ→ ÇpleurerÈ
purpose
but dÕune action
Òaller voirÓ
ÇallerÈ ÑÊpurposeÊ→ ÇvoirÈ
sequence
relation temporelle sŽquentielle
entre ŽvŽnements ou circonstances
Òsauter et frapperÓ
ÇsauterÈ ÑÊsequenceÊ→ ÇfrapperÈ
basis
base de comparaison
Òles roses plus belles que les lilasÓ
ÇrosesÈ ←Êa-objectÊÑ ÇbeauÈ
←ÊobjectÊÑ ÇplusÈ ÑÊbasisÊ→ ÇbeauÈ
ÑÊa-objectÊ→ ÇlilaÈ
and
relation de conjonction entre
concepts
Òvisiter Rome et VeniseÓ
ÇvisiterÈ ÑÊgoalÊ→
(ÇRomeÈ ÑÊandÊ→ ÇVeniseÈ)
or
relation de disjonction entre
concepts
Òvisiter Rome ou VeniseÓ
ÇvisiterÈ ÑÊgoalÊ→
(ÇÇRomeÈ ÑÊorÊ → ÇVeniseÈ)
modifier
autres relations
Ë ces 24 relations sÕajoutent 4 Òpseudo-relationsÓ, qui sont des relations dŽfinies en fonction
des autres relations. Ainsi, la pseudo-relation possessor est dŽfinie comme suitÊ:
possessor
ÑÊpossessorÊ→ ≡ ←ÊobjectÊÑÊÇownÈÊÑÊagentÊ→
Les pseudo-relations sontÊ:
possessor
relation de possession
Òle chien de TomÓ
ÇchienÈ ÑÊpossessorÊ → ÇTomÈ
beneficiary
bŽnŽficiaire dÕun ŽvŽnement ou dÕune circonstance
Òutile aux personnesÓ
ÇutileÈ ÑÊbeneficiaryÊ → ÇpersonnesÈ
from-to
portŽe, chemin,ÊÉ
Òun tiquet dÕOsaka ˆ TokyoÓ
ÇtiquetÈ ÑÊmodifierÊ→
(ÇÇOsakaÈ ÑÊfrom-toÊ → ÇTokyoÈ)
unit
lÕunitŽ
Ò500 yens pour une douzaineÓ
( Ç1È ←ÊnumberÊÑ ÇdouzaineÈ ) ←ÊunitÊÑ (Ç yensÈ ÑÊnumberÊ→ Ç500È )
Les attributs sont dŽfinis comme des relations unaires sur les concepts. EDR a dŽfini 50
attributs rŽpartis comme suitÊ:
imperative
Un ordre
Attributs qualifiant lÕobjetÊ:
all
some
specific
generic
Tous les objets
Un nombre non spŽcifiŽ dÕobjets
Des objets spŽcifiŽs
Objets avec des caractŽristiques
gŽnŽrales
Attributs indicateur de tempsÊ:
past
present
future
Le point de vue est dans le passŽ
Le point de vue est dans le prŽsent
Le point de vue est dans lÕavenir
Attributs de relativitŽÊ:
begin
end
progress
continue
state
complete
yet
already
soon
just
come
go
DŽbut dÕune action ou dÕun
ŽvŽnement
Fin dÕune action ou dÕun ŽvŽnement
Une action ou un ŽvŽnement est en
cours
Une action rŽpŽtitive ou un
ŽvŽnement rŽpŽtitif est en cours
Une action ou un ŽvŽnement est
terminŽ et un Žtat ou rŽsultat est
atteint
Toutes les actions ou tous les
ŽvŽnements sont terminŽs
NÕa pas encore eu lieu
A dŽjˆ eu lieu
Aura lieu bient™t
Vient dÕavoir lieu
On approche du moment auquel
pense le locuteur
On sÕŽloigne du moment auquel
pense le locuteur
Attributs dŽnotant lÕintention du locuteurÊ:
interrogation Une question
exclamation Une exclamation
invite
Une invitation
rumor
Une rumeur
respect
Avec respect
polite
Avec politesse
require-agreement
Demande agrŽment ou confirmation
thought
Une pensŽe
conclude
Une conclusion
sure
InfŽrence ˆ partir dÕune situation
maybe
InfŽrence dÕune ŽventualitŽ
seem
InfŽrence ou supposition
recommend
Une recommandation
grant
Une permission
grant-not
Un refus de permission
underestimate Une sous-estimation
duty
Une obligation
should
Une quasi-obligation
sufficiency
Suffisance
consent
Un consentement
pity
DŽsappointŽ
be-sorry
Avec remords
appearance
Circonstance ou comparaison
natural-result RŽsultat naturel dÕun ŽvŽnement ou
dÕune circonstance
advise
Avis ou recommandation donnŽe
par lÕauteur
natural-thing Forme idŽale, ce qui devrait •tre
blame
Un bl‰me
if
SpŽculation sur quelque chose
dÕincertain
reality
La rŽalitŽ
unexpected
Inattendu, imprŽvisible
Le dictionnaire de concepts de EDR contient un ensemble de descriptions. Une description de
concept est composŽe de deux concepts liŽs par une relation, ˆ laquelle est associŽe un
facteur de certitude (0 ou 1). Ainsi, EDR introduit des relations positives (certitude 1) et
nŽgatives (certitude 0). Ainsi, le dictionnaire de concepts permet de dŽterminer sÕil est
pertinent dÕŽtablir une relation entre concepts dans des circonstances normales.
Cette organisation du dictionnaire EDR ne permet que des relations de concept ˆ concept. Il
est donc impossible ˆ EDR dÕutiliser des relations complexes pour dŽcrire la sŽmantique dÕune
entrŽe. Aussi, le dictionnaire de concepts peut indiquer, pour le concept joueur de tennisÊ:
Çjoueur de tennisÈ ←ÊagentÊÑ ÇjouerÈ
mais pasÊ:
Çjoueur de tennisÈ ←ÊagentÊÑ (ÇjouerÈ ÑÊobjectÊ→ÊÇtennisÈ)
Les relations que lÕon trouve dans le dictionnaire de concepts sont de deux types, suivant leur
origine. Les relations du premier ordre sont basŽes sur lÕintuition humaine, alors que les
relations du deuxi•me ordre sont issues des rŽsultats dÕanalyse des phrases du corpus EDR.
2.3.2. Classification des concepts
EDR a dŽveloppŽ une classification de concepts afin de minimiser les relations ˆ stocker (en
faisant hŽriter aux concepts les relations de leurs super-concepts).
agent
ÇoiseauÈ
kind-of
ÇvolerÈ
kind-of
ÇmoineauÈ
ÇmouetteÈ
Figure 2.11Ê: Un exemple de classification de concepts
Pour cela, EDR a dŽfini une relation particuli•re, nommŽe kind-of, qui relie un concept ˆ son
super-concept. Par cette classification, il est possible de dŽterminer les similaritŽs entre
concepts. Ainsi, gr‰ce ˆ la hiŽrarchie prŽsentŽe en figure 2.11., on sait que les moineaux et les
mouettes sont des oiseaux, et quÕils volent.
ÇconceptÈ
Çabstract objectÈ
Çconcrete
objectÈ
ÇactionÈ
Çinformation
transferÈ
ÇexpressÈ
object/1
Çintellectual
propertyÈ
ÇthinkÈ
ÇbookÈ
ÇconsultÈ
ÇdictionaryÈ
ÇperformÈ
ÇplayÈ
Hiku
Hiku
Jisho
play
refer, consult
lexicon, dictionary
Figure 2.12Ê: Un extrait de la hiŽrarchie de concepts du dictionnaire EDR
Les relations du premier ordre (correspondant ˆ lÕintuition humaine) se trouvent plut™t dans
les niveaux supŽrieurs de la hiŽrarchie, alors que les relations du second ordre (issues de
lÕanalyse du corpus) se trouvent au niveau infŽrieur de cette hiŽrarchie.
Cette hiŽrarchie pose certains probl•mes mŽthodologiques pour la crŽation et la maintenance
de la base lexicale. Il est en effet difficile de choisir les groupes de concepts ou de savoir sur
quels crit•res les grouper. Pour cela, EDR a regroupŽ les concepts qui partagent un certain
attribut, afin de repŽrer les groupes qui sont les plus reprŽsentatifs. De plus, un m•me
concept peut appartenir ˆ plusieurs groupes.
Ë lÕintŽrieur de cette hiŽrarchie, les sous-concepts hŽritent des relations quÕentretiennent leurs
super-concepts. Afin de dŽnoter des exceptions, comme pingouin qui est un oiseau mais ne
vole pas, EDR a envisagŽ deux techniques.
La premi•re consiste ˆ ne pas dŽnoter lÕappartenance de lÕexception au groupe. Il nÕy a donc
plus dÕexception, puisquÕon ÒoublieÓ quÕun pingouin est un oiseau.
Mais dans certains cas, o• lÕexception hŽrite de la grande majoritŽ des relations du groupe, il
est intŽressant de garder lÕexception ˆ lÕintŽrieur du groupe. Il faut alors indiquer la (ou les)
relation(s) qui ne sont pas indiquŽes. Aussi, EDR a introduit des relations nŽgatives entre
concepts. Cette relation nŽgative annule la relation positive hŽritŽe (voir figure 2.13.).
C11
C21
C1
Agent/1
Agent/1
C21
C22
C2
C11
C12
C1
Agent/0
Agent/1
C12
C22
C2
Figure 2.13Ê: Le mŽcanisme dÕhŽritage et les relations nŽgatives
NŽanmoins, lÕintroduction de ces relations nŽgatives entra”ne des difficultŽs lorsquÕon obtient
des schŽmas non prŽvus dans la dŽfinition de lÕopŽration dÕhŽritage. Aussi, ces relations ne
sont introduites que par des lexicographes (et non par analyse de corpus).
3.
Genelex
Un projet industriel nommŽ GENELEX a vu le jour gr‰ce ˆ une convention EuropŽenne EUREKA.
Ce projet regroupe des sociŽtŽs spŽcialisŽes en informatique linguistique, des universitaires et
des Žditeurs et utilisateurs de dictionnaires regroupŽs dans 3 pays (France, Italie et Espagne).
Il implique environ 250 hommes-annŽes.
LÕobjectif de GENELEX (GENEric LEXicon) est la construction dÕun dictionnaire gŽnŽrique pour
diffŽrentes langues europŽennes (pour lÕinstant, le fran•ais, lÕitalien et lÕespagnol). Cela
implique non seulement le dŽveloppement dÕun dictionnaire gŽnŽrique, mais aussi la mise au
point dÕune mŽthodologie qui garantira sa gŽnŽricitŽ au fur et ˆ mesure de son Žvolution.
Dans la suite, nous nous intŽresserons aux travaux du consortium GENELEX France, sur les
dictionnaires du fran•ais.
Le dictionnaire ainsi crŽŽ est considŽrŽ comme une grande base lexicale sans connexion
directe avec un syst•me de traitement des langues particulier. Les dictionnaires dÕapplication
seront gŽnŽrŽs par extraction des donnŽes nŽcessaires dans une forme adaptŽe aux besoins.
Pour GENELEX, une unitŽ lexicale est le sens dÕun mot, dŽfini par les relations entre une unitŽ
morphologique, une unitŽ syntaxique et une unitŽ sŽmantique.
GENELEX a choisi de coder ses dictionnaires dans un format entitŽs-attributs-relations. Ce
choix permet de visualiser un unitŽ lexicale comme un graphe. Cela permet aussi de placer
chaque ŽlŽment dÕinformation sur un pied dÕŽgalitŽ (i.e. aucun nÏud nÕest privilŽgiŽ lors des
recherches, alors quÕune structure en arbre privilŽgierait la racine).
GENELEX a produit un dictionnaire public dÕenviron 3000 termes. Par ailleurs, les participants
au projet ont transformŽ leurs dictionnaires privŽs au format dŽfini par le consortiumÊ:
Hachette
Notre temps
SEMA Group
IBM
GSI-ERLI
3.1.
55Ê000 termes
60Ê000 termes + 25Ê000 noms propres
70Ê000 unitŽs morphologiques
50Ê000 unitŽs morphologiques
68Ê000 unitŽs morphologiques simples et
15Ê000 unitŽs morphologiques composŽes
Le modèle conceptuel de GENELEX
Le mod•le conceptuel de GENELEX dŽfinit le formalisme de haut niveau dans lequel un
linguiste peut exprimer sa thŽorie linguistique. Ce formalisme de haut niveau doit •tre
indŽpendant du stockage effectif des donnŽes.
GENELEX doit reprŽsenter les diverses descriptions existantes, compte tenu de ce quÕelles
dŽpendront du mod•le thŽorique, du degrŽ de finesse et des crit•res discriminants retenus par
le lexicographe, et ce, quelle que soit son Žcole. Cela aura des rŽpercutionsÊ:
- au niveau morphologique,
- au niveau du comportement syntaxique des unitŽs lexicales,
- au niveau sŽmantique,
- au niveau des inter-relations entre les diffŽrentes informations codŽes.
Ces diverses descriptions appara”tront soit dans plusieurs instances de dictionnaires, soit dans
une seule et m•me instance construite par fusion de toutes les autres.
Le formalisme descriptif de Genelex est donc dŽveloppŽ pour pouvoir contenir chacune des
thŽories en usage. Il fonctionne donc comme un pont entre les diffŽrentes thŽories
linguistiques.
Le mod•le conceptuel GENELEX a ŽtŽ largement exprimŽ au travers de mod•les entitŽsattributs-relations (Merise).
Beaucoup de contraintes dÕintŽgritŽ sont exprimŽes dans ce formalismeÊ: typage des objets,
typage des relations, cardinalitŽ des relations, etc. Cependant, ce mod•le nÕest pas fait pour
exprimer des r•gles. Aussi, certaines contraintes ont dž •tre exprimŽes dans le document
dÕaccompagnement (restriction sur les combinaisons de valeurs). Il sÕensuit que le mod•le
conceptuel de GENELEX combine lÕutilisation du formalisme entitŽs-attributs-relations et de
commentaires en langage naturel.
Comme nous lÕavons dŽjˆ mentionnŽ, le formalisme de GENELEX se veut indŽpendant du
stockage effectif des donnŽes. Cela permet ˆ chaque membre du consortium G ENELEX de
construire ses propres outils sur la plate-forme de son choix. Un format dÕŽchange est donc
nŽcessaire pour assurer la compatibilitŽ des diffŽrents outils.
Le consortium GENELEX a choisi SGML (Standard Generalized Markup Language) comme
format dÕŽchange. SGML est un langage de description de documents (cf. annexe A) qui
permet de dŽcrire la structure et le contenu dÕun ensemble de documents. La structure dÕun
document est donnŽe par une DTD (Document Type Definition).
GENELEX a donc traduit son mod•le conceptuel en un mod•le physique en construisant une
DTD. Certaines des contraintes alors exprimŽes en langage naturel ont pu •tre exprimŽes
formellement dans la DTD. Les autres contraintes apparaissent sous forme de commentaires.
3.2.
Vue générale d’une unité du lexique
Comme lÕensemble des informations dÕun dictionnaire Genelex, chaque unitŽ du lexique peut
•tre vue sous forme de graphe. Les unitŽs sont organisŽes selon trois couchesÊ: unitŽs
morphologiques (UM), unitŽs syntaxiques (USyn) et unitŽs sŽmantique (USŽm).
Nous donnons en figure 2.14. lÕarticulation globale dÕune unitŽ du lexique.
Graphie
Phonie
se prononce
UMG
MFG
forme graphique
UMP
MFP
forme phonique
UnitŽ Morphologique
UMS, UMC, UM_AFF
dŽrivation, forme br•ve,
autonomie, composition
0,n
syntaxe
1,1
UnitŽ syntaxique simple
Description
de base
Description
de base
transformation
transformation
UnitŽ syntaxique
composŽe
Structure syntaxique
self,
construction, position, É
USynt
composition
0,n
struct. interne
sŽmantique
correspondance
d'arguments
struct. transf.
1,n
Abstraction
Concept
UnitŽ sŽmantique
sŽmantique
USŽm, traits componentiels,
relations
Structure
prŽdicative
PrŽdicat
sŽmantique
Figure 2.14Ê: LÕarticulation globale dÕune unitŽ du lexique
Une unitŽ du lexique comprend donc une unitŽ morphologique. Cette unitŽ morphologique
est reliŽs ˆ 0, 1 ou plusieurs unitŽs syntaxiques simples. LÕunitŽ syntaxique, par contre, nÕest
reliŽe quÕˆ une et une seule unitŽ morphologique. Dans le cas dÕexpressions composŽes,
lÕunitŽ morphologique est reliŽe ˆ plusieurs unitŽs syntaxiques simples (celles des
composants), elles-m•mes liŽes ˆ une unitŽ syntaxique complexe (dŽcrivant le comportement
syntaxique global du composŽ).
Une unitŽ syntaxique simple est reliŽe ˆ 0, 1 ou plusieurs unitŽs sŽmantiques. LÕunitŽ
sŽmantique est liŽe de mani•re biunivoque ˆ un concept et ˆ une structure prŽdicative. On
conna”t aussi la correspondance entre les arguments du prŽdicat et les ŽlŽments syntaxiques
de lÕunitŽ.
LorsquÕune unitŽ sŽmantique est associŽe ˆ plusieurs unitŽs syntaxiques, celle-ci sont simples
et proviennent de la m•me unitŽ morphologique.
Avec ce schŽma, il est possible de crŽer des dictionnaires nÕayant que des informations
morphologiques, nÕayant que des informations morphologiques et syntaxiques ou ayant des
informations morphologiques, syntaxiques et sŽmantiques.
3.3.
Le modèle morphologique
Le mod•le morphologique dŽfinit une unitŽ morphologique (UM) et donne sa structure.
Une unitŽ morphologique est le point dÕentrŽe de la couche morphologique et le point de
passage vers les autres couches.
Une unitŽ morphologique est un regroupement de mots basŽ sur des propriŽtŽs
morphologiques. Elle est identifiŽe par son lemme graphique et/ou par son lemme
phonŽtique. La forme lemmatisŽe est la forme singulier sÕil y a variation en nombre, masculin
sÕil y a variation en genre, et infinitif pour les verbes.
Dans certains cas, il est difficile de savoir si lÕon a affaire ˆ plusieurs unitŽs morphologiques
ou ˆ une seule. Pour cela, GENELEX a dŽfini des crit•res formels dÕŽclatementÊ:
- si deux catŽgorie grammaticales peuvent •tre associŽes ˆ une forme lemmatisŽe, on
consid•re quÕon est en prŽsence de deux lemmes distincts. Par exempleÊ: autiste (nom)
et autiste (adjectif). On note cependant la difficultŽ ˆ distinguer certaines catŽgorieÊ:
nom/adjectif, participe passŽ/adjectif, participe prŽsent/adjectif.
- si la variation en genre dÕun nom refl•te une variation sŽmantique (mise ˆ part le
changement de sexe), on consid•re que lÕon est en prŽsence de deux unitŽs
morphologiques distinctes. Par exempleÊ: un page/une page, un colonel/une colonelle (la
colonelle est la femme du colonel, pas un colonel fŽminin).
- si deux significations tr•s distinctes (sans lien Žtymologique ou rhŽtorique) peuvent •tre
associŽes ˆ une forme lemmatisŽe, on consid•re que lÕon est en prŽsence de deux
lemmes distincts. Par exempleÊ: fraise, po•le. LÕapplication de ce crit•re est laissŽe au
lexicographe.
On ne peut malheureusement pas toujours dŽterminer si certains de ces crit•res sÕappliquent
ou non.
GENELEX a dŽfini cinq types dÕunitŽs morphologiquesÊ:
- UM simpleÊ: une UM simple est associŽe ˆ une graphie (plusieurs en cas de variantes)
constituŽe dÕune suite de caract•res alphabŽtiques, de sŽparateurs (tiret, apostrophe,
point) et de la marque Žventuelle dÕhyphŽnation. Par exempleÊ: demain, apr•s-demain,
aujourdÕhui.
- UM affixesÊ: une UM affixe peut •tre de type prŽfixe, infixe ou suffixe, ou encore sans
type dans le cas o• elle ne prend son statut quÕen contexte de dŽrivation ou
composition. Par exemple, -tion (suffixe), re- (prŽfixe), et gyne (sans type dÕaffixe), qui
donne androgyne et gynŽcologue.
- UM dŽrivŽesÊ: une UM dŽrivŽe est une unitŽ morphologique simple qui entretient des
liens de dŽrivation avec dÕautres unitŽs morphologiques (simples ou affixes). Ces unitŽs
sont analysables, en ceci quÕelles sont gŽnŽralement constituŽes de 0 ˆ N prŽfixes, dÕune
base, et de 0 ˆ N suffixes. Par exemple, acculturation.
- UM composŽeÊ: La notion de composŽ Žtant tr•s controversŽe, lÕUM composŽe de
Genelex est une expression complexe quÕun lexicographe a choisi de coder dans la
couche morphologique. Ce choix repose sur un ensemble de crit•res linguistiques qui
dŽfinissent la notion dÕunitŽ morphologique composŽeÊ:
- un des composants nÕappara”t que dans cette expression complexe. Par exemple, fur
dans au fur et ˆ mesure.
- particularitŽ morphologique (changement de genre, nombre, mode flexionnelÉ) lors
de la composition. Par exemple, une deux-chevaux, un peau-rouge.
- particularitŽ graphique (prŽsence dÕun sŽparateur graphique). Par exempleÊ:
garde-malade.
- composŽ insŽcable (pas dÕinsertion autorisŽe). Par exempleÊ: ˆ force de. Les composŽs
autorisant lÕinsertion tels que mettre [qqch] en marche rel•vent de la composition au
niveau syntaxique.
- assimilable ˆ une catŽgorie fonctionnelle terminale. Par exempleÊ: en vertu de
(assimilable ˆ un prŽposition).
- pas de composition sŽmantique. Par exempleÊ: une sage femme (- femme qui est
sage).
- UM agglutinŽeÊ: permet dÕenregistrer des phŽnom•nes de contraction graphique de
deux unitŽs. Par exempleÊ: du (= de + le).
UM_S
id = Um6
catgram = N
autonomie = OUI
Umg
id = Umg61
libellŽ = leitmotiv
Mfg
id = MFG008
exemple = leitmotiv
Cffg
ni•me_radgp = 0
retrait = nil
ajout = nil
Cffg
ni•me_radgp = 0
retrait = nil
ajout = s
Umg
id = Umg62
libellŽ = leitmotif
CombTM
id = GN03
genre = masc.
nombreCombTM
= sing.
id = GN04
genre = masc.
nombre = plur.
Mfg
id = MFG002
exemple = tabouret
comment = formation
de base des masculins
Cffg
ni•me_radgp = 0
retrait = nil
ajout = s
Cffg
ni•me_radgp = 0
retrait = nil
ajout = e
Cffg
ni•me_radgp = 0
retrait = nil
ajout = nil
Figure 2.15Ê: Un exemple dÕunitŽ morphologique simple prŽsentŽe sous forme graphique
Chacune de ces unitŽs morphologiques poss•de une structure diffŽrente, dŽfinie par un
schŽma entitŽs-attributs-relations. Le schŽma entitŽs-attributs-relations des unitŽs
morphologiques rŽgit lÕensemble des interactions entres les diffŽrentes parties du graphe
(lÕunitŽ morphologique, la graphie et la phonŽtique). Aussi, nous ne donnerons en figure
2.15. quÕun exemple concret dÕutilisation du mod•le Genelex pour une unitŽ morphologique
simple.
Dans cet exemple, on peut voir une unitŽ morphologique ayant deux variantes graphiques,
chacune avec un comportement morphologique diffŽrent. Cet exemple montre bien
lÕutilisation dÕune structure graphique pour le codage dÕinformations linguistiques. Il permet
aussi de voir les possibilitŽs de factorisation des informations. Par exemple, le mode de
flexion (Mfg) de la variante leitmotif est commun ˆ lÕensemble des noms masculins rŽguliers.
3.4.
Le modèle syntaxique
Le mod•le syntaxique a pour but de dŽcrire les comportements syntaxiques propres ˆ lÕunitŽ
lexicale dŽcrite. Les comportements dŽcrits sont ceux que lÕappartenance de celle-ci ˆ une
catŽgorie et ˆ une sous-catŽgorie ne suffit pas ˆ prŽdire.
GENELEX a dŽfini deux types dÕunitŽs syntaxiques (USyn)Ê: les USyn simples et les USyn
composŽes.
On associe ˆ une unitŽ morphologique autant dÕUSyn que lÕon a identifiŽ de comportements
distincts. Une USyn simple dŽcrit un comportement syntaxique pour exactement une UM. Elle
est caractŽrisŽe par exactement une description de base dŽcrivant un contexte syntaxique. On
peut lui associer une ou plusieurs descriptions transformŽes.
Une description de base est lÕassociation dÕune construction dŽcrivant un contexte syntaxique
et dÕun bloc dÕinformation (appelŽ ÒselfÓ) enregistrant les propriŽtŽs propres ˆ lÕentrŽe dŽcrite,
lorsquÕelle appara”t dans ce contexte. Les constructions peuvent ainsi •tre largement
partagŽes.
Une construction est dŽfinie par un ensemble de positions (Pi), avec indication dÕoptionnalitŽ
et, le cas ŽchŽant, de solidaritŽ. La notion de position recouvre les notions de classes
fonctionnelles, paradigmes distributionnels, actants, arguments, et r™les thŽmatiques que lÕon
rencontre dans les diffŽrentes thŽories.
Une position se dŽfinit par un tripletÊ:
- distribution (en terme de types de syntagmes, qui peuvent eux-m•mes •tre dŽtaillŽs en
termes de position sÕils sont non terminaux),
- fonction,
- r™le thŽmatique.
Le formalisme permet donc des rŽŽcritures arborescentes, comme dans lÕexemple de la figure
2.16. o• lÕon exprime une construction de lÕunitŽ lexicale intŽressant (adjectif).
Comme nous lÕavons vu dans le paragraphe prŽcŽdent, les expressions courantes de la langue
nÕŽtaient codŽes sous formes dÕUM que dans certains cas particuliers (prŽsence de composant
non autonomeÉ). Ces expressions sont codŽes au niveau syntaxique par les unitŽs
syntaxiques composŽes.
Ces unitŽs syntaxiques composŽes ne sont pas issues dÕune unitŽ morphologique. Leurs
composants lexicalisŽs peuvent •tre soit des UM, soit des USyn. Leur comportement ÒexterneÓ
est dŽcrit de la m•me fa•on que pour les unitŽs syntaxiques simples. Leur structure interne est
exprimŽe au moyen du m•me formalisme que les constructions.
LÕinteraction entre les composant ou les arguments et modifieurs est dŽcrite. Les
transformations possibles sont dŽcrites (possessivationÊ: au grand dam de SN -> à son
grand dam, dans le but de P[mode: infinitif] -> dans ce but). De plus, on peut
mentionner les processus dÕeffacementÊ: fil de fer barbelé -> fil barbelé -> barbelé.
P
SELF = intŽressant (adjectif)
C=
P0
P1
P2
PRO
V
SADJ
[lex : il]
[ssCatSyn : copule]
[sscat :
impersonnel]
syntagme rŽŽcritÊ: SADJÊ:
(P0)
P3
P
ou
SELF
P
P0
P1
Prep [lex: de]
P
P0: vide
P
P0
CONJ
[sscat: subord.]
[lex: que]
P1
P [mode: subjonctif]
P1
SV[mode: infinitif]
Figure 2.16Ê: Description de base associŽe ˆ lÕentrŽe ÒintŽressantÓ (adjectif)
La figure 2.17. donne un exemple de construction syntaxique pour une USyn composŽe.
LÕinteraction entre composants et arguments ou modifieur y est dŽcrite (insertion dÕun
argument entre les composants, par exemple).
P
CB:
P0
SELF
SN
SN mettre SN en Ïuvre
P1
SN
IntervConst: V
SELF:
Syntagme NT S:
P0
SV
IO
V
cb.P1
[RefLex: mettre]
P1
SP
[prep: en]
[RefLex: Ïuvre]
Figure 2.17Ê: Description de lÕUSyn composŽe Òmettre en ÏuvreÓ
3.5.
Le modèle sémantique
Vu le faible niveau de consensus dans la communautŽ scientifique en ce qui concerne la
formalisation des connaissances sŽmantiques, GENELEX propose un mŽta-mod•le ˆ instancier
plut™t quÕun mod•le ˆ implŽmenter directement sur les donnŽes lexicales.
Dans cet esprit, Genelex a clairement sŽparŽ la sŽmantique en deux niveauxÊ:
- un niveau de reprŽsentation sŽmantique linguistiqueÊ: cette reprŽsentation, tr•s
proche de la langue, est construite principalement ˆ partir de lÕobservation du lexique en
contexte et des relations sŽmantiques entre ŽlŽments du lexique. Ce niveau regroupe les
informations sŽmantiques fines nŽcessaires ˆ la traduction automatique de qualitŽ ou ˆ
la gŽnŽration, ˆ la comprŽhension automatique de texte pour gŽnŽration de rŽsumŽÉ).
- un niveau de reprŽsentation sŽmantique conceptuelleÊ: cette reprŽsentation, issue
des courants de lÕintelligence artificielle, est dÕune plus grande ÒabstractionÓ. elle
sÕappuiera sur des primitives, associŽes ˆ un formalisme de reprŽsentation des
connaissances.
La profusion de thŽories que GENELEX souhaite pouvoir coder dans son mod•le lÕa menŽ ˆ
choisir une approche plus multi-thŽorique que a-thŽorique.
LÕunitŽ sŽmantique permet dÕaccŽder ˆ lÕensemble des informations sŽmantiques
correspondant ˆ une certaine acception dÕune entrŽe.
LÕunitŽ sŽmantique dŽcrit donc le sens dÕune unitŽ morphologique dans un contexte
syntaxique donnŽ. DÕautre part, une unitŽ syntaxique, et donc implicitement lÕunitŽ
morphologique dont elle est issue, peut •tre associŽe ˆ plusieurs unitŽs sŽmantiques.
Les relations entre les diffŽrents mod•les de GENELEX nous donnent donc une structure
illustrŽe par lÕexemple de la figure 2.18.
UnitŽ sŽmantique
UnitŽ syntaxique
UnitŽ sŽmantique
UnitŽ syntaxique
UnitŽ sŽmantique
UnitŽ syntaxique
UnitŽ sŽmantique
UnitŽ
morphologique
UnitŽ syntaxique
UnitŽ sŽmantique
UnitŽ sŽmantique
Figure 2.18Ê: Un exemple de relations entre les diffŽrents mod•les GENELEX
Pour Žtablir la correspondance entre syntaxe et sŽmantique, Genelex introduit la notion de
prŽdicat. Toute unitŽ sŽmantique peut-•tre associŽe ˆ un prŽdicat. Il est ainsi possible de
noter les liens entre les diffŽrentes positions (en syntaxe) et les arguments du prŽdicat (en
sŽmantique). Ë chaque argument dÕun prŽdicat est associŽe une information sŽmantique en
terme de traits ou de r™le sŽmantique. On peut aussi lui associer une valeur par dŽfaut, afin de
traiter les cas o• lÕargument est absent en surface.
Enfin, il est possible dÕŽtablir des relations entre les diffŽrentes unitŽs sŽmantiques du
dictionnaire. Cette possibilitŽ permet donc de coder un thesaurus, voire dÕautres liens plus
fins, comme les fonctions dÕIgor MelÕcÿ uk.
4.
MULTILEX
M ULTILEX est un projet ESPRIT (DG XIII), qui a dŽbutŽ en dŽcembre 1990 et sÕest achevŽ en
dŽcembre 1993. Son but Žtait de proposer des standards pour les bases lexicales multilingues.
Les 3 annŽes du projet ont ŽtŽ rŽparties en deux phases. La premi•re phase, axŽe vers la
recherche, a consistŽ en la dŽfinition des standards ˆ adopter. La seconde, axŽe vers les
applications, a expŽrimentŽ, corrigŽ et dŽveloppŽ les standards ainsi proposŽs.
M ULTILEX a proposŽ diffŽrents types de standards, portantÊ:
- sur les informations linguistiquesÊ: quelles sont les informations que lÕon met dans la
base, sous quelle formeÉ)Ê?
- sur lÕarchitecture linguistiqueÊ: comment les entrŽes sont-elles organisŽesÊ?
- sur lÕarchitecture lexicaleÊ: comment les dictionnaires sont-ils organisŽsÊ?
- sur lÕarchitecture informatiquesÊ: comment sont organisŽs les diffŽrents outilsÊ?
Enfin, MULTILEX a dŽveloppŽ un prototype de dictionnaire quadrilingue (anglais, fran•ais,
allemand et italien) selon ces standards.
LÕarchitecture dÕune base lexicale MULTILEX est basŽe sur des dictionnaires monolingues et
bilingues.
Les unitŽs lexicales sont reprŽsentŽes avec un formalisme basŽ sur les structures de traits
typŽs. Un langage a ŽtŽ dŽfini pour dŽcrire la structure dÕune unitŽ lexicale. Un autre, dŽfini
par nos soins, permet de coder des r•gles de cohŽrence et dÕintŽgritŽ. Chaque manipulation
de lÕinformation linguistique est faite dans ce formalisme. Ensuite, les entrŽes sont stockŽes
dans une base de donnŽes relationnelle.
M ULTILEX a aussi dŽveloppŽ un standard linguistique pour la reprŽsentation dÕunitŽs lexicales
de langues europŽennes. Ce standard code lÕensemble maximal dÕinformations linguistiques
commun aux langues europŽennes.
4.1.
Architecture lexicale
Une base de donnŽes lexicales MULTILEX est un ensemble de dictionnaires monolingues et
bilingues. LÕarchitecture lexicale prŽvoit un dictionnaire monolingue par langue, et deux
dictionnaires bilingues unidirectionnels par couple de langues (voir figure 2.19.).
Language 1
Language 2
Language 3
Monolingual dictionary
Transfer dictionary
Figure 2.19Ê: LÕarchitecture lexicale de MULTILEX
Un dictionnaire est un ensemble dÕarticles. On ne trouve quÕun type dÕarticle par dictionnaire.
Un dictionnaire monolingue est un ensemble dÕentrŽes monolingues (unitŽs lexicales). La
structure dÕune unitŽ lexicale est dŽtaillŽe dans le paragraphe 4.2.1.
Un dictionnaire bilingue est un ensemble dÕunitŽs de transfert, reliant (de mani•re
uni-directionnelle) des entrŽes dÕune langue source aux entrŽes dÕune langue cible.
4.2.
Architecture linguistique
LÕarchitecture linguistique dŽfinit les objets de base dÕun dictionnaire et leurs relations. Le
mod•le Multilex ne restreint pas la liste des traits pour chaque langue. Aussi cette architecture
linguistique rŽgit-elle les relations entre des ensembles de traits linguistiques, plut™t quÕentre
de simples traits.
Cette architecture garantit la consistance du mod•le ˆ haut niveau, et ce, quelle que soit la
langue considŽrŽe.
Cette architecture fournit un squelette sur lequel les linguistes peuvent rŽpartir les
informations en utilisant des structures de traits. Un langage a ŽtŽ dŽfini pour permettre au
linguiste de spŽcifier les traits ˆ ajouter ˆ ce squelette pour un dictionnaire particulier.
4.2.1. Dictionnaires monolingues
Les articles dÕun dictionnaire monolingue sont basŽs sur un mod•le ˆ deux niveau, qui
garantit lÕindŽpendance entre, dÕune part, le comportement phonŽtique et graphique dÕun
mot, et, dÕautre part, les sens exprimŽs par ce mot.
Le premier niveau de description dÕune entrŽe est fourni par une GPMU (Graphic Phonologic
Morphological Unit). Ce GPMU est un triplet regroupant les comportements orthographiques,
phonologiques et morphologiques associŽs ˆ une forme canonique. Dans le cas des variantes
(ÒcolineauÓ, ÒcolinotÓ en fran•ais, ÒyoghurtÓ, ÒyogurtÓ, ÒyoghourtÓ en anglais), chaque forme
est reprŽsentŽe par une GPMU distincte.
Le second niveau de description est rŽalisŽ par les LU (Lexical Unit). Une LU identifie un sens
de mot dans une langue donnŽe.
Ainsi, diffŽrentes LU peuvent renvoyer ˆ une m•me GPMU (homonymie) et une LU peut •tre
liŽe ˆ diffŽrentes GPMU (variantes).
Les abrŽviations sont traitŽes comme des variantes dÕune entrŽe. Les mots composŽs sont
traitŽs comme les entrŽes simples. Ainsi, le terme ÒApplication Programming InterfaceÓ est
reprŽsentŽ par une seule LU, liŽe ˆ deux GPMUs (une pour lÕentrŽe standard, lÕautre pour son
abrŽviationÊ: ÒAPIÓ). La diffŽrence entre entrŽe composŽe et entrŽe simple se refl•te dans les
informations contenues dans la GPMU.
La GPMU dÕune entrŽe complexe (appelŽe CGPMU) contient elle aussi des informations
orthographiques, phonologiques et morphologiques, et de plus une rŽfŽrence aux
constituants de lÕentrŽe complexe (liens vers dÕautres GPMUs). Si nŽcessaire, elle contient
aussi des contraintes sur les diffŽrents constituants.
Ainsi, la CGPMU de ÒApplication Programming InterfaceÓ renvoie aux GPMUs de
ÒapplicationÓ, ÒprogrammingÓ et ÒinterfaceÓ. De plus, elle indique que le pluriel ne sÕapplique
quÕˆ ÒinterfaceÓ.
Une LU donne acc•s ˆ diffŽrents types dÕinformations (sous forme dÕensembles de traits).
Ainsi, une LU est reliŽe ˆ une et une seule unitŽ sŽmantique, une ou plusieurs unitŽs
syntaxiques et zŽro ou plusieurs unitŽs de transfert.
Un article de dictionnaire MULTILEX a donc la forme dŽcrite par la figure 2.20.
pragmatics
pragmatics
terminology
pragmatics
terminology
terminology
GPMU
GPMU
GPMU
definition
pragmatics
pragmatics
terminology Syntax
pragmatics
Syntax
terminology
example
Syntax
terminology
example
LU
Semantics/
terminology
example
pragmatics
example
Crossreferences
Transfer
Maintenance
record
Figure 2.20Ê: Vue gŽnŽrale dÕune LU (Lexical Unit) de MULTILEX
4.2.2. Dictionnaires de transfert
Une LU dÕun dictionnaire reprŽsente un sens dans une langue particuli•re. Les LUs et leur
organisation peuvent •tre diffŽrentes dÕune langue ˆ lÕautre. Elle sont nŽanmoins utilisŽes
comme point de dŽpart et point dÕarrivŽe pour des relations multilingues.
Dans lÕorganisation de MULTILEX , le multilinguisme est rŽalisŽ par une organisation multibilingue, par transfert, et unidirectionnelle.
4.2.2.1.
Multi-bilinguisme
Pour chaque LU dÕun dictionnaire monolingue, il est possible dÕassocier des LUs Žquivalentes
de diffŽrents autres dictionnaires monolingues (voir exemple de la figure 2.21.).
Chaque relation bilingue est codŽe et stockŽe indŽpendamment. On peut donc associer des
informations diffŽrentes ˆ chacune des relations bilingues. De plus, si diffŽrents Žquivalents
dÕune LU existent dans une autre langue, on crŽŽ une relation bilingue par Žquivalent (voir
exemple de la figure 2.21.).
DE "Fahrrad_lu"
EN "bicycle_lu"
EN "bike_lu"
EN "cycle_lu"
NL "fiets_lu"
NL "rijwiel_lu"
FR "bicyclette_lu"
FR "vŽlo_lu"
Figure 2.21Ê: Relations multi-bilingues de la LU allemande ÒFahrradÓ
4.2.2.2.
Approche par transfert
Les relations multilingues sont basŽes sur un mod•le par transfert. Chaque dictionnaire
monolingue dŽcrit ses LUs suivant des crit•res monolingues, et le transfert donne des moyens
de passer dÕinformations issues du dictionnaires source ˆ des informations utilisable pour la
langue cible.
Les Žquivalences bilingues contiennent des informations contrastives entre la LU source et la
LU cible. Ces informations contiennent notamment des indications sur les diffŽrence de sens
entres les LUs, des conditions syntaxiques sur lÕapplication de la correspondance et des
transformations ˆ appliquer pour effectuer le transfert.
4.2.2.3.
Approche unidirectionnelle
Une relation bilingue est principalement constituŽe de deux partiesÊ: une condition syntaxique
dÕapplication et une transformation ˆ appliquer aux informations de la langue source pour
obtenir une structure valide en langue cible.
Il nÕest pas possible, dans le cas gŽnŽral, dÕinverser cette relation. En effet, sÕil est possible
(dans certains cas) dÕinverser la transformation donnŽe, on ne peut dŽduire des informations
prŽsentes les conditions syntaxiques ˆ appliquer ˆ lÕentrŽe en langue cible pour sŽlectionner
le transfert inverse.
Le mod•le de MULTILEX est donc fortement unidirectionnel.
4.3.
Architecture logicielle
Parall•lement aux standards linguistiques, Multilex a dŽveloppŽ des standards informatiques
pour lÕimplŽmentation de bases lexicales multilingues. Ces standards rŽgissent le format
dÕŽchange des donnŽes, lÕarchitecture lexicale ˆ adopter et lÕensemble des outils ˆ construire
pour la maintenance dÕune base lexicale multilingue.
Les outils se conformant ˆ ces standards peuvent le faire selon plusieurs niveaux, le minimum
requis Žtant lÕutilisation du format dÕŽchange des donnŽesÊ: MLEXd.
Cette architecture logicielle ressemble ˆ lÕarchitecture logicielle dŽfinie plus avant dans cette
th•se, car, lors de ma premi•re annŽe de th•se, jÕai collaborŽ au projet MULTILEX.
LÕarchitecture logicielle que jÕai proposŽe a ŽtŽ retenue par le consortium. Celle proposŽe
dans ce travail en est la version suivante.
Visualisation de
l'information linguistique
Niveau présentation
Niveau interne
<item>
<word-sens>
<lu>
<gr-canon> ballast
<homograph-number> 0
<meaning-number> 1
<gpmu-id>
<gr-canon> ballast
<meaning-number> 1
<syntactic-description> …
Niveau base de données
Système de
Gestion de Bases
de Données
Manipulation de
l'information linguistique
Stockage des
informations
Figure 2.22Ê: Architecture logicielle dÕun syst•me de gestion de bases lexicales selon MULTILEX
LÕarchitecture logicielle MULTILEX distingue fortement les probl•mes de stockage, de
manipulation, et de visualisation des donnŽes. Elle est basŽe sur trois niveauxÊ:
- niveau base de donnŽesÊ: ce niveau est en charge du stockage effectif des donnŽes.
DiffŽrents syst•mes relationnels de gestion de bases de donnŽes peuvent •tre utilisŽs ˆ
ce niveau, qui est invisible pour lÕutilisateur.
- niveau interneÊ: ce niveau est en charge des diffŽrentes manipulations sur les donnŽes
des entrŽes de dictionnaires. CÕest ˆ ce niveau que les diffŽrents outils dÕun syst•me de
gestion de bases lexicales op•rent. Pour ce niveau, MULTILEX conseille dÕutiliser des
structures de traits typŽs.
- niveau prŽsentationÊ: ce niveau est en charge de la prŽsentation des informations ˆ
lÕutilisateur. Cette prŽsentation nÕest pas nŽcessairement proche de la structure interne
utilisŽe. De plus, il peut •tre possible de proposer diffŽrentes prŽsentation dÕune m•me
information pour diffŽrents utilisateurs ou diffŽrents buts.
Cette architecture est illustrŽe par la figure 2.22.
Multilex a aussi dŽfini un ensemble dÕoutils standard pour un syst•me de gestion de bases
lexicales multilingues. Ces diffŽrents outils manipulent les donnŽes linguistiques au niveau
interne et interagissent avec lÕutilisateur au niveau externe.
Les outils ainsi dŽfinis sont les suivantsÊ:
- ƒditeurÊ: lÕŽditeur permet dÕŽditer ou de modifier des entrŽes du dictionnaire. Pour cela,
il doit offrir des fonction de navigation ˆ lÕintŽrieur de la base lexicale. Afin de permettre
lÕŽdition et la modification des entrŽes, lÕensemble des informations linguistiques doit
•tre prŽsentŽ ˆ lÕutilisateur.
- NavigateurÊ: le navigateur permet de consulter la base lexicale. Il doit permettre
diffŽrentes prŽsentations suivant les motivations de lÕutilisateur. Il nÕest pas nŽcessaire
que les prŽsentations refl•tent la totalitŽ des informations linguistiques associŽes ˆ une
entrŽe. ƒventuellement, lÕoutil donnera un moyen ˆ lÕutilisateur de spŽcifier sa propre
prŽsentation.
- VŽrificateur de cohŽrenceÊ: cet outil permet de vŽrifier des r•gles de cohŽrence
dŽfinies par lÕutilisateur. Lorsque certaines de ces r•gles sont violŽes, le vŽrificateur le
signale ˆ lÕutilisateur. Cet outil permet la vŽrification de cohŽrence ˆ lÕintŽrieur dÕun
article, la cohŽrences entre articles dÕun m•me dictionnaire, et la cohŽrence entre articles
de diffŽrents dictionnaires.
- DŽfauteurÊ: cet outil permet de complŽter des entrŽes incompl•tes. Cet complŽtion peut
avoir lieu a posteriori sur des entrŽes dŽjˆ prŽsentes dans le dictionnaire, ou
interactivement afin dÕaccŽlŽrer le processus dÕŽdition. Cet outil utilise des r•gles de
valeurs par dŽfaut dŽfinies par un linguiste.
- Import/exportÊ: cet outil gŽn•re et accepte des fichiers MLEXd reflŽtant la structure
linguistique des entrŽes du dictionnaire. Le format MLEXd est un format basŽ sur SGML,
codant des structures de traits.
III.
Les problèmes intéressants
Chacun des syst•mes ŽtudiŽs prŽcŽdemment prŽsente des particularitŽs tr•s intŽressantes et il
serait sans doute vain de prŽtendre proposer un n+1•me standard ˆ ajouter ˆ la collection.
Notre but nÕest donc pas dÕintroduire un nouveau formalisme rŽvolutionnaire, ou de donner
de nouvelles mŽthodes de codage dÕinformations linguistiques.
Il nous semble plus intŽressant de tenter dÕunifier ou de gŽnŽraliser certaines solutions
existantes ou originales, dans un domaine o• les cožts incitent ˆ un partage du travail.
Cette volontŽ dÕunification signifie quÕˆ terme il doit •tre possible de construire un outil qui
permette au moins le codage de chacun des projets ŽtudiŽs prŽcŽdemment. Dans ce contexte,
les probl•mes les plus intŽressants se situent au niveau de lÕarchitecture lexicale, de
lÕarchitecture linguistique, et de la prŽsentation de lÕinformation.
1.
Architecture lexicale
LÕarchitecture lexicale dÕune base lexicale dŽfinit lÕensemble des dictionnaires quÕelle contient,
leurs types et leurs relations. Elle rŽgit donc, notamment, la mani•re dont est rŽalisŽ le
multilinguisme.
Lors de lÕŽtude des projets passŽs ou en cours, nous avons distinguŽ plusieurs architectures
lexicales. Pour MULTILEX , le multilinguisme est rŽalisŽ par la combinaison de dictionnaires
monolingues et bilingues. Pour EDR, le multilinguisme est rŽalisŽ ˆ la fois par des
dictionnaires bilingues et par un dictionnaire interlingue de concepts.
En Žtudiant non seulement les projets de bases lexicales, mais aussi les projets de traduction
automatique, on sÕaper•oit que les approches bilingues et interlingues sÕopposent bien
souvent.
LÕapproche bilingue (figure 3.1.) se base sur un ensemble de dictionnaires bilingues pour
Žtablir les liens entre des entrŽes de deux langues diffŽrentes. Ces dictionnaires bilingues se
prŽsentent comme un ensemble de liens entre des entrŽes des langues source et cible.
Chacun de ces liens porte des informations linguistiques qui permettent de coder des
phŽnom•nes particuliers entre les langues sources et cibles.
Le principe gŽnŽral de cette approche dŽcoule des travaux sur les syst•mes de traduction
automatique basŽs sur le transfert.
L1
L2
L3
L6
L5
L4
Dictionnaire monolingue
Dictionnaire bilingue
Figure 3.1Ê: Une base lexicale basŽe sur lÕapproche bilingue
LÕapproche interlingue (figure 3.2) utilise un langage artificiel intermŽdiaire (appelŽ
interlangue et employŽ comme langage pivot) pour rŽaliser le lien entre les langues.
Les unitŽs, gŽnŽralement sŽmantiques, des langues de la base peuvent •tre reprŽsentŽes par
cette interlangue, indŽpendamment de la langue de lÕentrŽe. Aussi une interlangue doit-elle
avoir son propre lexique et son propre ensemble dÕattributs et de relations.
Une interlangue doit •tre dŽfinie en rŽfŽrence ˆ un certain ensemble de langues naturelles, ˆ
moins quÕun univers de rŽfŽrence fixe (ontologie) ne soit reprŽsentŽ de mani•re autonome
dans la machine.
Une interlangue consiste en deux parties distinctesÊ: un lexique et un ensemble dÕattributs et
de relations.
La premi•re partie dÕune interlangue est le lexique, qui doit •tre suffisamment complet pour
reprŽsenter les diffŽrents sens des mots trouvŽs dans lÕensemble des langues considŽrŽes.
Comme une interlangue est dŽfinie pour Žtablir un lien entre les langues, ce lexique
interlingue doit fournir un lien lexical entre les mots dans diffŽrentes langues. Aussi, deux
sens Žquivalents de diffŽrentes langues doivent-ils •tre reliŽs ˆ une seule unitŽ interlingue.
HŽlas, il nÕy a pas nŽcessairement correspondance directe entre les sens des mots de
diffŽrentes langues. Prenons lÕexemple des mots fran•ais ÒfleuveÓ et Òrivi•reÓ (dans leur sens
concret le plus commun). Ces deux mots sont traduits en anglais par le mot ÒriverÓ (dans son
sens le plus commun). Les deux mots fran•ais ont deux sens diffŽrentsque lÕanglais ne
distingue pas. Un lien doit donc •tre Žtabli entre ces sens dans le lexique interlingue. Par
contre, cette distinction nÕest pertinente que si lÕon va de lÕanglais vers le fran•ais. Dans un
contexte de traduction anglais-japonais, cette distinction nÕa pas lieu dÕ•tre, puisque le mot
japonais ÒkawaÓ recouvre le m•me sens que le mot anglais ÒriverÓ.
La seconde partie de lÕinterlingue est lÕensemble de ses attributs et relations. Cet ensemble
dÕattributs et de relations doit •tre suffisamment complet pour permettre de coder les aspects
linguistiques de toutes les langues considŽrŽes.
Cette partie nÕest pas simple ˆ dŽfinir, m•me si des Žtudes linguistiques fondamentales
produisent de plus en plus de ÒmicrothŽoriesÓ interlingues ou universelles (selon les termes
de [Nirenburg & Defrise 1990a]) pour des phŽnom•nes linguistiques, tels que lÕaspect, le
temps, la modalitŽ, etc. qui, 20 ans plus t™t, semblaient ne pouvoir •tre dŽcrits que par
rŽfŽrence ˆ une langue.
L1
L6
L2
I
L5
L3
L4
Dictionnaire monolingue
Dictionnaire interlingue
Figure 3.2Ê: Une base lexicale basŽe sur lÕapproche interlingue.
La critique la plus courante de lÕapproche par transfert porte sur le nombre de dictionnaires ˆ
dŽfinirÊ: le nombre de dictionnaires bilingues thŽorique est fonction du carrŽ du nombre de
dictionnaires monolingues. Si nm est le nombre de dictionnaires monolingues, et nb le
nombre de dictionnaires bilingues, on a:
nmÊ(nmÊ-Ê1)
nbÊ=Ê
2
Ce nombre est multipliŽ par deux lorsque lÕon utilise des dictionnaires bilingues
unidirectionnels.
Ce calcule se base sur lÕhypoth•se que tous les couples de langues doivent •tre prŽsents et
que la charge de traduction est rŽpartie de mani•re uniforme entre les langues. Or, m•me ˆ
lÕUnion EuropŽenne, qui est considŽrŽe comme lÕorganisme travaillant dans le contexte la
plus multilingue (9 langues), lÕeffort de traduction nÕest pas rŽparti de mani•re uniforme parmi
les langues, les principales Žtant lÕallemand, lÕanglais, et le fran•ais.
Aussi, lÕapproche par transfert est la plus utilisŽe ˆ lÕheure actuelle. En effet, la plupart des
projets ne se situent pas dans les hypoth•ses retenues pour effectuer le calcul prŽcŽdent.
Dans la plupart des cas, ces projets nÕont quÕune ou deux langues sources. Dans dÕautres cas,
il est possible de passer par un ensemble de langues intermŽdiaires qui agissent comme des
pivots. Dans ce cas, le nombre de dictionnaire augmente de mani•re linŽaire et non plus
quadratique.
Pour sa part, la mŽthode interlingue permet de rŽduire le nombre de liens. En effet, il suffit de
construire un lien entre chaque dictionnaire monolingue et le dictionnaire interlingue. On a
ainsi une connectivitŽ beaucoup plus rŽduite que dans lÕapproche bilingue.
Mais cet avantage se paie en complexitŽ puisque ces liens sont beaucoup plus difficiles ˆ
gŽrer. En effet, lÕajout dÕune entrŽe dans une langue peut remettre en cause les entrŽes du
dictionnaire interlingue (et donc certains liens allant vers les autres langues). Il est tr•s difficile
dÕŽvaluer la complexitŽ qui se rajoute lorsque lÕon utilise cette approche. De plus, on ne sait si
la complexitŽ de crŽation dÕune base interlingue nÕaugmente pas de mani•re quadratique avec
le nombre de langue. Des expŽrimentations ont ŽtŽ conduites ˆ une echelle suffisante au
CICC (environ 50Ê000 mots de base et 25Ê000 termes techniques en japonais, chinois, malais,
indonŽsien et thai [Yaoliang & zhendong 1991]), mais on nÕen trouve pas les rŽsultats en
termes de difficultŽs de dŽveloppement de lÕinterlingue.
En partant de lÕhypoth•se selon laquelle le dŽveloppement dÕun dictionnaire interlingue
nÕaugment pas de mani•re quadratique avec la nombre de langue et en se pla•ant dans un
contexte tr•s fortement multilingue, on consid•re habituellement quÕune telle approche est
justifiŽe lorsque lÕon veut construire des bases lexicales comportant plus de huit langues
([Boitet 1988a, Boitet 1990a]).
Ë lÕheure actuelle, la majoritŽ des projets utilisant lÕapproche interlingue se basent sur une
connaissance du monde (ontologie). Aussi, il est assez difficile de distinguer les probl•mes
entra”nŽs par le choix dÕune approche multilingue et ceux entra”nŽs par une reprŽsentation
des connaissances.
LÕoutil gŽnŽrique de gestion de bases lexicales multilingues (SUBLIM) dŽfini dans cette th•se
donne au linguiste le moyen de dŽfinir son architecture lexicale en dŽclarant explicitement
lÕensemble des dictionnaires prŽsents dans sa base.
La derni•re partie de cette th•se propose dans ce cadre une nouvelle approche interlingue ne
faisant pas appel ˆ un mod•le par connaissances.
2.
Architecture linguistique
LÕarchitecture linguistique dÕune base lexicale dŽfinit la mani•re dont sont codŽes les entrŽes
des dictionnaires quÕelle contient. Elle rŽgit donc, notamment, les structures logiques qui
seront utilisŽes dans le codage des informations linguistiques.
Lors de lÕŽtude des efforts en cours, nous avons pu constater la multitude des choix qui se
posent lorsque lÕon veut reprŽsenter des informations linguistiques dans un dictionnaire.
De plus, on ne souhaite pas forcŽment reprŽsenter les m•mes informations. Une base lexicale
voudra reprŽsenter toutes les informations morphologiques, syntaxiques et sŽmantiques alors
quÕune autre se contentera de reprŽsenter la morphologie.
Les difficultŽs linguistiques ne sÕarr•tent pas lˆ. D•s le niveau morphologique, que lÕon
consid•re comme le plus simple et le plus mžr, on est confrontŽ ˆ des probl•mes dus ˆ
lÕorganisation du dictionnaire et aux difficultŽ inhŽrentes de la langue (quÕest-ce quÕune
entrŽe, puis-je avoir un espace dans une entrŽe, puis-je coder des expressions compl•tes,
vais-je utiliser des tables pour coder la morphologie, ou bien un automateÉ). Ces m•mes
probl•mes se retrouvent ˆ tous les niveaux.
Ë ces difficultŽs linguistiques sÕajoutent les probl•mes dus ˆ lÕoutil choisi pour gŽrer la base
lexicale. En effet, si lÕon souhaite rŽutiliser les outils de MULTILEX, il faut coder toutes les
structures linguistiques avec la seule structure logique que propose M ULTILEXÊ: les structures
de traits. De la m•me mani•re, lÕutilisation des outils de Genelex oblige lÕadoption dÕune
structure entitŽs-attributs-relations. Certes, ces structures sont adaptŽes ˆ certaines thŽories
linguistiques, mais un outil ne doit pas prŽjuger des thŽories qui seront retenues par les
linguistes.
Il existe une tr•s importante variŽtŽ de structures logiques utilisŽes dans certains dictionnaires.
Parmi ces structures, on peut citer les ensembles dÕattributs (EDR), les automates dÕŽtats finis
(LADL), les graphes (G ENELEX ), les structures de traits (MULTILEX), les arbres ŽtiquetŽs (Le
Lexicaliste), les termes Prolog (ULTRA)É
Stuart M. Shieber [Shieber 1986] a dŽfini trois crit•res dÕŽvaluation des formalismes
grammaticaux. LÕun de ces crit•res est pertinent dans le contexte des bases lexicalesÊ:
- FŽlicitŽ linguistiqueÊ: le degrŽ auquel les descriptions de phŽnom•nes linguistiques
peuvent •tre exprimŽes, directement ou indirectement, de la mani•re o• le linguiste
voudrait les exprimer.
Il est possible de coder une structure linguistique en utilisant nÕimporte quelle structure
logique particuli•re. NŽanmoins, ce codage nÕest, bien souvent, ni naturel, ni pratique. De
plus, il est souvent difficile de trouver une structure logique qui permette un codage naturel
de la totalitŽ des phŽnom•nes linguistiques que lÕon veut coder dans le dictionnaire. Aussi, il
est difficile de satisfaire au crit•re de Shieber avec un syst•me ne proposant quÕun type de
structure logique.
LÕoutil gŽnŽrique de gestion de bases lexicales multilingues (SUBLIM) dŽcrit dans cette th•se
propose donc au linguiste une grande variŽtŽ de structures logiques. Ainsi, il peut choisir la
structure logique quÕil juge la plus adaptŽe ˆ sa thŽorie linguistique. Il peut m•me coder des
unitŽs lexicales en utilisant diffŽrentes structures logiques.
3.
Présentation de l’information
Les informations lexicales ont certaines particularitŽsÊ:
- cette information (parfois tr•s complexe) est spŽcifiŽe, rentrŽe et utilisŽe par des
linguistes non spŽcialisŽs en informatique,
- elle peut •tre utilisŽe ˆ des buts tr•s variŽs comme lÕapprentissage dÕune langue, la
consultation dÕune dŽfinition, la synth•se de parole, la Traduction AutomatiqueÉ
- les performances des syst•mes automatiques sont directement reliŽes aux informations
lexicales quÕils utilisent, ce qui rend cruciales les probl•mes de maintenance et de
correction,
- la taille dÕune base lexicale est telle quÕelle nŽcessite plusieurs personnes pour
lÕindexage et la maintenance de cette information,
Tous ces facteurs demandent donc une prŽsentation de cette information qui la rende facile
dÕacc•s ˆ des fins de maintenance, alors que cette information est, en gŽnŽral, structurŽe pour
un usage automatique.
Ce probl•me est crucial lorsquÕon laisse le linguiste libre dans le choix de ses structures. En
effet, certaines structures, tr•s appropriŽes pour une utilisation informatique, sont tr•s
difficiles ˆ prŽsenter, ˆ lire et ˆ comprendre. Ainsi, sÕil est aisŽ de manipuler une structure
dÕautomate reprŽsentŽe sous forme graphique, cela est beaucoup plus complexe si on
souhaite la reprŽsenter sous une forme textuelle, en donnant par exemple la liste de ses arcs
ou de ses nÏuds.
Cet Žtat de fait rend difficile le repŽrage dÕerreurs Žventuelles et leur correction. Il faut donc
trouver un moyen de contr™ler la mani•re dont est prŽsentŽe lÕinformation.
De plus, le mŽcanisme de prŽsentation doit •tre suffisamment gŽnŽral pour permettre de
masquer la structure interne de lÕinformation lexicale.
Enfin, cette information peut •tre accŽdŽe pour diffŽrents usages. Dans certains cas, le
lexicographe veut consulter lÕensemble des informations dÕune entrŽe pour en vŽrifier la
cohŽrence. Dans dÕautre cas, il veut avoir une liste des entrŽes qui satisfont ˆ un crit•re ou qui
ont ŽtŽ classŽes par un tri. Dans ce cas, le lemme et la catŽgorie sont les seules informations
qui lÕintŽressent. Il est donc important de pouvoir dŽfinir diffŽrentes prŽsentations de
lÕinformation.
LÕoutil gŽnŽrique de gestion de bases lexicales multilingues (SUBLIM) dŽcrit dans cette th•se
propose au linguiste un moyen de dŽfinir diffŽrentes prŽsentations de lÕinformation. Cet outil
permet doncÊ:
- de contr™ler la vue que lÕon a de la structure interne,
- dÕabstraire les informations linguistiques de leur codage informatique,
- de dŽfinir diffŽrentes vues dÕune m•me structure, selon lÕusage que lÕon fait de la base
lexicale.
Conception d'une base lexicale
multilingue multiapplications
Introduction
Comme nous lÕavons constatŽ dans la partie prŽcŽdente, la diversitŽ des solutions
envisageables pour structurer une base lexicale, pour structurer une entrŽe du lexique ou
pour prŽsenter les informations linguistiques ˆ lÕutilisateur rend impossible le choix a priori
dÕune solution linguistique satisfaisant lÕensemble des utilisateurs.
Pourtant, les projets ŽtudiŽs on souvent fait des choix restrictifs pour lÕutilisation de leurs
outils dans lÕimplŽmentation de bases lexicales variŽes.
Le projet MULTILEX a pourtant donnŽ au linguiste un langage lui permettant de dŽfinir les traits
quÕil souhaite coder dans son dictionnaire. NŽanmoins, il ne peut utiliser que des structures de
traits pour coder une thŽorie linguistique. Or, nous avons vu que de nombreuses autres
structures logiques sont effectivement utilisŽesÊ: graphes (GENELEX), automates (LADL), arbres
(Le Lexicaliste)É
Certains diront quÕil est tout ˆ fait possible de coder ces structures logiques avec des structures
de traits. Cet argument est techniquement exact, mais ergonomiquement non fondŽ. En effet,
ce type dÕoutil doit offrir au linguiste un niveau suffisant dÕabstraction pour quÕil nÕait pas ˆ se
prŽoccuper dÕun codage supplŽmentaire de lÕinformation.
De plus, les projets existants ont figŽ lÕarchitecture lexicale considŽrŽe. Il nÕest donc pas
possible dÕutiliser leurs rŽsultats pour expŽrimenter de nouvelles architectures lexicales.
Enfin, rares sont les projets qui se sont attachŽs au probl•mes de la visualisation de
lÕinformation. Le langage de dŽfinition des traits linguistiques de MULTILEX , par exemple,
permet de paramŽtrer le placement des ŽlŽments de la structures dans les Žcrans de saisie,
mais il ne permet pas de visualiser la structure linguistique en faisant abstraction de sa
reprŽsentation interne (structure de traits).
On veut donc construire un outil gŽnŽrique permettant de crŽer de nombreuses instances de
bases lexicales qui ne seront pas forcŽment basŽes sur une m•me architecture lexicale, qui ne
se fonderont pas sur la m•me thŽorie linguistique, qui nÕutiliseront pas les m•mes structures
logiques et o• les informations ne seront pas visualisŽes de la m•me mani•re.
Aussi, nous avons choisi de travailler ˆ la crŽation de SUBLIM , un outil qui permettra au
linguiste de crŽer et de gŽrer une base lexicale pour laquelle il a, au prŽalable, dŽclarŽÊ:
- les dictionnaires quÕelle contientÊ: ces dictionnaires peuvent •tre monolingues, bilingues
ou interlingues,
- pour chaque dictionnaire, quelles sont les structures quÕil contientÊ: ces structures
linguistiques peuvent •tre exprimŽes en utilisant diffŽrentes structures logiques de base
(arbres, graphes, structures de traits, automatesÉ) que lÕon peut composer.
- pour chaque dictionnaire et pour chaque structure, la (ou les) mani•re(s) de les
prŽsenter.
Dans cette partie, nous prŽsentons les principes et lÕimplŽmentation de cet outil. Nous
commencerons par la partie concernant la dŽfinition des architectures lexicales, pousuivrons
par celle concernant la dŽfinition de lÕarchitecture linguistique, et finirons par lÕarchitecture
logicielle et les outils de gestion de la base lexicale.
IV.
1.
Définition d’une base lexicale multilingue
Définition de l’architecture lexicale
Lorsque lÕon veut implŽmenter une base lexicale multilingue, la premi•re dŽcision ˆ prendre
concerne lÕarchitecture lexicale. Cette architecture lexicale dŽfinit les dictionnaires de la base
et le type de chacun. Ces dictionnaires peuvent •tre monolingues, bilingues ou interlingues.
LÕinformation linguistique qui est associŽe aux unitŽs lexicales nÕa pas ˆ •tre connue ˆ ce
niveau. Aussi, nous donnerons au linguiste un moyen de dŽfinir lÕensemble et le type des
dictionnaires de la base. La dŽfinition formelle des unitŽs du lexique se fera dans la section
suivante.
Nous allons voir comment SUBLIM permet de dŽclarer lÕarchitecture lexicale de trois bases
diffŽrentes. Pour chacun de ces exemples, nous dŽcrirons dÕabord lÕarchitecture lexicale en
langue naturelle, puis nous la dŽfinirons formellement en utilisant le langage spŽcialisŽ
LE X A R D . Enfin, nous montrerons comment cette dŽfinition se traduit en termes
dÕimplŽmentation.
1.1.
Exemples
1.1.1. Une architecture bilingue
Le premier exemple montre comment dŽfinir lÕarchitecture lexicale dÕune base lexicale fondŽe
sur lÕapproche bilingue. Pour cet exemple, nous nous inspirons de lÕarchitecture lexicale des
bases MULTILEX. La dŽfinition de cette architecture lexicale se ferra dans un fichier nommŽ
<nom de la base>.LEX.
La base lexicale que nous souhaitons dŽfinir comprend 5 dictionnaires monolingues (anglais,
fran•ais, italien, allemand et nŽerlandais). Ces 5 dictionnaires sont reliŽs par 20 dictionnaires
bilingues unidirectionnels (voir figure 4.1.).
Les unitŽs lexicales des dictionnaires monolingues sont des unitŽs sŽmantiques. Les
dictionnaires bilingues contiennent un ensemble de liens entre les unitŽs du dictionnaire
source et une ou plusieurs unitŽs du dictionnaire cible.
Pour dŽfinir lÕarchitecture lexicale de cette base, le linguiste commence par dŽfinir chacun de
ses dictionnaires. Pour ce faire, il utilise un langage dont la syntaxe Ònoyau2 Ó est en LISP.
Fran•ais
Anglais
Italien
NŽerlandais
Allemand
Dictionnaire monolingue
Dictionnaire bilingue unidirectionnel
Figure 4.1Ê: Base lexicale quintilingue fondŽe sur une approche bilingue unidirectionnelle
La dŽfinition des dictionnaires monolingues se fait gr‰ce ˆ la fonctionÊ:
define-monolingual-dictionary name Keywords*
o• name est un symbole dŽfinissant le dictionnaire de mani•re unique ˆ lÕintŽrieur de la base.
Les Keywords dŽfinissent certains renseignements indispensables pour la gestion du
dictionnaire. Ces mots-clŽs apparaissent comme une liste de couples attribut-valeur. LÕattribut
est notŽ avec un Ò:Ó au dŽbut du nom.
Voyons par exemple la dŽfinition du dictionnaire monolingue fran•ais de la base lexicale
dŽcrite prŽcŽdemmentÊ:
(define-monolingual-dictionary french
:language "Français"
:owner
"GETA"
)
Ainsi, le dictionnaire monolingue fran•ais sera nommŽ de mani•re univoque par le symbole
french dans lÕensemble de la base. LÕattribut :language dŽfinit la langue du dictionnaire.
Cette information est utile pour lÕinterface. LÕattribut :owner dŽfinit le propriŽtaire du
dictionnaire. Cet attribut est optionnel.
Les autres dictionnaires monolingues sont dŽfinis de la m•me mani•re.
Apr•s avoir dŽfini lÕensemble des dictionnaires monolingues, le linguiste peut dŽfinir, de
mani•re analogue, les dictionnaires bilingues unidirectionnels, gr‰ce ˆ la fonctionÊ:
define-bilingual-dictionnary name Keywords*
o• name est un symbole dŽfinissant le dictionnaire de mani•re unique ˆ lÕintŽrieur de la base.
2 Mathieu Lafourcade propose une nouvelle définition du terme langage. Ses travaux sur les langages multi-dialectes
[Gaschler & Lafourcade 1994a, Lafourcade 1994b] nous amènent à considérer un langage non pas par rapport à sa
syntaxe (qui peut être multiple), mais par rapport à sa sémantique (qui, elle, est fixe). Ce genre de langage utilise une
syntaxe privilégiée (appelée syntaxe noyau) qui sert à illustrer ses fonctionnalités. C’est cette syntaxe que nous
utiliserons pour présenter nos travaux, sachant que cette syntaxe ne sera pas celle utilisée par le linguiste.
Ainsi, la dŽfinition du dictionnaire fran•ais-anglais se fera de la mani•re suivante (en
admettant que le dictionnaire monolingue anglais a ŽtŽ nommŽ english)Ê:
(define-bilingual-dictionary french-english
:type
unidirectionnal
:source french
:target english
:owner "GETA")
Ainsi, le dictionnaire bilingue fran•ais-anglais sera nommŽ de mani•re univoque par le
symbole french-english dans lÕensemble de la base. LÕattribut :type dŽfinit le type du
dictionnaire bilingue. Le dictionnaire bilingue peut •tre unidirectionnel ou bidirectionnel. Les
attributs :source et :target ne sont pertinents que dans le cas de dictionnaires bilingues
unidirectionnels. Ils sont obligatoires dans ce cas. En effet, les structures linguistiques dŽfinies
dans ce dictionnaire pourront utiliser ou se rŽfŽrer ˆ des structures utilisŽes dans les
dictionnaires source et cible. Dans le cas dÕun dictionnaire bidirectionnel, ces attributs sont
remplacŽs par lÕattribut :links qui prend pour valeur une liste de dictionnaires.
Finalement, la dŽfinition de ces diffŽrents dictionnaires se fait dans le cadre de la dŽfinition
dÕune base lexicale multilingue particuli•re. Cette base lexicale est dŽfinie gr‰ce ˆ la fonctionÊ:
define-lexical-database name Keywords*
o• name est un symbole dŽfinissant de mani•re unique la base lexicale.
Ainsi, notre base lexicale multilingue se dŽfinit parÊ:
(define-lexical-database MULTILEX-like-database
:owner
"GETA"
:comment "Une base lexicale fondée sur une approche bilingue"
:dictionaries
(french english german dutch italian
french-english french-german french-italian french-dutch
...
))
Notre base lexicale se nomme donc MULTILEX-like-database. Nous lui avons attribuŽ un
commentaire (une cha”ne de caract•res) et une liste de dictionnaires (ceux que nous avions
dŽfinis auparavant).
1.1.2. Une architecture interlingue
Notre deuxi•me exemple montre comment dŽfinir lÕarchitecture lexicale dÕune base lexicale
basŽe sur lÕapproche interlingue. Cette architecture lexicale est inspirŽe de lÕarchitecture
lexicale du syst•me ULTRA [Farwell, Guthrie & Wilks 1993].
La base lexicale que nous souhaitons dŽfinir comprend 5 dictionnaires monolingues (anglais,
chinois, japonais, espagnol et allemand). Ces 5 dictionnaires sont reliŽs par un dictionnaire
interlingue (voir figure 4.2).
Les unitŽs lexicales des dictionnaires monolingues sont des unitŽs sŽmantiques. Le
dictionnaire interlingue contient un ensemble dÕunitŽs interlingues appelŽes IR.
La dŽfinition des dictionnaires monolingues se fait exactement de la m•me mani•re que dans
lÕexemple prŽcŽdentÊ:
(define-monolingual-dictionary english
:language "English"
:owner
"CRL-NMSU")
La dŽfinition du dictionnaire interlingue se fait gr‰ce ˆ la fonctionÊ:
define-interlingual-dictionary name Keywords*
o• name est un symbole dŽfinissant de mani•re unique le dictionnaire pour lÕensemble de la
base.
Ainsi, la dŽfinition du dictionnaire interlingue se fera de la mani•re suivanteÊ:
(define-interlingual-dictionary IR
:owner "CRL-NMSU"
:links (english chinese japanese german spanish))
Chinese
Spanish
English
IR
Japanese
German
Dictionnaire monolingue
Dictionnaire interlingue
Figure 4.2Ê: Base lexicale quintilingue fondŽe sur une approche interlingue
Le dictionnaire interlingue sera nommŽ de mani•re univoque par le symbole I R dans
lÕensemble de la base. LÕattribut :links dŽfinit lÕensemble des dictionnaires monolingues
reliŽs par le dictionnaire interlingue IR. La structure linguistique portŽe par les unitŽs des
dictionnaires interlingues peut donc utiliser ou se rŽfŽrer ˆ des structures dŽfinies dans chacun
des dictionnaires monolingues.
La base lexicale elle-m•me se dŽfinit comme auparavantÊ:
(define-lexical-database ULTRA
:owner
"CRL-NMSU"
:comment "Une base lexicale fondée sur une approche interlingue"
:dictionaries
(english german spanish japanese chinese IR))
1.1.3. Une architecture mixte
Notre dernier exemple montre comment dŽfinir lÕarchitecture lexicale dÕune base lexicale
basŽe ˆ la fois sur une approche bilingue et sur une approche interlingue. Cette architecture
lexicale est inspirŽe de lÕarchitecture lexicale du projet EDR [EDR 1993].
Concept
Dictionary
japonais
anglais
Dictionnaire monolingue
Dictionnaire interlingue
Dictionnaire bilingue unidirectionnel
Figure 4.3Ê: Base lexicale anglais-japonais fondŽe sur une approche mixte
La base lexicale que nous souhaitons dŽfinir comprend 2 dictionnaires monolingues (anglais
et japonais). Ces 2 dictionnaires sont reliŽs ˆ la fois par deux dictionnaires monolingues
unidirectionnels et par un dictionnaire interlingue (voir figure 4.3.).
Les unitŽs lexicales des dictionnaires monolingues sont des unitŽs sŽmantiques. Le
dictionnaires interlingue contient un ensemble dÕunitŽs interlingues appelŽes concepts. Les
dictionnaires bilingues contiennent un ensemble de liens reliant les unitŽs du dictionnaire
source ˆ des unitŽs du dictionnaire cible.
La dŽfinition des dictionnaires monolingues se fait exactement de la m•me mani•re que dans
les exemples prŽcŽdentsÊ:
(define-monolingual-dictionary english
:language "English"
:owner
"EDR")
Le dictionnaire interlingue se dŽfinit exactement comme dans lÕexemple prŽcŽdentÊ:
(define-interlingual-dictionary concept-dictionary
:owner "EDR"
:links (english japanese))
Les dictionnaires bilingues se dŽfinissent exactement comme les dictionnaires du premier
exemple :
(define-bilingual-dictionary japanese-english
:type
unidirectionnal
:source japanese
:target english
:owner "EDR")
Et la base elle-m•me se dŽfinit comme dans les exemples prŽcŽdentsÊ:
(define-lexical-database EDR
:owner
"EDR"
:comment "Une base lexicale fondée sur une approche mixte"
:dictionaries
(english japanese concept-dictionary))
1.2.
Le langage de définition de l’architecture lexicale : LEXARD
Le langage LEXARD permet de dŽfinir une base lexicale. La dŽfinition dÕune base lexicale passe
par la crŽation de ses ŽlŽmentsÊ: les dictionnaires. LEXARD offre trois types de dictionnairesÊ:
- dictionnaires monolingues,
- dictionnaires bilingues,
- dictionnaires interlingues.
La dŽfinition des dictionnaires monolingues se fait gr‰ce ˆ la fonctionÊ:
define-monolingual-dictionary name Keywords*
o• name est un symbole dŽfinissant de mani•re unique le dictionnaire pour lÕensemble de la
base. Les Keywords dŽfinissent des renseignements indispensables pour la gestion du
dictionnaireÊ:
:owner string
spŽcifie le propriŽtaire du dictionnaire.
:language string
spŽcifie la langue du dictionnaire.
La dŽfinition des dictionnaires bilingues se fait gr‰ce ˆ la fonctionÊ:
define-bilingual-dictionnary name Keywords*
o• name est un symbole dŽfinissant le dictionnaire de mani•re unique ˆ lÕintŽrieur de la base.
:owner string
spŽcifie le propriŽtaire du dictionnaire.
:type type
spŽcifie le type (soit unidirectionnel, soit bidirectionnel) du
dictionnaire.
:source symbol
spŽcifie le dictionnaire source (seulement si unidirectionnel).
:target symbol
:links list
spŽcifie le dictionnaire cible (seulement si unidirectionnel).
spŽcifie les dictionnaires liŽs par le dictionnaire bilingue (seulement si
bidirectionnel). Cette liste a obligatoirement 2 ŽlŽments. Elle est
donnŽe sous forme de liste de symboles, chacun correspondant ˆ un
dictionnaire dŽfini par ailleurs.
La dŽfinition des dictionnaires interlingues se fait gr‰ce ˆ la fonctionÊ:
define-interlingual-dictionary name Keywords*
o• name est un symbole dŽfinissant le dictionnaire de mani•re unique ˆ lÕintŽrieur de la base.
:owner string
spŽcifie le propriŽtaire du dictionnaire.
:links list
spŽcifie la liste des dictionnaires liŽs par le dictionnaire interlingue.
Cette liste est donnŽe sous forme de liste de symboles, chacun
correspondant ˆ un dictionnaire dŽfini par ailleurs.
La dŽfinition de la base lexicale elle-m•me se fait gr‰ce ˆ la fonctionÊ:
define-lexical-database name Keywords*
o• name est un symbole dŽfinissant la base lexicale de mani•re unique. Les mots-clŽs admis
sontÊ:
:owner string
spŽcifie le propriŽtaire de la base.
:comment string
spŽcifie un commentaire sur la base lexicale.
:dictionaries list spŽcifie la liste des dictionnaires contenus dans cette base lexicale.
Cette liste est donnŽe sous forme de liste de symboles, chacun
correspondant ˆ un dictionnaire dŽfini par ailleurs.
Chacune de ces fonctions provoque la crŽation dÕinstance des classes CLOS (Common Lisp
Object System) prŽdŽfiniesÊ: lexical-database, monolingual-dictionary, bilingual-dictionary et
interlingual-dictionary.
La dŽfinition de lÕarchitecture lexicale dÕune base se fait dans un fichier dont le nom est
composŽ du nom de la base lexicale, suivi de lÕextension Ò.LEXÓÊ: <nom de la base>.LEX. La
dŽfinition de lÕarchitecture linguistique pour chacun des dictionnaires se fait dans un fichier
dont le nom est celui du dictionnaire, suivi de lÕextension Ò.LINGÓÊ: <nom du dico>.LING.
2.
Définition de l’architecture linguistique
De la m•me mani•re que lÕon dŽclare comment sont organisŽs les diffŽrents dictionnaires
dÕune base lexicale, on doit, pour chaque dictionnaire, dŽclarer comment sont organisŽes les
unitŽs lexicales et leur information linguistique associŽe.
Pour cela, le syst•me SUBLIM propose au linguiste un langage spŽcialisŽ pour la dŽfinition de
structures linguistiquesÊ: LINGARD. Ces structures linguistiques seront reprŽsentŽes, dans le
dictionnaire, avec diffŽrentes structures logiques (arbres, automates, structures de traits,
graphesÉ). Le linguiste doit donc dŽfinir ses structures linguistiques en choisissant les
structures logiques les mieux adaptŽes pour les coder.
Cette t‰che est analogue ˆ la dŽfinition des classes pour un langage ˆ objets, ˆ la dŽfinition de
types de valeurs pour un langage algorithmique classique ou ˆ la dŽfinition dÕune structure de
documents pour un Žditeur de documents structurŽs (comme GRIF, LaTeX ou FrameMaker).
Dans cette section, nous commencerons par dŽvelopper avec SUBLIM des exemples de
structure que nous avons pu observer lors de notre Žtude du domaine. Nous commencerons
par des structures simples, puis nous justifierons notre approche en codant des structures
beaucoup plus complexes.
Nous dŽcrirons ensuite lÕensemble des structures logiques de base connues du syst•me, ainsi
que leur comportement.
Enfin, nous Žtudierons lÕimplŽmentation de notre langage et montrerons comment il est
possible de lÕŽtendre en lui ajoutant de nouvelles structures logiques de base.
2.1.
Exemples
2.1.1. Une structure simpleÊ: un dictionnaire ARIANE
La premi•re structure que nous souhaitons implŽmenter est une structure simple contenant les
informations nŽcessaires aux applications ARIANE. Cette structure peut •tre utilisŽe pour
implŽmenter une base lexicale ˆ partir de laquelle on gŽnŽrera les dictionnaires dÕapplication
pour un syst•me de traduction dŽveloppŽ en ARIANE.
Nous dŽfinissons la structure du dictionnaire fran•ais dans un fichier dont le nom est le nom
du dictionnaire (tel quÕil est dŽfini dans lÕarchitecture lexicale) suivi de lÕextension Ò.LINGÓÊ:
<nom de dictionnaire>.LING.
Une entrŽe de dictionnaire est un lemme associŽ ˆ une catŽgorie. Cette entrŽe est la racine
dÕun arbre dont les nÏuds sont des unitŽs sŽmantiques (voir figure 4.4.).
aller plus loin
•tre plus haut
dŽpasser v.t.
aller au delˆ
dŽconcerter
Figure 4.4Ê: Un exemple dÕentrŽe de dictionnaire
Les unitŽs sŽmantiques sont associŽes ˆ une structure plus complexe constituŽe dÕune simple
structure attributs-valeurs (chaque valeur est atomique). Cette structure est illustrŽe par les
tables donnŽes en figure 4.5.
catŽgorie
nc
np
vb
vbimp
vbrefl
attributs
GNR
NBR
AUX
RECIPROQUE
VAL0, VAL1, VAL2, VAL3, VAL4
ASPECT
adj, adv, card, É
TOUS
DRVN
DRVV
DRVA
valeurs possibles
mas, fem.
sg, pl.
•tre, avoir.
arg0/arg1, arg1/arg2.
nom, ˆ+nom, avec+nom,
comme+nom, contre+nom,
dans+nom, de+nom, en+nom,
entre+nom, par+nom,
parmi+nom, pour+nom, sur+nom,
inf, ˆ+inf, de+inf, adj, que+ind,
que+subj, se-moy, se-pass,
lieu-stat, lieu-dyn, mani•re, zŽro.
achevŽ, inachevŽ, dŽbut, fin,
duratif, frŽquent, instantanŽ.
ncond, nlieu, ninstr, ncollect,
nperson, adjrelat, adjqual, verbe;
naction, nresult, nlieu, nagent,
ninstr, adjact, adfpass, adjpotpas,
adjresact, verbe;
nabst, nperson, verbe.
Figure 4.5Ê: Table des attributs et de leurs valeurs possibles
Les attributs donnŽs en italiques indiquent une dŽrivation. Cette dŽrivation a un type (un de
ceux indiquŽs dans la colonne Òvaleurs possiblesÓ) et une valeur (une unitŽ sŽmantique).
DRVN dŽnote que lÕunitŽ sŽmantique courante dŽrive dÕun nom.
Pour implŽmenter ce dictionnaire, le plus simple est dÕutiliser les structures logiques
suivantesÊ:
- un arbre pour coder une entrŽe et ses raffinements de sens,
- des structures de traits pour coder lÕinformation linguistique associŽe ˆ chaque sens.
Pour cela, le linguiste dŽfinit un ensemble de classes. Chacune de ces classes hŽrite des
classes prŽdŽfinies (les structures logiques). Cette dŽfinition se fait gr‰ce ˆ la fonctionÊ:
define-linguistic-class name class-definition
o• name est un symbole dŽfinissant de mani•re unique la classe dŽfinie ˆ lÕintŽrieur du
dictionnaire. LÕargument class-definition contient la dŽfinition dÕune classe, notŽe de la
mani•re suivanteÊ:
(logical-structure arguments*)
o• logical-structure reprŽsente lÕune des structures logiques dont on veut hŽriter le
comportement. Les arguments dŽpendent de la structure logique spŽcifiŽe. Dans le cas dÕun
arbre, on notera les restrictions sur les classes linguistiques dŽcorant les diffŽrentes parties de
lÕarbre. Dans le cas dÕune structure de traits, on donne lÕensemble des traits et leurs valeurs
possibles. Pour plus de dŽtails, le lecteur se rŽfŽrera ˆ la section suivante.
Pour coder ce dictionnaire, nous utiliserons les structures logiques dÕarbre et de structure de
traits. La dŽfinition dÕune classe de structure logique arbre se fait comme suitÊ:
(tree keywords*)
o• les mots-clŽs restreignent les classes qui peuvent •tre valeurs de dŽcoration des diffŽrentes
parties de lÕarbre. Les mots-clŽs possibles sontÊ:
:root class
:leaves class
:nodes class
spŽcifie la classe acceptable pour la valeur de la dŽcoration de la
racine de l'arbre.
spŽcifie la classe acceptable pour la valeur de la dŽcoration des
feuilles de l'arbre.
spŽcifie la classe acceptable pour la valeur de la dŽcoration de
lÕensemble des nÏuds de l'arbre (racine et feuilles comprises si elle ne
sont pas dŽfinies par ailleurs).
La dŽfinition d'une classe de structure logique structure de traits se fait comme suitÊ:
(feature-structure features)
o• lÕargument features est une liste de couples parenthŽsŽs reprŽsentant la liste des attributs
dŽfinis dans la structure, avec la classe acceptable en valeur de chaque attribut.
La catŽgorie dÕune entrŽe ne peut prendre quÕune valeur parmi un ensemble fini de valeurs.
Pour cela, nous utiliserons la structure logique one-of qui prend comme argument la liste des
valeurs possiblesÊ:
(one-of possible-values)
Ainsi, lÕentrŽe du dictionnaire est dŽfinie comme un arbre dont la racine est dŽcorŽe par une
structure de traits simple (contenant une catŽgorie et une forme graphique) et dont les nÏuds
sont dŽcorŽes par des unitŽs sŽmantiquesÊ:
(define-linguistic-class entry
(tree :root
(feature-structure
(graphic-form string)
(category
cat))
:nodes sem-unit))
(define-linguistic-class cat
(one-of (nc np vb adj card deict repr sub coord)))
L'unitŽ sŽmantique est dŽfinie comme une simple structure de traits. Les dŽrivationsÊ sont
implŽmentŽes comme une structure de traits notant le type et la valeur de la dŽrivation:
(def-linguistic-class sem-unit
(feature-structure
((category cat)
;; information de dérivation.
(drvv (feature-structure
((deriv-kind
(one-of (naction nresult nlieu nagent ninstr adject adjpass
adjpotpas adjresact verbe)))
(deriv-from sem-unit))))
(drvn (feature-structure
((deriv-kind
(one-of (ncond nlieu ninstr ncollect nperson adjrelat
adjqual verbe)))
(deriv-from sem-unit))))
(drva (feature-structure
((deriv-kind (one-of (nabst nperson verbe)))
(deriv-from sem-unit))))
;; information sur les valences
(val0 valency)
(val1 valency)
(val2 valency)
(val3 valency)
;; autres informations
(gnr (one-of (masc fem)))
(nbr (one-of (sg pl)))
(aux (one-of (être avoir)))
(reciproque (one-of (arg0-arg1 arg1-arg2)))
(aspect (one-of (achevé inachevé début fin duratif fréquentatif instantané)
)))))
La valence admet comme valeur un ensemble de valeurs prises parmi les valeurs de valences
possibles. Pour cela, on utilise la structure logique set-of qui prend comme argument la liste
des valeurs possiblesÊ:
(set-of possible-values keywords*)
o• lÕargument possible-values est la liste des classes acceptables pour les ŽlŽments de
lÕensemble, et o• les mots-clŽs dŽfinissent des contraintes de cardinalitŽ sur lÕensembleÊ:
:min-elements number
:max-elements number
spŽcifie le nombre minimal dÕŽlŽments dans lÕensemble (par
dŽfautÊ: 0).
spŽcifie le nombre maximal dÕŽlŽments dans lÕensemble (par
dŽfautÊ: pas de maximum).
Ainsi, les valences se dŽcrivent comme suitÊ:
(def-linguistic-class valency
(set-of (nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom
entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf
adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière
zéro)))
2.1.2. Une structure Òˆ la MULTILEXÓ
La seconde architecture linguistique que nous souhaitons dŽfinir est (librement) inspirŽe de
l'architecture linguistique de MULTILEX.
Les dŽtails de cette architecture sont donnŽs par la figure 4.6., reprise du chapitre II. Une unitŽ
lexicale de MULTILEX (LU) identifie un sens de mot. Elle est reliŽe ˆ une ou plusieurs GPMU
(unitŽ graphique, phonologique et morphologique) qui identifie une forme canonique.
Une LU donne acc•s ˆ diffŽrents types dÕinformations (sous forme dÕensembles de traits).
Ainsi, une LU est reliŽe ˆ une et une seule unitŽ sŽmantique, une ou plusieurs unitŽs
syntaxiques et zŽro ou plusieurs unitŽs de transfert.
pragmatics
pragmatics
terminology
pragmatics
terminology
terminology
GPMU
GPMU
GPMU
pragmatics
pragmatics
terminology Syntax
pragmatics
Syntax
terminology
example
terminology
example Syntax
definition
LU
Semantics/
terminology
example
pragmatics
example
Crossreferences
Transfer
Maintenance
record
Figure 4.6Ê: Vue gŽnŽrale dÕune LU (Lexical Unit) de MULTILEX
Nous noterons une unitŽ lexicale comme une structure de traits o• certains traits ont pour
valeur un ensemble de liens reliant les diffŽrentes unitŽs (GPMU, syntaxique, sŽmantiques et
de transfert). Nous ne donnerons que la description d'une GPMU, et d'une unitŽ syntaxique.
Comme le projet Multilex, nous reprŽsenterons les informations associŽes ˆ ces unitŽs sous
forme de structures de traits.
Pour dŽfinir une valeur de lien, nous utiliserons la structure logique prŽdŽfinie link qui
sÕutilise comme suitÊ:
(link keywords*)
o• les mots-clŽs restreignent les classes qui peuvent •tre valeurs de dŽcoration des diffŽrents
ŽlŽments du lien. Les mots-clŽs possibles sontÊ:
:label class
spŽcifie la classe acceptable pour la valeur de dŽcoration
du lien.
:source [dict::]class
spŽcifie la classe de lÕinstance de laquelle part le lien. Si le
lien vient dÕune structure dÕun autre dictionnaire, on
indique ce dictionnaire.
:target [dict::]class
spŽcifie la classe de lÕinstance vers laquelle pointe le lien.Si
le lien va vers une structure dÕun autre dictionnaire, on
indique ce dictionnaire.
:bidirectionnel boolean
Le syst•me doit-il gŽrer le lien inverse (qui pointera vers la
structure ou est dŽfinie le lien dÕorigine)Ê?
Pour dŽfinir une valeur de type ensemble, nous utiliserons la structure logique set-of dŽfinie
plus haut.
Une unitŽ lexicale est reliŽe ˆ une et une seule unitŽ sŽmantique, une ou plusieurs unitŽs de
syntaxiques et une ou plusieurs GPMU. On la dŽfinit donc comme suitÊ:
(def-linguistic-class MLX-UL
(feature-structure
((GPMU
(set-of ((link :target MLX-GPMU
:label preferred?))))
(syntax
(set-of ((link :target MLX-SynU
:label weight))))
(semantic
(link :target MLX-SemU))
(maintenance (link :target MLX-MaintU)))))
LÕutilisation de liens nous a permis de repŽrer la GPMU prŽfŽrŽe pour une unitŽ lexicale,
gr‰ce ˆ la dŽcoration de classe preferred? (que lÕon dŽfinit comme un simple boolŽen) sur
les liens vers les GPMU.
(def-linguistic-class preferred? boolean)
On peut aussi vouloir associer un poids ˆ lÕun des liens. Ici, nous avons associŽ un poids au
lien vers les structures syntaxiques, ce qui nous permet dÕassocier une probabilitŽ plus forte ˆ
une des structures syntaxiques de lÕunitŽ lexicaleÊ:
(def-linguistic-class weight integer)
Les autres parties de cette structure seront implŽmentŽes comme des structures de traits. Nous
ne les dŽtaillerons pas, puisquÕelles ne prŽsentent pas de difficultŽs.
2.1.3. Une structure Òˆ la GENELEXÓ
La troisi•me architecture linguistique que nous souhaitons dŽfinir est (librement) inspirŽe de
l'architecture linguistique de GENELEX. Nous ne dŽfinirons ici quÕune unitŽ morphologique.
Rappelons quÕune unitŽ morphologique est un regroupement de mots basŽ sur des propriŽtŽs
morphologiques. Elle est identifiŽe par son lemme graphique et/ou par son lemme
phonŽtique. La forme lemmatisŽe est la forme singulier sÕil y a variation en nombre, masculin
sÕil y a variation en genre, et infinitif pour les verbes.
GENELEX a dŽfini cinq types dÕunitŽ morphologiquesÊ:
- UM simpleÊ: une UM simple est associŽe ˆ une graphie (plusieurs en cas de variantes)
constituŽe dÕune suite de caract•res alphabŽtiques, de sŽparateurs (tiret, apostrophe,
point) et de la marque Žventuelle dÕhyphŽnation.
- UM affixeÊ: une UM affixe peut •tre de type prŽfixe, infixe ou suffixe, ou encore sans
type dans le cas o• elle ne prendrait son statut quÕen contexte de dŽrivation ou
composition.
- UM dŽrivŽeÊ: une UM dŽrivŽe est une unitŽ morphologique simple qui entretient des
liens de dŽrivation avec dÕautres unitŽs morphologiques (simples ou affixes).
- UM composŽeÊ: lÕUM composŽe de Genelex est une expression complexe quÕun
lexicographe a choisi de coder dans la couche morphologique.
- UM agglutinŽeÊ: permet dÕenregistrer des phŽnom•nes de contraction graphique de
deux unitŽs. Par exempleÊ: du (= de + le).
LÕensemble des unitŽs morphologiques (UM) a une structure analogue. Ë cette structure
globale sÕajoutent dÕautres liens dŽpendant de la nature de lÕunitŽ morphologique. Cela nous
permettra dÕintroduire une notion fondamentale du langage de dŽfinition de lÕarchitecture
linguistiqueÊ: la notion dÕhŽritage.
Gr‰ce ˆ cette notion, il nous est possible de dŽfinir une classe linguistique correspondant ˆ
lÕensemble des UM. Nous pourrons ensuite dŽfinir les unitŽs morphologiques particuli•res
comme des sous-classes linguistiques de la classe UM. Ces structures hŽriteront donc de la
structure gŽnŽrale des UM en lui rajoutant des ŽlŽments propres.
Cette notion dÕhŽritage est rendue complexe par la diversitŽ des structures logiques de base
qui peuvent •tre utilisŽes dans les structures linguistiques. Aussi, nous dŽtaillerons les
modalitŽ de la notion dÕhŽritage structure logique par structure logique dans le paragraphe
suivant.
Une unitŽ morphologique GENELEX a la structure illustrŽe par la figure 4.7.
Etymon
id
libellŽ
sens
langue
date
appellation
0,n
Forme-Br•ve
type
Žtymologie
0,n
Um
0,n
CombVE
id
appelation
0,n
-
id
datation
niveau_lgue
frŽquence
var_geog
Figure 4.7Ê: Structure commune aux unitŽs morphologiques de GENELEX
Nous la dŽfinirons comme une structure de traits dont certains traits ont une valeur qui est un
ensemble de liensÊ:
(def-linguistic-class UM
(feature-structure
((formes-brèves (set-of ((link :target UM
:label type-forme-brève))))
(étymologie
(set-of ((link :target étymon))))
(combVE
(link :target combVE))
(appellation
string)
)))
(def-linguistic-class type-forme-brève
(one-of (abbéviation sigle accronyme)))
Un Žtymon est lui aussi une structure de traits. Ses traits acceptent une cha”ne de caract•res en
valeur.
(def-linguistic-class étymon
(feature-structure
((langue
string)
(sens
string)
(date
string)
(appelation string))
))
De la m•me mani•re, le CombVE est dŽfini comme suitÊ:
(def-linguistic-class CombVE
(feature-structure
((datation
(one-of (archaique vielli moderne)))
(niveau_lgue (one-of (familier vulgaire argotique populaire litteraire
savant standard)))
(fréquence
(one-of (rare courant)))
(var_geog
string))))
Une fois quÕune unitŽ morphologique est dŽfinie, nous allons dŽfinir les unitŽs
morphologiques particuli•res. Nous ne dŽvelopperons que la dŽfinition de lÕUM simple. Nous
en donnons la structure graphique dans la figure 4.8.
Um_S
id
appelation
catgram
ss-catgram
1,n
autonomie
1,n
0,1
a-pour-umg
a-pour-ump
0,n
0,1
0,1
CombVE
Umg
Ump
id
0,n
0,n datation
id
libellŽ
vedette
appellation
attestation
0,1
id
libellŽ
vedette
1,n appellation
attestation
0,n
0,1
niveau_lgue
frŽquence
var_geog
1,n
0,n
s'Žcrit/se prononce
1,1
1,1
1,1
a-pour-mfg
1,1
Radg
a-pour-mfp
Radp
1,n
1,n
Mfg
id
comment
exemple
appellation
0,n
id
libellŽ
ni•me
contexte_var
id
libellŽ
ni•me
contexte_var
id
0,n comment
exemple
appellation
a-pour-ffg
a-pour-ffp
CombTM
Cffg
id
ni•me_radgp 1,n
contexte_var 0,n
retrait
ajout
Mfp
1,n
id
mode
1,n
temps
personne
genre
nombre
nombre_posseur
Cffp
id
1,n ni•me_radgp
contexte_var
0,n retrait
ajout
s'Žcrit/se prononce
Figure 4.8Ê: Structure de lÕUM simple
Une UM simple hŽrite de la structure dÕune UM gŽnŽrale et rajoute des ŽlŽments particuliers.
Pour dŽnoter de cet hŽritage, nous utilisons la syntaxeÊ:
(parent-linguistic-class arguments*)
o• parent-linguistic-class est le nom de la structure linguistique dont on veut hŽriter. Les
arguments dŽpendent de la structure linguistique spŽcifiŽe. Le dŽtail de ces arguments et la
sŽmantique exacte de lÕhŽritage seront exposŽs dans le paragraphe suivant.
Dans le cas dÕune structure de traits, on hŽrite des traits dŽjˆ dŽfinis, que lÕon rajoute aux traits
spŽcifiŽs sur la sous-classe. LorsquÕun trait de la sous-classe existe dŽjˆ sur la classe dont on
hŽrite, deux cas se prŽsententÊ:
- hŽritage simpleÊ: dans ce cas, la valeur spŽcifiŽe dans la classe dont on hŽrite est
ŽcrasŽe. Seule compte donc la valeur donnŽe dans la sous-classe.
- hŽritage par unificationÊ: dans ce cas, on fait lÕunification des deux valeurs donnŽes
dans la classe dont on hŽrite et dans la sous-classe que lÕon dŽfinit. Si lÕunification
Žchoue, lÕhŽritage simple est adoptŽ. Si elle rŽussit, le trait litigieux prend pour valeur le
rŽsultat de lÕunification. Cette opŽration dÕunification sera dŽtaillŽe dans le paragraphe
suivant.
Le linguiste peut spŽcifier le type dÕhŽritage dŽsirŽ en utilisant le mot-clŽ inheritance-type, que
lÕon retrouve dans les arguments quelle que soit la structure de base. Ce mot-clŽ prend pour
valeur simple ou unification. Le comportement par dŽfaut est lÕhŽritage simple.
Ainsi, la dŽfinition de lÕUM simple de GENELEX est la suivanteÊ:
(def-linguistic-class UM_S
(UM
((catgram
(one-of (nom adjectif adverbe verbe preposition conjonction
interjection determinant pronom particule)))
(ss-catgram (one-of (propre commun possessif demonstratif partitif
defini indefini interrogatif cardinal ordinal
relatif personnel_fort personnel_faible impersonnel
exclamatif qualitatif coordination subordination
completif)))
(autonomie (one-of (oui non)))
(usyn-l
(set-of (USyn)))
(a-pour-Umg (set-of (Umg) :min-elements 1))
(a-pour-Ump (set-of (Ump) :min-elements 1)))
))
Cette dŽfinition utilise les notions dÕunitŽs morphologiques graphiques (Umg, qui portent les
informations sur lÕŽcrit) et dÕunitŽs morphologique phonŽmiques (Ump, qui portent des
informations sur lÕoral).
(def-linguistic-class Umg
(feature-structure
((vedette
(one-of
(appellation string)
(attestation string)
(combVe
combVe)
(a-pour-mfg Mfg)
(a-pour-radg (set-of
(se-prononce (set-of
))
(def-linguistic-class Ump
(feature-structure
((vedette
(one-of
(appellation string)
(attestation string)
(combVe
combVe)
(a-pour-mfg Mfp)
(a-pour-radp (set-of
(s-écrit
(set-of
))
(oui non)))
(Radg)))
(Ump) :min-elements 1))))
(oui non)))
(Radp)))
(Umg) :min-elements 1))))
Ces structures utilisent un ensemble de radicaux graphiques et phonŽmiques (Radg, Radp)
donnant lÕensembles des bases sur lesquelles se fondent les r•gles morphologiques.
(def-linguistic-class Radg
(feature-structure
((nième
integer)
(contexte_var string))))
(def-linguistic-class Radp
(feature-structure
((nième
integer)
(contexte_var string))
))
Les unitŽs morphologiques sont associŽes ˆ des informations morphologiques graphiques et
phonŽmiques (Mfg, Mfp).
(def-linguistic-class Mfg
(feature-structure
((comment
string)
(exemple
string)
(appellation string)
(a-pour-ffg (set-of ((link :target
:label
(def-linguistic-class Mfp
(feature-structure
((comment
string)
(exemple
string)
(appellation string)
(a-pour-ffg (set-of ((link :target
:label
Cffg
CombTM)))))))
Cffp
CombTM)))))))
Ces informations de morphologiques utilisent des r•gles de calcul des formes flŽchies pour les
unitŽs graphiques et phonŽmiques (Cffg, Cffp).
(def-linguistic-class Cffg
(feature-structure
((nième-radgp integer)
(contexte_var string)
(retrait
string)
(ajout
string)
(se-prononce (set-of (Cffp)))))
(def-linguistic-class Cffp
(feature-structure
((nième-radgp integer)
(contexte_var string)
(retrait
string)
(ajout
string)
(se-prononce (set-of (Cffg)))))
Chaque r•gle de calcul est associŽe ˆ une combinaison temps/mode (combTM) identifiant la
forme flŽchie obtenue.
(def-linguistic-class CombTM
(feature-structure
((mode
(one-of (indicatif subjonctif conditionnel imperatif
infinitif participe)))
(temps
(one-of (present imparfait passe-simple futur passe)))
(personne
(one-of (1 2 3)))
(genre
(one-of (masculin feminin neutre)))
(nombre
(one-of (singulier pluriel))
(nombre-posseur (one-of (singulier-posseur pluriel-posseur))))))
On a ainsi dŽfini une UM simple selon GENELEX.
2.1.4. Une structure complexeÊ: le DEC de MelÕc
ÿ uk
JusquÕˆ prŽsent, nous avons montrŽ comment dŽclarer en SUBLIM des bases lexicales
existantes. Nous avons pu constater que m•me si les personnes dŽveloppant ces bases disent
quÕelles ne font appel quÕˆ une structure de base (graphe ou structure de traits), il est utile de
disposer de plusieurs autres structures pour les implŽmenter (notion dÕensemble, etc.).
LÕexemple que nous allons Žtudier maintenant nÕest pas une base lexicale ˆ usage machinal. Il
sÕagit dÕun dictionnaire (essentiellement papier) dont les informations sont assez complexes.
Ce dictionnaire a ŽtŽ dŽveloppŽ par Igor MelÕcÿ uk et ses coll•gues, ˆ Moscou, puis ˆ MontrŽal.
Quelques exemples dÕarticles de ce dictionnaire sont donnŽs en Annexe C3 .
Une unitŽ de ce dictionnaire est un sens de mot ou de locution (un sŽmant•me). Cette unitŽ
lexicale est associŽe ˆ une unitŽ morphologique, ˆ une dŽfinition, ˆ dÕŽventuelles
3 Je tiens à remercier Igor Mel’čuk qui me les a très gentiment communiquées.
connotations, ˆ un rŽgime, ˆ des exemples, et ˆ des fonctions lexico-sŽmantiques. Nous lui
affectons de plus un numŽro de sens qui lÕidentifie parmi les diffŽrents sens dÕune entrŽe.
Un sŽmant•me peut aisŽment •tre codŽ comme une structure de traitsÊ:
(def-linguistic-class sémantème
(feature-structure
((numéro
numéro)
(UMorph
UMorph)
(définition
définition)
(connotations
connotations)
(régime
régime)
(exemples
exemples)
(lexico-sem-fns lex-sem-fns))
))
Une unitŽ morphologique comprend une forme graphique et des informations
morphologiques. Elle peut •tre reliŽe ˆ plusieurs sŽmant•mes. Ces diffŽrents sŽmant•mes lui
sont associŽs de mani•re arborescenteÊ:
CÎUR, nom, masc.
I.1a.
1b.
2.
3.
4a.
4b.
5a.
5b.
II.1a.
1b.
2a.
3.
4.
III.
Organe principal de la circulation sanguine d'une personneÉ [le cÏur de Jean ]
Organe principal de la circulation sanguine d'un animalÉ [le cÏur de lion ]
Produit alimentaire É [le cÏur de veau ]
Partie de la poitrine d'une personne É [Il a serrŽ son fils sur son cÏur ]
Organe imaginaire des sentiments É [Le cÏur esp•re toujours ]
Organe imaginaire de l'intuition É [Son cÏur le lui dit ]
É propriŽtŽ de la personnalitŽ É [un cÏur de glace ]
Personne possŽdant le cÏur I.5a [Vous devez la vie ˆ un noble cÏur, ˆ un homme vaillant ]
Partie principale d'une unitŽ fonctionnelleÉ [le cÏur du bateau ]
ƒlŽment principal [le cÏur du probl•me ]
Partie centrale d'un espaceÉ [le cÏur du royaume ]
ObjetÉ ayant la forme du cÏur I.1a [un cÏur en papier ]
Une des quatre couleurs 2 des cartes ˆ jouerÉ [l'as de cÏur ]
Organe imaginaire des nausŽes É [Cette senteur lui tournait le cÏur ]
Aussi, nous dŽfinirons une unitŽ morphologique comme un arbre portant des informations
morphologiques ˆ la racine et des sŽmant•mes sur les feuilles.
(def-linguistic-class UMorph
(tree :root
Morphological-information
:leaves sémantème))
LÕinformation morphologique associŽe ˆ la racine de cette arbre ne comporte quÕune graphie,
une catŽgorie, un genre et un nombre.
(def-linguistic-class Morphological-information
(feature-structure
((graph
string)
(catégorie cat)
(genre
gnr)
(nombre
nbr))))
(def-linguistic-class cat
(one-of (nom verbe adjectif adverbe)))
(def-linguistic-class gnr
(one-of (masculin féminin)))
(def-linguistic-class nbr
(one-of (singulier pluriel)))
Une dŽfinition du DEC nÕest pas une simple cha”ne de caract•resÊ:
I.1a. CÏur de X = Organe principal de la circulation sanguine d'une personne X qui se trouve dans la partie
centrale du corps II.1d de X et qu'on reprŽsente symboliquement comme ayant la forme
.
Mis ˆ part le fait que lÕon y trouve une image, on peut remarquer quÕelle se compose de deux
parties principales. La premi•re (indiquŽe en italiques) prŽsente un usage du sŽmant•me dans
une locution o• les diffŽrents arguments du prŽdicat reprŽsentŽ sont indiquŽs sous forme de
variable. La seconde est une explicitation du sens du sŽmant•me. Cette explication rŽutilise
les variables de la premi•re partie. On remarque aussi quÕelle fait rŽfŽrence ˆ des sŽmant•mes
dŽfinis par ailleurs dans le dictionnaire (corps II.1d).
Nous simplifierons cette structure en la dŽcomposant simplement en deux cha”nes de
caract•res, lÕune contenant la forme du prŽdicat, lÕautre contenant sa dŽfinitionÊ:
(def-linguistic-class définition
(feature-structure
((prédicat string)
(explicite string))))
Apr•s cette partie de dŽfinition, on trouve Žventuellement une partie consacrŽe aux
connotationsÊ:
Connotations
1) CÏur I.1a est le si•ge des sentiments [voir CÎUR I.4a].
2) CÏur I.1a est le si•ge de l'intuition [voir CÎUR I.4b].
3) CÏur I.1a qui bat 1 reprŽsente la vie [voir les phras•mes correspondants dans CÎUR I.1a].
Cette partie se prŽsente comme une liste de connotations. Chacune est donnŽe sous forme de
cha”ne de carat•res faisant rŽfŽrence ˆ au moins un sŽmant•me. Il est donc intŽressant, dans
une version informatique de ce dictionnaire, de conserver ˆ la fois la connotation sous forme
de cha”ne de caract•res et sous forme dÕun ensemble de liens vers dÕautres sŽmant•mesÊ:
(def-linguistic-class connotations
(set-of connotation))
(def-linguistic-class connotation
(feature-structure
((texte
string)
(réfère-à (set-of ((link :target sémantème)))))))
Ë la suite de ces Žventuelles connotations, on trouve le rŽgime du prŽdicat. Ce rŽgime donne
les informations sur les diffŽrentes rŽalisations syntaxiques des arguments du prŽdicat. Le
rŽgime est donnŽ sous forme de tableau dont les colonnes correspondent aux arguments et
les lignes aux diffŽrentes rŽalisations. Certaines combinaisons ainsi Žtablies Žtant non valides,
on en reprend ensuite la liste, en indiquant leur impossibilitŽ. On reprend aussi un certain
nombre de ces combinaisons pour en donner des exemples (lÕexemple suivant est tirŽ de
enseigner 1)Ê:
1. X enseigne Y ˆ Z = X, censŽ avoir la qualification professionnelle dans le domaine Y, cause que Z apprenne
III.1b Y en transmettant, mŽthodiquement et dans un cadre officiel, ˆ Z des connaissances (portant sur) Y ou des
techniques (portant sur) Y [ CausConv (apprendre III.1bÊ)].
≠
21
RŽgime
1=X
1. N
2=Y
1. N
1. ˆ N
2. ˆ V
inf
1)ÊC ÊsansÊC 
2.2
3.1

2)ÊC +ÊC

: impossible
C +C
: Pierre enseigne la grammaire
2Ê
1
3.2
2
C +C +C
1
2
3
3=Z
2. rare N
<la coutureÊ>/ ˆ faire cela
: Pierre enseigne la grammaire ˆ ses Žl•ves
La structure correspondant ˆ cette partie est beaucoup plus compliquŽe que celle des parties
prŽcŽdentes. En effet, cette prŽsentation nÕest que le reflet, imprimable, dÕune structure
complexe o• lÕon retrouve lÕensemble des combinaisons possibles de rŽalisations
dÕarguments. On peut donc reprŽsenter cette partie de deux mani•resÊ:
- en restant proche de sa forme papier. On a alors un tableau et une liste des
combinaisons impossibles.
- en reprŽsentant cette structure de mani•re plus abstraite. On peut ainsi la reprŽsenter
par un automate dont chaque chemin forme une combinaison valide.
Si lÕon choisit la seconde solution, le rŽgime donnŽ en exemple sera donc reprŽsentŽ par
lÕautomate donnŽ en figure 4.9.
X
N
Y
Z
ˆ V inf
ˆN
N
ˆN
ε
ε
N (rare)
Figure 4.9Ê: RŽgime dÕenseigner 1, sous forme dÕautomate
Pour exprimer cette solution, nous utiliserons la structure logique dÕautomate dŽfinie comme
suitÊ:
(automaton keywords*)
o• les mots-clŽs dŽfinissent des contraintes sur les classes acceptables en dŽcoration des
diffŽrents ŽlŽments de lÕautomateÊ:
:arcs class
spŽcifie la classe acceptable en dŽcoration des arcs.
:nodes class
spŽcifie la classe acceptable en dŽcoration de lÕensemble des
nÏuds.
:starting-node class
spŽcifie la classe acceptable en dŽcoration du nÏud dÕentrŽe.
:ending-nodes class
spŽcifie la classe acceptable en dŽcoration des nÏuds de sortie.
Ainsi, cette structure sÕexprimera sous forme dÕune structure de traits dont lÕun comportera
lÕautomate, un autre donnera lÕordre dans lequel les arguments apparaissent dans le rŽgime et
un troisi•me donnera lÕensemble des exemplesÊ:
(def-linguistic-class régime
(feature-structure
((automate
automate-régime)
(argument-order (list-of (string)))
(exemples
exemples-régime))))
(def-linguistic-class automate-régime
(automaton :arcs réalisation-argument))
(def-linguistic-class exemples-régime
(set-of ((feature-structure
((réalisations (list-of (string)))
(exemple
string))))))
La partie la plus importante de ce dictionnaire rŽside dans lÕensemble des fonctions lexicales
du sŽmant•me. Leur meilleur dŽfinition est donnŽe, en premi•re partie du DEC, par lÕauteur,
Igor MelÕcÿukÊ:
Les fonctions lexicales (FL) présentent l’ensemble de la cooccurrence lexicale restreinte intéressant le
lexème considéré. Elles constituent une innovation lexicographique qui permet de décrire d’une façon
systématique un vaste ensemble de locutions plus ou moins figées qui ne sont quand même pas des
expressions idiomatiques stricto sensu. Il s’agit, par exemple, des locutions comme une FERME intention,
une résistance ACHARNÉE, un argument DE POIDS, un bruit INFERNAL, un désir ARDENT, une envie
FOLLE, une règle STRICTE, une vérité INCONTESTABLE, où des adjectifs bien spécifiques doivent être
employés avec les différents noms pour exprimer la même idée d’intensification. Comme autre exemple de
locution de ce type, on peut citer les expressions DONNER une leçon, FAIRE un pas, COMMETTRE un
crime, PORTER une accusation, etc., où des verbes sémantiquement vides (ou presque vides) différents
doivent être choisis en fonction du nom d’action pour lier le nom d’agent en tant que sujet grammatical au
nom d’action en tant que complément d’objet direct.
LÕŽcriture gŽnŽrale dÕune FL est de la formeÊ: f(X) = Y, o• f est la FL, X est son argument (un
lex•me ou bien une locution), et Y est la valeur de la FL f pour cet argument, cÕest ˆ dire
lÕensemble des expressions linguistiques qui peuvent exprimer le sens ou le r™le syntaxique
donnŽ (notŽ par f) aupr•s de X.
Comme ce dictionnaire est imprimŽ, les expressions linguistiques sont donnŽes sous une
forme linŽaireÊ:
MƒPRIS, nom, masc.
I.
Attitude Žmotionnelle dŽfavorableÉ [le mŽpris pour ce corrupteur ]
[É]
Fonctions lexicales
Caus Func
3
Caus Func
(3)
s chez N] [La familiaritŽ engendre le mŽprisÊ]
apprendre, inculquer [ART s ˆ N] [Jean inculque ˆ ses Žtudiants le mŽpris
: engendrer [ART
1
:
1
de l'hypocrisie ; Son attitude partiale envers ses employŽs apprend ˆ ces
derniers le mŽpris de leur chefÊ]
Caus
(2/3)
Func
1
s
: inspirer [ART
ˆ N] [Cet ŽvŽnement inspire aux travailleurs le mŽpris de
leur patron ; L'argent inspirait ˆ ce philosophe un tel mŽpris qu'il a donnŽ
son hŽritage ˆ son fr•reÊ; L'hypocrisie de Jean leur inspirait un profond
mŽprisÊ]
Mais la structure interne de ces expression linguistique est un arbre syntaxique donnant la
construction de cette expressions linguistiques et de lÕargument X pour rŽaliser la fonction f.
Ainsi, la structure interne de Caus3Func1(MŽpris I) est lÕarbre donnŽ en figure 4.10.Ê:
Caus 3Func0 (X = mŽpris) = engendrer
N
X
chez N
ART
Figure 4.10Ê: Structure interne dÕune expression linguistique, valeur de fonction lexicale
Une fonction lexicale reprŽsente donc un lien entre un sŽmant•me et une expression
linguistique complexe comportant dÕautres sŽmant•mes. Aussi, la valeur de ces FL peut •tre
reprŽsentŽe comme un ensemble dÕarbres dont certains nÏuds sont des variable, et dÕautres
sont des sŽmant•mes.
Il faut aussi reprŽsenter les fonctions lexicales. En effet, sÕil y a un nombre limitŽ de fonctions
lexicales de base, on trouvera des fonctions composŽes dans les diffŽrents articles de
dictionnaire.
Prenons un exempleÊ: les fonctions Oper , Oper É ont pour valeur les verbes
1
2
sŽmantiquement vides qui prennent le nom du premier, deuxi•meÉ actant comme sujet
grammatical et C0 (leur argument) comme complŽment dÕobjet principalÊ:
Oper 1(attention) = faire
Oper 2(attention) = attirer
Oper 1(conseil) = donner
Oper 2(conseil) = recevoir
Oper 1(aide) = pr•ter, accorder
Oper 2(aide) = recevoir
La fonction Caus reprŽsente la notionÊ: Òfaire en sorte que quelque chose ait lieuÓ. Elle
sÕemploie le plus souvent en combinaison avec dÕautres FL. Ainsi, si Oper1(dŽsespoir) =
Žprouver, ressentir, avoir, CausOper 1(dŽsespoir) reprŽsente Òfaire en sorte que quelquÕun
Žprouve du dŽsespoirÓ. Donc CausOper1(dŽsespoir) = pousser, rŽduire [qqn au dŽsespoir],
jeter [qqn dans le dŽsespoir], frapper [qqn de dŽsespoir].
Il nÕest donc pas possible de reprŽsenter chaque fonction lexicale comme un attribut dand
une structure, puisque la possibilitŽ de composition entra”ne toute une combinatoire des
fonctions lexicales. Nous les reprŽsenterons donc par la structure logique de base function.
Cette structure logique sÕexprime de la mani•re suivanteÊ:
(function keywords*)
o• les mots-clŽs dŽfinissent des contraintes sur les classes acceptables pour les diffŽrents
ŽlŽments de fonctionÊ:
:label class
spŽcifie la classe identifiant la fonction.
:arguments class
spŽcifie la liste des classes acceptable pour les arguments de la
fonction.
:value class
spŽcifie la classe acceptable en valeur de la fonction.
Ainsi, la structure correspondant aux fonctions lexicales peut sÕexprimer comme suitÊ:
(def-linguistic-class lex-sem-fns
(set-of (lex-sem-fn)))
(def-linguistic-class lex-sem-fn
(function :label nom-FL
:arguments (FL-arg)
:value expression-linguistique))
Pour reprŽsenter la composition de fonctions, on peut autoriser lÕutilisation dÕune fonction
lexicale en argument dÕune fonction lexicale. NŽanmoins, la valeur de la FL argument (si elle
existe) nÕest pas pertinente. Seule lÕŽtiquette des fonctions composŽes est porteuse
dÕinformation. Aussi, le plus simple est dÕautoriser une valeur complexe en label de la
fonction. Nous dŽfinirons donc un label de fonction comme une liste (ordonnŽe) de noms de
fonctions de base.
(def-linguistic-class nom-FL
(list-of (nom-FL-base)))
Le nom dÕune fonction de base est donnŽ par un identificateur de la fonction (une cha”ne de
caract•res) et par le numŽro de lÕactant sur lequel elle op•reÊ:
(def-linguistic-class nom-FL-base
(feature-structure
((fonction string)
(actant
integer))))
LÕargument de la fonction est un sŽmant•me. Le fait dÕindiquer cet argument est redondant
puisque cette fonction est dŽfinie ˆ lÕintŽrieur dans la structure m•me du sŽmant•me.
(def-linguistic-class FL-arg sémantème)
LÕexpression linguistique valeur de la fonction est reprŽsentŽe sous forme dÕarbre (comme
nous lÕavons indiquŽ plus haut). Les nÏuds de cet arbre sont soit des sŽmant•mes, soit des
variables. Pour simplifier, nous les noterons comme des cha”nes de caract•res.
(def-linguistic-class expression-linguistique
(tree :nodes (one-of (sémantème string))))
La dŽfinition de la structure linguistique du DEC, m•me simplifiŽe, illustre parfaitement le
besoin ressenti par les linguistes a de pouvoir mŽlanger diffŽrentes structures logiques dans
une seule et m•me structure linguistique. Le fait de proposer diffŽrentes structures logiques
permet au linguiste de manipuler des concepts proches de ceux utilisŽs dans sa thŽorie. Cela
permet de simplifier le travail du linguiste en lui permettant de rester ˆ un niveau dÕabstraction
tr•s utile lorsquÕil souhaite implŽmenter une thŽorie complexe.
2.2.
Le langage de définition de l’architecture linguistique : LINGARD
Dans la section prŽcŽdente, nous avons donnŽ des exemples dÕutilisation des diffŽrentes
structures logiques de base connues du syst•me SUBLIM. Nous avons donnŽ, de mani•re assez
informelle, le moyen dÕutiliser chacune de ces structures.
Nous exposons maintenant les principes de base du langage de dŽfinition de lÕarchitecture
linguistique.
2.2.1. Principes de base
La dŽfinition de lÕarchitecture linguistique dÕun dictionnaire se fait dans un fichier dont le nom
est le nom du dictionnaire (tel quÕil est dŽfini dans lÕarchitecture lexicale) suivi de lÕextension
Ò.LINGÓÊ: <nom de dictionnaire>.LING.
Le langage LINGARD a une syntaxe ÒnoyauÓ Žcrite en LISP. Avec ce langage, il est possible de
dŽfinir des structures linguistiques, ˆ partir de structures logiques existantes. De plus, il est
possible de nommer une structure linguistique particuli•re.
Ces structures linguistiques sont analogues ˆ des classes (selon la terminologie des langages ˆ
objets). Un article de dictionnaire regroupe diffŽrentes instances de ces classes. Comme dans
les langages ˆ objets, il est possible dÕhŽriter des classes dŽjˆ dŽfinies.
2.2.1.1.
Nommage
Il est possible de donner un nom ˆ une classe que lÕon dŽfinit. Pour cela, on utilise la clauseÊ:
define-linguistic-class name class-definition
o• name est un symbole dŽfinissant de mani•re unique la classe dŽfinie ˆ lÕintŽrieur du
dictionnaire. class-definition est une clause LISP dŽfinissant une classe linguistique (voir
paragraphe suivant).
Cette expression associe au symbole name la classe linguistique renvoyŽe par classdefinition. Elle retourne la classe linguistique renvoyŽe par class-definition.
2.2.1.2.
DŽfinition
La dŽfinition dÕune classe linguistique dŽpend de la structure logique que lÕon souhaite
utiliser. NŽanmoins, cette dŽfinition se fait selon un schŽma fixeÊ:
(logical-structure arguments*)
o• logical-structure reprŽsente la structure logique dont on se sert pour dŽfinir la classe
linguistique. Les arguments dŽpendent de la structure logique utilisŽe. Ces arguments sont
dŽtaillŽs plus bas, structure logique par structure logique.
Certaines structures (fixes) sont associŽes ˆ des symboles prŽdŽfinis dans le syst•me (boolean,
integerÉ). Ces symboles peuvent •tre utilisŽs directement dans la dŽfinition dÕune classe
linguistique.
2.2.1.3.
HŽritage
LINGARD permet dÕhŽriter du comportement dÕune classe linguistique que lÕon a dŽfinie
auparavant. Bien que la sŽmantique de cet hŽritage dŽpende de la structure logique
considŽrŽe, il est exprimŽ selon le schŽma fixeÊ:
(parent-linguistic-class arguments*)
o• parent-linguistic-class reprŽsente la classe linguistique dont on hŽrite. Les arguments
permettent de redŽfinir les diffŽrents ŽlŽments de la classe linguistique m•re selon deux
schŽmas possiblesÊ:
- hŽritage simpleÊ: dans ce cas, les valeurs spŽcifiŽes dans la nouvelle classe remplacent
les valeurs spŽcifiŽes pour la classe m•re.
- hŽritage par unificationÊ: dans ce cas, on fait lÕunification des deux valeurs donnŽes
dans la classe dont on hŽrite et dans la sous-classe que lÕon dŽfinit. Si lÕunification
Žchoue, lÕhŽritage simple est adoptŽ. Si elle rŽussit, le trait en cause prend pour valeur le
rŽsultat de lÕunification. Cette opŽration dÕunification (qui dŽpend elle aussi des
structures logiques utilisŽes) sera dŽtaillŽe dans les paragraphes suivants.
Le linguiste peut spŽcifier le type dÕhŽritage dŽsirŽ en utilisant le mot-clŽ inheritance-type, que
lÕon retrouve dans les arguments quelle que soit la structure de base. Ce mot-clŽ prend pour
valeur simple ou unification. Le comportement par dŽfaut est lÕhŽritage simple.
Dans la suite, nous dŽfinirons cette opŽration dÕunification en fonction de lÕopŽration UÕ, dite
unification faible et dŽfinie comme suitÊ:
ÊalorsÊU(X,ÊY)
UÕ(X, Y) = si U(X, Y) -Ê ⊥ 
ÊsinonÊY
U(X, Y) Žtant lÕunification de X et Y.
2.2.1.4.
Unification
Le mŽcanisme dÕunification est utile sur les structures logiques, pour dŽfinir la sŽmantique de
lÕhŽritage. Notons que cette unification porte sur des classes de structures, et non sur des
instances particuli•res de ces classes.
Afin de dŽfinir de mani•re cohŽrente cette opŽration sur lÕensemble des structures logiques,
nous introduisons les notions suivantesÊ:
LÕensemble des structures logiques et des classes linguistiques forme un ensemble nommŽ
ensemble des structures, et notŽ Σ.
T
Σ' structures de traits
Σ' arbres
Σ' automates
structures
de traits
arbres
automates
É
É
É
Σ' graphes
É
⊥
Figure 4.11Ê: Vue globale du treillis (Σ,<<)
graphes
É
Un ordre partiel est dŽfini sur Σ et notŽ <<. Les structures logiques de base sont incomparables
selon cet ordre. ( Σ, <<) dŽfinit un treillis ayant lÕaspect donnŽ en figure 4.11.
Si la classe linguistique X est dŽfinie en fonction de la structure logique x, alors X se trouvera
dans le sous-treillis ΣÕx. Si la classe linguistique Y est dŽfinie en fonction de X, figurant dans le
sous treillis ΣÕ x , alors Y figurera dans le sous-treillis ΣÕ x . Deux classes linguistiques
quelconques figurant dans deux sous-treillis diffŽrents sont donc incomparables par <<.
LÕopŽration dÕunification (notŽe U) est dŽfinie sur ΣÕ x × ΣÕx pour toute structure logique x. Elle
Žchoue (retourne ⊥ ) sur ΣÕx × ΣÕy (x - y).
Le symbole spŽcial T, situŽ au sommet du treillis (Σ,<<), est lÕŽlŽment neutre de lÕopŽration
dÕunification.
2.2.2. Arbres
La structure linguistique et informatique la plus classique est sans conteste lÕarbre. Il est donc
normal de proposer cette structure en premier. La structure dŽfinie ici reprŽsente la classe des
arbres dŽcorŽs.
2.2.2.1.
DŽfinition de la structure
La dŽfinition dÕune classe linguistique ayant une structure dÕarbre se fait de la mani•re
suivanteÊ:
(tree keywords*)
o• les mots-clŽs restreignent les classes qui peuvent •tre valeurs de dŽcoration des diffŽrentes
parties de lÕarbre. Les mots-clŽs possibles sontÊ:
:root class
spŽcifie la classe acceptable pour les valeurs des dŽcorations de la
racine de l'arbre.
:leaves class
spŽcifie la classe acceptable pour les valeurs des dŽcorations des
feuilles de l'arbre.
:nodes class
spŽcifie la classe acceptable pour les valeurs des dŽcorations de
lÕensemble des nÏuds de l'arbre (racine et feuilles comprises si elles
ne sont pas dŽfinies par ailleurs).
class est une classe linguistique quelconque. Si les mots-clŽs root et leaves ne sont pas dŽfinis,
ils prennent la valeur associŽe ˆ :nodes.
2.2.2.2.
HŽritage
Si parent-class est une classe linguistique ayant une structure dÕarbre, on peut en hŽriter en
dŽfinissant une nouvelle classe linguistique parÊ:
(parent-class keywords*)
o• les mots-clŽs redŽfinissent les classes qui peuvent •tre valeurs de dŽcoration des
diffŽrentes parties de parent-class. Les mots-clŽs sont les m•mes que ceux utilisŽs dans la
dŽfinition dÕun arbre. On peut aussi spŽcifier le mot-clŽ inheritance-type, qui rŽgit la
sŽmantique de lÕhŽritageÊ:
- si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la
dŽfinition de la sous-classe linguistique remplacent les valeurs de la classe m•re,
spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X (tree :root Y :leaves Z :nodes W))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X’ (X :root A))
alors XÕ correspond ˆ la structureÊ:
(tree :root A :leaves Z :nodes W)
- si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes
dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe
m•re, spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re
suivanteÊ:
(define-linguistic-class X (tree :root Y :leaves Z :nodes W))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define linguistic-class X’ (X :root A))
alors XÕ correspond ˆ la structureÊ:
(tree :root U’(Y,A) :leaves Z :nodes W)
2.2.2.3.
Unification
LÕunification sur ΣÕarbres × ΣÕarbres est dŽfinie de la mani•re suivanteÊ:
UÊ:
ΣÕ arbres × ΣÕarbres → ΣÕ arbres
(T1, T2) → T
Si T1est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ:
en racineÊ: R1
en feuillesÊ: F1
en nÏudsÊ: N1.
et si T2 est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ:
en racineÊ: R2
en feuillesÊ: F2
en nÏudsÊ: N2.
alors T est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ:
en racineÊ: UÕ(R1,R2)
en feuillesÊ: UÕ(F1,F2)
en nÏudsÊ: UÕ(N1,N2).
LorsquÕune valeur de dŽcoration acceptable nÕest pas dŽfinie par le linguiste, elle a la valeur T.
2.2.3. Graphes
La seconde structure que nous proposons est largement utilisŽe dans le domaine du
Traitement Automatique des Langues Naturelles. Bien souvent, on interpr•te une structure en
terme de graphes (les structures de traits avec rŽentrance notamment). Il est donc naturel de
proposer cette structure de graphe parmi les structures logiques de base. Les graphes
implŽmentŽs ici portent des dŽcorations quelconques sur les nÏuds et les arcs.
2.2.3.1.
DŽfinition de la structure
La dŽfinition dÕune classe linguistique ayant une structure de graphe se fait de la mani•re
suivanteÊ:
(graph keywords*)
o• les mots-clŽs restreignent les classes qui peuvent •tre valeurs de dŽcoration des diffŽrentes
parties du graphe. Les mots-clŽs possibles sontÊ:
:nodes class
spŽcifie la classe acceptable pour les valeurs des dŽcorations des
nÏuds du graphe.
:arcs class
spŽcifie la classe acceptable pour les valeurs des dŽcorations des arcs
du graphe.
class est une classe linguistique quelconque.
2.2.3.2.
HŽritage
Si parent-class est une classe linguistique ayant une structure de graphe, on peut en hŽriter en
dŽfinissant une nouvelle classe linguistique parÊ:
(parent-class keywords*)
o• les mots-clŽs redŽfinissent les classes qui peuvent •tre valeurs de dŽcoration des
diffŽrentes parties de parent-class. Les mots-clŽs sont les m•mes que ceux utilisŽs dans la
dŽfinition dÕun graphe. On peut aussi spŽcifier le mot-clŽ inheritance-type, qui rŽgit la
sŽmantique de lÕhŽritageÊ:
- si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la
dŽfinition de la sous-classe linguistique remplacent les valeurs de la classe m•re,
spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X (graph :nodes Y :arcs Z))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X’ (X :nodes A))
alors XÕ correspond ˆ la structureÊ:
(graph :nodes A :arcs Z)
- si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes
dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe
m•re, spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re
suivanteÊ:
(define-linguistic-class X (graph :nodes Y :arcs Z))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define linguistic-class X’ (X :nodes A))
alors XÕ correspond ˆ la structureÊ:
(graph :nodes U’(X,A) :arcs Z)
2.2.3.3.
Unification
LÕunification sur ΣÕgraphes × ΣÕgraphes est dŽfinie de la mani•re suivanteÊ:
UÊ:
ΣÕ graphes × ΣÕgraphes → ΣÕ graphes
(G1, G2) → G
Si G1est le graphe dont les valeurs de dŽcoration acceptables sontÊ:
en arcs: A1
en nÏudsÊ: N1.
et si T2 est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ:
en arcs: A2
en nÏudsÊ: N2.
alors T est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ:
en arcs: UÕ(A1, A2)
en nÏudsÊ: UÕ(N1, N2).
LorsquÕune valeur de dŽcoration acceptable nÕest pas dŽfinie par le linguiste, elle a la valeur T.
2.2.4. Liens
Il est souvent tr•s utile de pouvoir Žtablir un lien entre diffŽrentes unitŽs dÕune base lexicales.
Certains travaux dŽfinissent gr‰ce ˆ de tels liens des graphes recouvrant lÕensemble des
lexiques. De plus, cet ŽlŽment est quasi indispensable dans une approche par transfert. La
classe de liens dŽfinie ici porte une dŽcoration quelconque.
2.2.4.1.
DŽfinition de la structure
La dŽfinition dÕune classe linguistique ayant une structure de lien se fait de la mani•re
suivanteÊ:
(link keywords*)
o• les mots-clŽs restreignent les classes qui peuvent •tre valeurs de dŽcoration des diffŽrents
ŽlŽments du lien. Les mots-clŽs possibles sontÊ:
:label class
:source [dict::]class
:target [dict::]class
:bidirectionnel boolean
spŽcifie la classe acceptable pour la valeur de dŽcoration
du lien.
spŽcifie la classe de lÕinstance de laquelle part le lien. Si le
lien vient dÕune structure dÕun autre dictionnaire, on
indique ce dictionnaire.
spŽcifie la classe de lÕinstance vers laquelle pointe le lien.Si
le lien va vers une structure dÕun autre dictionnaire, on
indique ce dictionnaire.
indique si le syst•me doit gŽrer le lien inverse (qui pointera
vers la structure o• est dŽfinie le lien dÕorigine).
Il nÕest pas obligatoire de spŽcifier une classe source pour un lien dŽfini comme valeur
dÕattribut dÕune structure. Dans ce cas, la source du lien sera la structure o• il est dŽfini.
2.2.4.2.
HŽritage
Si parent-class est une classe linguistique ayant une structure de lien, on peut en hŽriter en
dŽfinissant une nouvelle classe linguistique parÊ:
(parent-class keywords*)
o• les mots-clŽs redŽfinissent les classes qui peuvent •tre valeurs de dŽcoration des
diffŽrentes parties de parent-class. Les mots-clŽs sont les m•mes que ceux utilisŽs dans la
dŽfinition dÕun graphe. On peut aussi spŽcifier le mot-clŽ inheritance-type, qui rŽgit la
sŽmantique de lÕhŽritageÊ:
- si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la
dŽfinition de la sous-classe linguistique remplacent les valeurs de la classe m•re,
spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X (link :label Y :target Z))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X’ (X :label A))
alors XÕ correspond ˆ la structureÊ:
(graph :label A :target Z)
- si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes
dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe
m•re, spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re
suivanteÊ:
(define-linguistic-class X (graph :label Y :target Z))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define linguistic-class X’ (X :label A))
alors XÕ correspond ˆ la structureÊ:
(graph :label U’(Y,A) :target Z)
2.2.4.3.
Unification
LÕunification sur ΣÕliens × ΣÕliens est dŽfinie de la mani•re suivanteÊ:
UÊ:
ΣÕ liens × ΣÕliens → ΣÕ liens
(G1, G2) → G
Si G1 est le graphe dont les valeurs de dŽcoration acceptables sontÊ:
en ŽtiquetteÊ: L1
en cibleÊ: C1
en sourceÊ: S 1
en bidirectionnelÊ: B1.
et si T2 est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ:
en ŽtiquetteÊ: L2
en cibleÊ: C2
en sourceÊ: S 2.
en bidirectionnelÊ: B1.
alors T est lÕarbre dont les valeurs de dŽcoration acceptables sontÊ:
en ŽtiquetteÊ: UÕ(L1, L2)
en cibleÊ: UÕ(C1, C2)
en sourceÊ: UÕ(S1, S2).
en bidirectionnelÊ: UÕ(B1,B2).
LorsquÕune valeur de dŽcoration acceptable nÕest pas dŽfinie par le linguiste, elle a la valeur T.
Notons que UÕ(B1,B2) est Žquivalent ˆ B2 (puisque lÕunification sur les boolŽens ne rŽussit que
sur des valeurs identiques).
2.2.5. Automates
Cette structure pourrait sembler tr•s ÒinformatiqueÓ, pourtant, certains travaux purement
linguistiques lÕutilisent [Gross 1987]. Cette structure figure donc parmi les structure de base de
SUBLIM. La classe dÕautomates dŽfinie ici porte des dŽcorations quelconques sur les nÏuds et
les arcs.
2.2.5.1.
DŽfinition de la structure
La dŽfinition dÕune classe linguistique ayant une structure dÕautomate se fait de la mani•re
suivanteÊ:
(automaton keywords*)
o• les mots-clŽs dŽfinissent des contraintes sur les classes acceptables en dŽcoration des
diffŽrents ŽlŽments de lÕautomateÊ:
:arcs class
spŽcifie la classe acceptable en dŽcoration dÕun arc.
:nodes class
spŽcifie la classe acceptable en dŽcoration dÕun nÏud.
:starting-node class
spŽcifie la classe acceptable en dŽcoration du nÏud dÕentrŽe.
:ending-nodes class
spŽcifie la classe acceptable en dŽcoration des nÏuds de sortie.
class est une classe linguistique quelconque. Si les mots-clŽs starting-node ou ending-nodes
ne sont pas dŽfinis, ils ont la valeur donnŽe au mot-clŽ nodes.
2.2.5.2.
HŽritage
Si parent-class est une classe linguistique ayant une structure dÕautomate, on peut en hŽriter
en dŽfinissant une nouvelle classe linguistique parÊ:
(parent-class keywords*)
o• les mots-clŽs redŽfinissent les classes qui peuvent •tre valeurs de dŽcoration des
diffŽrentes parties de parent-class. Les mots-clŽs sont les m•me que ceux utilisŽs dans la
dŽfinition dÕun automate. On peut aussi spŽcifier le mot-clŽ inheritance-type, qui rŽgit la
sŽmantique de lÕhŽritageÊ:
- si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la
dŽfinition de la sous-classe linguistique remplacent les valeurs de la classe m•re,
spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X (automaton :arcs Y :nodes Z :starting-node W))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X’ (X :arcs A :ending-nodes B))
alors XÕ correspond ˆ la structureÊ:
(automaton :arcs A :nodes Z :starting-node W :ending-nodes B)
- si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes
dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe
m•re, spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re
suivanteÊ:
(define-linguistic-class X (automaton :arcs Y :nodes Z :starting-node W))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define linguistic-class X’ (X :arcs A :ending-nodes B))
alors XÕ correspond ˆ la structureÊ:
(automaton :arcs U’(Y, A) :nodes Z :starting-node W :ending-nodes B)
2.2.5.3.
Unification
LÕunification sur ΣÕautomates × ΣÕautomates est dŽfinie de la mani•re suivanteÊ:
UÊ:
ΣÕ automates × ΣÕautomates → ΣÕ automates
(A1, A2) → A
Si A1est le graphe dont les valeurs de dŽcoration acceptables sontÊ:
en arcs: Ar1
en nÏudsÊ: N1
en nÏud initialÊ: NI1
en nÏuds finalsÊ: NF1.
et si A2 est le graphe dont les valeurs de dŽcoration acceptables sontÊ:
en arcs: Ar2
en nÏudsÊ: N2.
en nÏud initialÊ: NI2
en nÏuds finalsÊ: NF2.
alors A est le graphe dont les valeurs de dŽcoration acceptables sontÊ:
en arcs: UÕ(Ar1, Ar2)
en nÏudsÊ: UÕ(N1, N2)
en nÏud initialÊ: UÕ(NI1, NI2)
en nÏuds finalsÊ: UÕ(NF1, NF2).
LorsquÕune valeur de dŽcoration acceptable nÕest pas dŽfinie par le linguiste, elle a la valeur T.
2.2.6. fonctions
Les fonctions lexicales, comme celle introduites par Igor MelÕcÿ uk, vont jouer un grand r™le
dans les dictionnaires. Il est possible de simuler une telle structure avec un lien portant une
certaine dŽcoration. NŽanmoins, nous avons choisi de lÕinclure parmi les structures de base.
2.2.6.1.
DŽfinition de la structure
La dŽfinition dÕune classe fonction se fait de la mani•re suivanteÊ:
(function keywords*)
o• les mots-clŽs dŽfinissent des contraintes sur les classes acceptables pour les diffŽrents
ŽlŽments de la fonctionÊ:
:label class
:arguments class
:value class
2.2.6.2.
spŽcifie la classe identifiant la fonction.
spŽcifie la liste des classes acceptable pour les arguments de la
fonction.
spŽcifie la classe acceptable en valeur de la fonction.
HŽritage
Si parent-class est une classe fonction, on peut en hŽriter en dŽfinissant une nouvelle classe
linguistique parÊ:
(parent-class keywords*)
o• les mots-clŽs redŽfinissent les classes qui peuvent •tre valeurs de dŽcoration des
diffŽrentes parties de parent-class. Les mots-clŽs sont les m•me que ceux utilisŽs dans la
dŽfinition dÕune fonction. On peut aussi spŽcifier le mot-clŽ inheritance-type, qui rŽgit la
sŽmantique de lÕhŽritageÊ:
- si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la
dŽfinition de la sous-classe linguistique remplacent les valeurs de la classe m•re,
spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X (function :label Y :arguments Z :value W))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X’ (X :label A))
alors XÕ correspond ˆ la structureÊ:
(function :label A :arguments Z :value W)
- si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes
dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe
m•re, spŽcifiŽes pour le m•me mot-clŽ. Par exemple, si X est dŽfini de la mani•re
suivanteÊ:
(define-linguistic-class X (function :label Y :arguments Z :value W))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define linguistic-class X’ (X :label A))
alors XÕ correspond ˆ la structureÊ:
(automaton :label U’(Y, A) :arguments Z :value W))
2.2.6.3.
Unification
LÕunification sur ΣÕfonctions × ΣÕfonctions est dŽfinie de la mani•re suivanteÊ:
UÊ:
ΣÕ fonctions × ΣÕfonctions → ΣÕ fonctions
(F 1, F2) → F
Si F1est une classe fonction dont les valeurs acceptables sontÊ:
en Žtiquette: L1
en argumentsÊ: A1
en valeursÊ: V1
et si A2 est une classe fonction dont les valeurs acceptables sontÊ:
en Žtiquette: L2
en argumentsÊ: A2
en valeursÊ: V2
alors A est une classe fonction dont les valeurs acceptables sontÊ:
en Žtiquette: UÕ(L1, L2)
en argumentsÊ: UÕ(A1, A2)
en valeursÊ: UÕ(V1, V2)
LorsquÕune valeur de dŽcoration acceptable nÕest pas dŽfinie par le linguiste, elle a la valeur T.
2.2.7. Structures de traits
Les structures de traits sont tr•s utilisŽes par diffŽrents formalismes ÒfondŽs sur lÕunificationÓ.
Nous les incluons donc dans lÕensemble des structures logiques de base de S UBLIM. La classe
dŽfinie ici est une gŽnŽralisation des structures de traits, puisque nÕimporte quelle structure
linguistique peut •tre valeur dÕun trait.
2.2.7.1.
DŽfinition de la structure
La dŽfinition dÕune classe linguistique de type structure de traits se fait de la mani•re suivanteÊ:
(feature-structure features)
o• lÕargument features est une liste de couples parenthŽsŽs reprŽsentant la liste des attributs
dŽfinis dans la structure, avec la classe acceptable en valeur de chaque attribut.
Contrairement ˆ certains langages dÕunification [A•t-Kaci 1986, Emele & Zajac 1990b],
apparentŽs aux langages ˆ prototypes, nous Žtablissons une diffŽrence entre les classes (ce
que nous dŽfinissons ici) et leurs instances, qui serviront de briques de base aux articles de
dictionnaires.
Aussi, lorsque nous dŽfinissons une classe linguistique de la mani•re suivanteÊ:
(feature-structure ((trait1 class1)
(trait2 class2)
(trait3 class3)))
les instances de cette classe linguistique ne peuvent pas contenir de traits non dŽfinis ici. Seuls
trait1, trait2 et trait3 seront des traits valides pour ces instances.
Par contre, il est possible dÕhŽriter dÕune classe linguistique de type structure de traits en
rajoutant de nouveaux traits.
2.2.7.2.
HŽritage
Si parent-class est une classe linguistique de type structure de traits, on peut en hŽriter en
dŽfinissant une nouvelle classe linguistique parÊ:
(parent-class features keywords*)
o• lÕargument features est une liste de couples parenthŽsŽs reprŽsentant la liste des attributs
(re)dŽfinis dans la structure, avec la classe acceptable en valeur de chaque attribut. Les motsclŽs permettent de spŽcifier le comportement de lÕhŽritage.
LorsquÕun attribut de la classe rŽsultante est Žgale ˆ lÕunion des attributs de la classe m•re et
des attributs de lÕargument features, la valeur des attributs situŽs dans lÕintersection des
attributs de la classe m•re et des attributs de lÕargument features, dŽpend du mot-clŽ
inheritance-typeÊ:
- si inheritance-type a la valeur simpleÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes dans la
dŽfinition de la sous-classe linguistique remplacent la valeur de la classe m•re, spŽcifiŽes
pour le m•me attribut. Par exemple, si X est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X (feature-structure ((trait1 X)
(trait2 Y)))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X’ (X ((trait1 A)
(trait3 Z)))
alors XÕ correspond ˆ la structureÊ:
(feature-structure ((trait1 A)
(trait2 Y)
(trait3 Z)))
- si inheritance-type a la valeur unificationÊ: pour chaque mot-clŽ, les valeurs spŽcifiŽes
dans la dŽfinition de la sous-classe linguistique sÕunifient avec les valeurs de la classe
m•re, spŽcifiŽes pour le m•me attribut. Par exemple, si X est dŽfini de la mani•re
suivanteÊ:
(define-linguistic-class X (feature-structure ((trait1 X)
(trait2 Y)))
et si XÕ est dŽfini de la mani•re suivanteÊ:
(define-linguistic-class X’ (X ((trait1 A)
(trait3 Z)))
alors XÕ correspond ˆ la structureÊ:
(feature-structure ((trait1 U’(A, X))
(trait2 Y)
(trait3 Z)))
2.2.7.3.
Unification
LÕunification sur ΣÕstructures de traits × ΣÕstructures de traits est dŽfinie de la mani•re suivanteÊ:
UÊ:
ΣÕ structures de traits × ΣÕstructures de traits → ΣÕ structures de traits
(S1, S2) → S
Soit t1 lÕensemble des traits dŽfinis dans S1 et t2 lÕensemble des traits dŽfinis dans S2 .
LÕensemble t des traits de S estÊ: t1 ∪ t2. Les valeurs associ•es aux trait de t1 ∩ t2 sont Žgales au
rŽsultat de lÕunification faible des valeurs associŽes aux traits de S1 et des valeurs associŽes
aux traits de S2. Les traits qui ne sont pas communs aux deux structures prennent la valeur qui
leur est attribuŽe ˆ lÕorigine.
2.2.8. Ensembles
Parmi les structures de base de tout syst•me, on trouve les ensembles. Les ensembles dŽfinis
ici peuvent contenir des ŽlŽments homog•nes (tous de la m•me classe) ou hŽtŽrog•ne (de
classes diffŽrentes).
2.2.8.1.
DŽfinition de la structure
La dŽfinition dÕune classe fonction se fait de la mani•re suivanteÊ:
(set-of possible-values keywords*)
o• lÕargument possible-values est la liste des classes acceptables pour les ŽlŽments de
lÕensemble, et o• les mots-clŽs dŽfinissent des contraintes de cardinalitŽ sur lÕensembleÊ:
:min-elements number
:max-elements number
2.2.8.2.
spŽcifie le nombre minimal dÕŽlŽments dans lÕensemble (par
dŽfautÊ: 0).
spŽcifie le nombre maximal dÕŽlŽments dans lÕensemble (par
dŽfautÊ: pas de maximum).
HŽritage
Si parent-class est une classe dÕensembles, on peut en hŽriter en dŽfinissant une nouvelle
classe linguistique parÊ:
(parent-class possible-values keywords*)
o• lÕargument possible-values est une liste de classes et o• les mots-clŽs redŽfinissent les
contraintes de cardinalitŽ sur parent-class.
Si le mot-clŽ inheritance-type nÕest pas spŽcifiŽ (ou vaut simple), lÕensemble des classes
acceptables pour les ŽlŽments de la classe ainsi dŽfinie est Žgal aux classes acceptables
indiquŽes dans possible-values .
Les contraintes de cardinalitŽ, sont redŽfinies si elles sont respŽcifiŽes.
Si le mot-clŽ inheritance-type est Žgal ˆ unification, lÕensemble des classes acceptables pour
les ŽlŽments de la classe ainsi dŽfinie est Žgal ˆ lÕintersection des classes acceptables
indiquŽes dans possible-values et des classes acceptables pour parent-class.
Si les contraintes de cardinalitŽ sont redŽfinies, le minimum (resp. maximum) sera pris comme
contrainte pour le nombre minimal (resp. maximal dÕŽlŽments).
2.2.8.3.
Unification
LÕunification sur ΣÕensembles × ΣÕensembles est dŽfinie de la mani•re suivanteÊ:
UÊ:
ΣÕ ensembles × ΣÕensembles → ΣÕ ensembles
(E1, E2) → E
Soit c1 lÕensemble des classes acceptables dŽfinies dans E1 et c2 lÕensemble des classes
acceptables dŽfinies dans E2. LÕensemble c des classes acceptables pour E est Žgal ˆ c1Ê∩Êc2.
Le nombre minimal dÕŽlŽments dÕune instance de E est Žgal au minimum des nombres
minimaux dÕŽlŽments des instances de E1 et de E2.
Le nombre maximal dÕŽlŽments dÕune instance de E est Žgal au maximum des nombres
maximaux dÕŽlŽments des instances de E1 et de E2.
2.2.9. Disjonction
LorsquÕon dŽfinit une structure linguistique, il est tr•s intŽressant de pouvoir dŽfinir une
disjonction de classes.
2.2.9.1.
DŽfinition de la structure
La dŽfinition dÕune classe disjonction se fait de la mani•re suivanteÊ:
(one-of possible-values)
o• lÕargument possible-values est la liste des classes acceptables pour une de ses instances.
Une instance de classe (one-of (X Y Z)) est soit une instance de classe X, soit une instance
de classe Y, soit une instance de classe Z.
2.2.9.2.
HŽritage
Si parent-class est une classe disjonction, on peut en hŽriter en dŽfinissant une nouvelle classe
linguistique parÊ:
(parent-class possible-values)
o• lÕargument possible-values est une liste de classes.
Si inheritance-type nÕest pas spŽcifiŽ (ou vaut simple), lÕensemble des classes acceptables pour
les ŽlŽments de la classe ainsi dŽfinie est Žgal aux classes acceptables indiquŽes dans possiblevalues .
Sinon, lÕensemble des classes acceptables pour les ŽlŽments de la classe ainsi dŽfinie est Žgal ˆ
lÕintersection des classes acceptables indiquŽes dans possible-values et des classes
acceptables pour parent-class.
2.2.9.3.
Unification
LÕunification sur ΣÕdisjonction × ΣÕdisjonction est dŽfinie de la mani•re suivanteÊ:
UÊ:
ΣÕ disjonction × ΣÕdisjonction → ΣÕ disjonction
(D1, D2) → D
Soit c 1 lÕensemble des classes acceptables dŽfinies dans D1 et c2 lÕensemble des classes
acceptables dŽfinies dans D2. LÕensemble c des classes acceptables pour D est Žgal ˆ c1Ê∩Êc2.
2.2.10.
Types de base
Le langage de dŽfinition de lÕarchitecture linguistique permet aussi lÕutilisation de structures
logiques dont le comportement nÕest pas raffinable. Ces structures de base sontÊ:
- booleanÊ: une classe admettant deux instances interprŽtŽes comme vrai et faux.
- stringÊ: une classe dont les instances sont des cha”nes de caract•res de longueur
quelconque. Le codage de cha”nes utilisant des scripts variŽs dŽpend de la plate-forme
matŽrielle. Sur Macintosh, une telle cha”ne peut •tre associŽe ˆ un vecteur de style. Sur
une station Unix, on peut utiliser diffŽrents codages du syst•me, voire le codage
UNICODE .
- integerÊ: une classe dont les instances sont des entiers.
- realÊ: une classe dont les instances sont des rŽels.
- TÊ: une classe dont les instances sont quelconques (instances de nÕimporte quelle classe
du treillis (Σ, <<)).
2.3.
Implémentation
LÕimplŽmentation du noyau de SUBLIM repose sur le langage DŽcor, dŽfini et implŽmentŽ par
Mathieu Lafourcade [Lafourcade 1994b]. DŽcor est un langage de dŽcoration implŽmentŽ en
CLOS.
Ce langage permet de dŽfinir des types (analogues aux classes en CLOS). Il est possible de
contraindre les type de valeurs possibles pour les attributs (analogues aux slots en CLOS).
Enfin, on peut dŽfinir son propre mŽcanisme dÕhŽritage et associer, aux attributs dÕun type,
des contraintes qui devront •tre vŽrifiŽs ˆ tout moment.
2.3.1. Les structures de base
Les structures de base de SUBLIM sont implŽmentŽes comme des types en DƒCOR . Les ŽlŽments
du dictionnaire seront des instances de ces types.
Ë titre dÕillustration, nous allons donner lÕimplŽmentation des types structures de traits, arbres,
et ensembles.
LÕimplŽmentation des structures de traits est immŽdiate dans un langage de dŽcoration tel que
DŽcor, ces structures Žtant dŽjˆ dŽfinies sous le nom :aggregatedÊ:
(define! feature-structure :type
(:is-a :aggregated))
Le type arbre nÕest pas dŽfini dans DƒCOR . Nous allons donc le dŽfinir comme un type
agrŽgat. Chaque arbre contient un trait donnant son p•re, la liste de ses fils et sa dŽcorationÊ:
(define! daughters :type
(:is-a :list)
(:allowed-types '(tree)))
(define! tree :type
(:is-a :aggregated)
(father (:type 'tree)
(:obl t))
(daughters (:type 'daughters)
(:obl t))
(decoration (:type :top)))
Enfin, le type liste Žtant dŽfini dans DŽcor, nous l'utiliserons pour l'implŽmentation des
ensemblesÊ:
(define! set-of :type
(:is-a :list))
2.3.2. Les classes linguistiques
La dŽfinition des classes linguistiques est faite par rapport aux structures de base ou ˆ des
classes linguistiques dŽjˆ dŽfinies. Cette dŽfinition se traduit par la crŽation dÕun nouveau type
DƒCOR hŽritant du type correspondant ˆ la structure de base.
Les expressions de dŽclaration de classes linguistiques sont des macros LISP qui se rŽŽcrivent
sous forme de dŽfinitions de types.
Nous donnons un exemple dÕune telle dŽclaration pour des structures de traits, des arbres et
des ensembles.
Le premier exemple est une dŽclaration de structure de traits.
(define-linguistic-class morph
(feature-structure
(graphic-form string)
(category
cat))
Cette dŽclaration se rŽŽcrit enÊ:
(define! morph :type
(:is-a 'feature-structure)
(graphic-form (:type :lexical))
(category (:type 'cat)))
Le second exemple porte sur la dŽclaration dÕune classe linguistique basŽe sur une structure
dÕarbreÊ:
(define-linguistic-class entry
(tree :root
morph
:leaves sem-unit))
Cette dŽclaration se rŽŽcrit enÊ:
(define! entry :type
(:is-a 'tree)
(:root-decoration '(morph))
(:leaves-decoration '(sem-unit)))
o• les contraintes root-decoration et leaves-decoration ont ŽtŽ dŽfinies comme suitÊ:
(define! root-decoration :constraint
(:arguments (decoration-classes :list))
(:object-category :decor)
(:daemons :if-added)
(:check-constraint-method (object object-category constraint-name args)
(if (and (first args) (= (get-value object.father) nil))
(or-list
(mapcar #'(lambda (x)
(is-a-p (get-value object.decoration) x))
(first args)) ))))
(define! leaves-decoration :constraint
(:arguments (decoration-classes :list))
(:object-category :decor)
(:daemons :if-added)
(:check-constraint-method (object object-category constraint-name args)
(if (and (first args) (= (get-value object.daughters) nil))
(or-list
(mapcar #'(lambda (x)
(is-a-p (get-value object.decoration) x))
(first args)) ))))
Le troisi•me exemple porte sur la dŽfinition dÕune classe linguistique basŽe sur une structure
dÕensembleÊ:
(def-linguistic-class valency
(set-of (nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom
entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf
adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière
zéro)))
Cette dŽfinition se rŽŽcrit enÊ:
(define! valency :type
(:is-a 'set-of)
(:allowed-types
'(nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom
entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf
adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière
zéro)))
LÕhŽritage dÕune structure linguistique dŽfinie auparavant se traduit exactement de la m•me
mani•re quÕune dŽfinition, ˆ partir dÕune des structures de base prŽdŽfinies. Si par exemple la
classe linguistique UM est dŽfinie de la mani•re suivanteÊ:
(def-linguistic-class UM
(feature-structure
((formes-brèves (set-of ((link :target UM
:label type-forme-brève))))
(étymologie
(set-of ((link :target étymon))))
(combVE
(link :target combVE))
(appellation
string)
)))
Cela correspond en DƒCOR ˆÊ:
(define! UM :type
(:is-a 'feature-structure)
(formes-brèves (define! nil :type
(:is-a 'set-of)
(:allowed-types
'((define nil :type
(:is-a 'link)
(target (:type 'UM))
(label (:type 'type-forme-brève)))))))
(étymologie
(define! nil :type
(:is-a 'set-of)
(:allowed-types '((define nil :type
(:is-a 'link)
(target (:type 'étymon)))))))
(combVE
(define nil :type
(:is-a 'link)
(target (:type 'combVE))))
(appellation
:lexical))
Il sera possible dÕhŽriter de cette structure, comme dans la dŽfinition suivanteÊ:
(def-linguistic-class UM_S
(UM
((usyn-l
(set-of (USyn)))
(a-pour-Umg (set-of (Umg) :min-elements 1))
(a-pour-Ump (set-of (Ump) :min-elements 1)))
))
Ce qui correspond, de mani•re analogue, ˆÊ:
(define! UM_S :type
(:is-a 'UM)
(usyn-l
(define! nil :type
(:is-a 'set-of)
(:allowed-types '(USyn))))
(a-pour-Umg (define! nil :type
(:is-a 'set-of)
(:allowed-types '(Umg))
(:range 1)))
;; seule la borne inférieure est notée
;; lorsqu'il n'y a pas de borne sup.
(a-pour-Ump (define! nil :type
(:is-a 'set-of)
(:allowed-types '(Ump))
(:range 1)))
Lorsque lÕinterprŽtation de lÕhŽritage est diffŽrente du mŽcanisme dÕhŽritage standard, DƒCOR
permet, gr‰ce ˆ des formules, de modifier cet hŽritage. Ainsi, on dŽfinit lÕhŽritage dÕune
structure dÕensemble de la mani•re suivanteÊ:
(def-linguistic-class T2
(T1 (x1 x2 x3)
:min-elements 1))
se rŽŽcrit enÊ:
(define! T2 :type
(is-a 'T1)
(:allowed-types (:value '(set-inheritance super-type '(x1 x2 x3)))
(:interpretation :formula))
(:range (:value '(min (get-value T1.range 1)))
(:interpretation :formula)))
o• set-inheritance est une fonction LISP calculant lÕhŽritage sur lÕensemble des classes
possibles pour les ŽlŽments de lÕensemble.
2.3.3. ƒtendre SUBLIM
Il est possible dÕŽtendre S U B L I M en lui ajoutant des structures logiques de base
supplŽmentaires. Cette extension passe par la dŽfinition dÕun type de base portant le nom de
la structure que lÕon ajoute.
Ce nouveau type T doit rŽpondre au protocole SUBLIM, qui spŽcifieÊ:
- la dŽfinitionÊ: on doit dŽfinir une macro ayant la forme gŽnŽrale du langage noyau
SUBLIM et se rŽŽcrivant en une dŽfinition de sous-type de T,
- lÕhŽritageÊ: on doit dŽfinir une formule rŽgissant lÕhŽritage dÕune classe linguistique basŽe
sur T.
Il est ainsi assez facile de dŽfinir une nouvelle structure linguistique dans le noyau de SUBLIM.
DÕautre part, comme nous le verrons dans la suite, SUBLIM nÕest pas restreint ˆ un noyau de
manipulation de structure, et comporte de nombreux outils qui sont dŽveloppŽs dans le
chapitre suivant.
Une extension de SUBLIM est donc bien plus complexe, puisquÕelle demande que la nouvelle
structure de base rŽponde aux diffŽrents protocoles des diffŽrents outils. Notons que cette
condition est nŽcessaire, mais non encore suffisante, puisque presque chacun de ces outils est
paramŽtrable par un langage spŽcialisŽ qui lui est propre. La syntaxe de ces langages
spŽcialisŽs devra donc Žventuellement •tre modifiŽe pour prendre en compte la nouvelle
structure de base.
V. Architecture logicielle et outils de gestion
1.
Architecture logicielle
LÕarchitecture logicielle utilisŽe dans ce projet a ŽtŽ dŽfinie lors de ma participation au projet
M ULTILEX . Cette architecture ayant ŽtŽ retenue par le consortium, elle est identique ˆ
lÕarchitecture de MULTILEX. Par contre, sa mise en Ïuvre est plus complexe, car MULTILEX
utilise un noyau fondŽ sur des structures de traits, alors que SUBLIM utilise un noyau fondŽ sur
le multi-formalisme.
LÕarchitecture logicielle de SUBLIM distingue fortement les probl•mes de stockage, de
manipulation et de visualisation des donnŽes. Elle est basŽe sur trois niveauxÊ:
- niveau base de donnŽesÊ: ce niveau est en charge du stockage effectif des donnŽes.
DiffŽrents syst•mes relationnels de gestion de bases de donnŽes peuvent •tre utilisŽs ˆ
ce niveau. On peut aussi vouloir utiliser des outils plus spŽcialisŽs (comme GENELEX qui
a expŽrimentŽ une approche Òtout en mŽmoireÓ). Ce niveau est invisible pour
lÕutilisateur.
- niveau interneÊ: ce niveau est en charge des diffŽrentes manipulations sur les entrŽes
de dictionnaires. CÕest ˆ ce niveau que les diffŽrents outils dÕun syst•me de gestion de
bases lexicales op•rent. Ce niveau correspond aux structures que le linguiste a dŽfinies
avec le langage LINGARD.
- niveau prŽsentationÊ: ce niveau est en charge de la prŽsentation des informations ˆ
lÕutilisateur. Cette prŽsentation nÕest pas nŽcessairement proche de la structure interne
utilisŽe. De plus, il peut •tre possible de proposer diffŽrentes prŽsentations dÕune m•me
information pour diffŽrents utilisateurs ou diffŽrents buts. Ce niveau de prŽsentation
peut •tre prototypŽ gr‰ce ˆ un Žditeur de documents structurŽs, comme GRIF.
Cette architecture est illustrŽe par la figure 5.1.
Le fonctionnement de cette architecture est basŽ sur lÕaller-retour entre les diffŽrents niveaux.
Une requ•te sera formulŽe au niveau prŽsentation, puis traduite en une structure du niveau
interne. Cette structure sera elle m•me traduite en une requ•te de base de donnŽes. Le
rŽsultat sera transformŽ en un ensemble de structures du niveau interne, qui sera visualisŽ au
niveau prŽsentation.
Visualisation de
l'information linguistique
Niveau présentation
entrée
Manipulation de
l'information linguistique
Niveau interne
Syntaxe
Niveau base de données
Système de
Gestion de Bases
de Données
Stockage des
informations
Figure 5.1Ê: Architecture logicielle du syst•me SUBLIM
Cette architecture permet au syst•me SUBLIM dÕ•tre neutre par rapport au type de base de
donnŽes que lÕon souhaite utiliser. Elle permet aussi de bien sŽparer structure interne et
prŽsentation, ce qui permet de bŽnŽficier des avantages exposŽs dans la partie suivante.
2.
Niveau Interne : manipulation des informations linguistiques
LÕutilisation dÕune base quelle quÕelle soit passe par la possibilitŽ dÕextraire des informations
de cette base. Dans lÕoutil SUBLIM , les informations linguistiques ont deux caractŽristiques
essentiellesÊ:
- une structuration tr•s forte,
- un mŽlange de structures logiques de base.
Il nous faut donc dŽvelopper un moyen qui permette dÕextraire de la base lexicale une
structure, selon les crit•res que le linguiste souhaite dŽfinir.
Pour extraire une structure de la base lexicale, le linguiste doit donner lÕensemble des
conditions minimales que doivent vŽrifier les structures ˆ extraire. Pour cela, il spŽcifie une
structure ÒpatronÓ. Le rŽsultat de cette requ•te dÕextraction est la liste des ŽlŽments de
dictionnaire qui sÕapparient avec la structure ÒpatronÓ.
Cette extraction peut •tre utilisŽe pour diffŽrents types dÕutilisation (navigation,
manipulation). Dans le cas o• le linguiste souhaite faire des calculs sur les structures ainsi
extraites, il est intŽressant dÕaffecter ˆ des variables des ŽlŽments de cette structure.
Pour dŽfinir une structure ÒpatronÓ, il faut pouvoir dŽnoter des instances particuli•res des
diffŽrentes classes linguistiques. Notre langage le permet.
De plus, lorsqu'on sait dŽnoter une structure linguistique, il faut pouvoir lire et manipuler les
diffŽrentes valeurs associŽes aux ŽlŽments de cette structure.
Dans cette partie, nous donnons un moyen de dŽnoter un ensemble de structures
linguistiques et un moyen de manipuler ses diffŽrentes parties.
2.1.
Dénoter un ensemble de structures
Pour dŽnoter un ensemble de structures, on dŽfinit un ÒpatronÓ. Ce patron est une structure
partiellement dŽfinie et comportant des variables. Il dŽsigne toutes les structures de la base
auxquelles il sÕapparie.
Les particularitŽs du syst•me Sublim font quÕun tel patron peut •tre complexe. Par exemple,
on doit pouvoir dŽsigner une structure dÕarbre, dont la racine est un automate o• lÕŽtat
dÕentrŽe est une structure de traits contenant au moins un trait nommŽ cat ayant la valeur X,
et dont les feuilles sont des structures de traits ayant un trait nommŽ cat avec la m•me valeur
X.
On le voit, le linguiste doit pouvoir spŽcifier un patron tr•s complexe. Dans ce cas, le plus
simple pour le linguiste est de manipuler une vue graphique. Il pourra ainsi visualiser sa
structure linguistique de mani•re simple alors que la traduction de cette vue graphique en sa
vue interne sera trop complexe pour •tre lisible.
Nous ne donnerons pas la syntaxe interne dans son ensemble, mais en montrerons des
extraits dans les exemples de contraintes et de r•gles de valeurs par dŽfaut que nous donnons
plus loin.
2.2.
Manipuler une structure linguistique
Pour manipuler une structure linguistique, il faut disposer de moyens d'accŽder aux
diffŽrentes composantes de cette structure. Dans cette section, nous donnons les diffŽrentes
fonctions d'acc•s aux informations linguistiques.
2.2.1. valeurs de base
Les valeurs de base (boolean, string, integer, real) sont notŽes sous leur forme habituelle. Par
exempleÊ:
- booleanÊ: true, false;
- stringÊ: "ceci est une chaîne", "cela aussi"É
- integerÊ: 1, 2, 3É
- realÊ: 1.32, 2É
2.2.2. Arbres
La manipulation d'une structure d'arbre passe par les primitives suivantesÊ:
- rootÊ: retourne la racine de l'arbreÊ;
- daughters: retourne les sous-arbres de l'arbreÊ;
- leavesÊ: retourne la liste des feuilles de l'arbreÊ;
- leave?Ê: retourne vrai si l'arbre est une feuilleÊ;
- nodesÊ: retourne la liste des nÏuds de l'arbre (cette fonction prend un argument
supplŽmentaire indiquant si le parcours se fait en profondeur d'abord ou en largeur
d'abord).
2.2.3. Graphes
La manipulation d'une structure de graphe passe par les primitives suivantesÊ:
- nodesÊ: retourne la liste des nÏuds du graphe, sans duplication, sans ordre particulierÊ;
- arcsÊ: retourne la liste des arcs du graphe, sans duplication, sans ordre particulier.
Sur un nÏud d'un graphe, on peut utiliser les primitivesÊ:
- entering-arcsÊ: retourne la liste des arcs menant ˆ ce nÏudÊ;
- leaving-arcsÊ: retourne la liste des arcs partant de ce nÏudÊ;
Sur un arc d'un graphe, on peut utiliser les primitivesÊ:
- sourceÊ: le nÏud d'o• vient l'arcÊ;
- targetÊ: le nÏud vers lequel pointe l'arc.
Et, indiffŽremment sur un nÏud ou sur un arcÊ:
- decorationÊ: retourne la structure de dŽcoration associŽe au nÏud (ou ˆ l'arc).
2.2.4. Liens
La manipulation d'un lien est identique ˆ la manipulation d'un arc de grapheÊ:
- sourceÊ: le nÏud d'o• vient l'arcÊ;
- targetÊ: le nÏud vers lequel pointe l'arcÊ;
- decorationÊ: retourne la structure de dŽcoration associŽe ˆ l'arc.
2.2.5. Automates
La manipulation d'une structure d'automate passe par les primitives suivantesÊ:
- starting-nodeÊ: retourne l'Žtat initial de l'automateÊ;
- ending-nodesÊ: retourne la liste des Žtats finals de l'automateÊ;
- nodesÊ: retourne la liste des nÏuds de l'automateÊ;
- transitionsÊ: retourne la liste des transitions de l'automate.
Sur l'Žtat d'un automate, on peut utiliser les primitivesÊ:
- entering-transitionsÊ: retourne la liste des transitions menant ˆ cet ŽtatÊ;
- leaving-transitionsÊ: retourne la liste des transitions partant de cet Žtat.
Sur une transition, on peut utiliser les primitivesÊ:
- sourceÊ: l'Žtat d'o• vient la transitionÊ;
- targetÊ: l'Žtat vers lequel pointe la transition.
Et, indiffŽremment sur un Žtat ou sur une transitionÊ:
- decorationÊ: retourne la structure de dŽcoration associŽe au nÏud (ou ˆ l'arc).
2.2.6. fonctions
La manipulation d'une structure fonction passe par les primitives suivantesÊ:
- labelÊ: retourne le label de la fonction (qui peut •tre une structure complexe)Ê;
- argumentsÊ: retourne les arguments associŽes ˆ une instance de fonction (lorsque cette
instance est associŽe ˆ une structure particuli•re)Ê;
- valueÊ: retourne la valeur associŽe ˆ une instance de fonction (lorsque cette instance est
associŽe ˆ une structure particuli•re)Ê;
- applyÊ: retourne la valeur rŽsultat de l'application de la fonction aux arguments passŽs en
param•tres.
2.2.7. Structures de traits
La manipulation d'une structure de traits passe par les primitives suivantesÊ:
- get-valueÊ: prend un chemin en param•tre, et retourne la valeur associŽe ˆ ce cheminÊ;
- featuresÊ: liste les traits ayant une valeur dŽfinie dans la structureÊ;
- unifyÊ: unifie les deux structures de traits passŽes en param•tres.
2.2.8. ensembles
- unionÊ: union ensemblisteÊ;
- intersectionÊ: intersection ensemblisteÊ;
- subset?Ê: vŽrifie que le second argument (un ensemble) est sous-ensemble du premier
(un ensemble)Ê;
- element?Ê: vŽrifie que le second argument (un ŽlŽment) est ŽlŽment du premier (un
ensemble)Ê;
- cardÊ: renvoie le cardinal de l'ensemble.
3.
Éditeur, navigateur
Le niveau prŽsentation dŽfini dans lÕarchitecture logicielle du syst•me SUBLIM regroupe
notamment un Žditeur et un navigateur.
LÕŽditeur permet la crŽation, la modification ou lÕeffacement dÕune entrŽe de dictionnaire.
LÕŽditeur doit proposer une vue dÕensemble de lÕentrŽe de dictionnaire.
Le navigateur permet la sŽlection et la visualisation dÕentrŽes de dictionnaire. Dans lÕidŽal, un
tel navigateur devrait proposer diffŽrentes visualisations des informations, suivant lÕutilisateur
et suivant ses buts.
NŽanmoins, il est souhaitable que le navigateur et lÕŽditeur soient confondus. En effet, cÕest
par la navigation que lÕon dŽtecte dÕŽventuelles erreurs dans un dictionnaire, et il est frustrant
de ne pas pouvoir modifier lÕentrŽe en question sans changer dÕoutil. Aussi, lÕoutil de
navigation doit proposer des fonctions dÕŽdition lorsque la visualisation le permet (lorsquÕil
est possible de passer dÕune modification sur la prŽsentation ˆ une modification sur la
structure interne du dictionnaire).
CÕest pour toutes ces raisons que nous avons choisi de rŽutiliser les rŽsultats des recherches
faites dans le domaine des documents structurŽs. Nous partons de la constatation quÕun
dictionnaire est un document structurŽ. Dans cette section, nous commencerons par donner
un aper•u de ce quÕest un document structurŽ. Nous donnerons ensuite les avantages de
lÕutilisation des documents structurŽs dans le contexte des bases lexicales multilingues.
3.1.
Les documents structurés
Dans le domaine de lÕŽdition de documents, on peut distinguer une typologie partielle des
syst•mes de production de documentsÊ:
- Traitements de texteÊ: ces syst•mes de production permettent lÕŽdition de documents
(principalement textuels), en affectant ˆ certaines parties du texte des attributs
ÒtypographiquesÓ. Il permettent donc dÕŽditer le texte, et sa forme.
- FormateursÊ: ce sont des outils non-interactifs, ils prennent une description de la
typographie dÕun document (dans un format particulier) et en produisent une version
formatŽe. Certains des formats utilisŽs permettent de sÕabstraire de la prŽsentation du
document.
- ƒditeurs et formateurs spŽcialisŽsÊ: ces syst•mes permettent dÕŽditer des ŽlŽments nontextuels, comme des formules ou des dessinsÉ
Ë cette typologie, se rajoutent les Žditeurs de documents structurŽs. Leur concepteurs partent
dÕune constatation simpleÊ: un document a une structure. Par exemple, un article de revue a un
titre, une liste dÕauteurs, un rŽsumŽ, un ensemble de parties, de sous-parties, de paragraphes,
de figures, etc. Ces diffŽrents ŽlŽments se combinent entre eux pour former un document, de
mani•re structurŽe (en effet, un paragraphe peut •tre ŽlŽment dÕune sous-partie, elle m•me
ŽlŽment dÕune partie).
Partant de cette constatation, on a pu dŽvelopper des syst•mes de production et dÕŽdition de
documents structurŽs qui utilisent une description de la structure des documents quÕils
produisent. Ces documents, ou certains de leurs ŽlŽments, peuvent •tre tr•s fortement
structurŽs (comme une Žquation mathŽmatique).
La structure que connait lÕŽditeur est une structure logique. Pour que lÕutilisateur puisse crŽer
(ou lire) un document, le syst•me de production de documents doit pouvoir en offrir une
visualisation (titre centrŽ gras, auteurs centrŽs italiqueÉ). Cette visualisation est une structure
physique de prŽsentation reflŽtant tout ou partie de la structure logique du document. Ainsi,
un article peut •tre visualisŽ de diffŽrentes mani•resÊ: sous la forme habituelle, avec des styles
diffŽrents, sous forme de planÉ
Pour cela, on peut dŽfinir diffŽrentes ÒprŽsentationsÓ dÕun m•me article. Le titre sera centrŽ
pour un article dans la revue X ou bien cadrŽ ˆ gauche dans la revue Y. Ces prŽsentations
rŽgissent donc la forme globale du document. Parall•lement ˆ ces prŽsentations, on peut
dŽfinir diffŽrentes ÒvuesÓ qui agissent comme des filtres sur les informations ˆ prŽsenter. Il est
ainsi possible de ne montrer que le plan dÕun articleÊ:
Figure 5.2Ê: Un article vu sous forme de table des mati•res
Ce document est un article dont on a simplement changŽ la vue. La vue standard du
document le montrera dans son ensembleÊ:
Figure 5.3Ê: Le m•me article vu sous la forme habituelle
Une telle mŽthode permet de sÕaffranchir des probl•mes typographiques lors de lÕŽdition dÕun
document.
3.2.
Le dictionnaire, un document structuré
De la m•me mani•re quÕun document a une structure interne, un dictionnaire est un
ensemble dÕarticles ayant une structure particuli•re. Dans le chapitre prŽcŽdent, nous avons
exposŽ les moyens dont dispose le linguiste pour dŽfinir la structure dÕune base lexicale et
des dictionnaires quÕelle contient.
LorsquÕon veut crŽer, remplir, gŽrer ou consulter un dictionnaire, on utilise une forme
particuli•re reflŽtant cette structure interne. La problŽmatique Žtant analogue ˆ celle des
documents structurŽs, nous proposons de rŽutiliser les outils produits dans ce domaine pour
gŽrer lÕinterface entre un utilisateur et un dictionnaire.
Un dictionnaire est tout de m•me un document structurŽ particulier, par sa taille, par la
complexitŽ des structures quÕil peut contenir, et par le nombre ŽlevŽ dÕusages diffŽrents que
lÕon veut en faire.
Ces particularitŽs rendent cruciale la possibilitŽ de proposer diffŽrentes vues dÕun m•me
dictionnaire. En effet, les utilisateurs dÕun dictionnaire souhaitent avoir une forme particuli•re
ˆ leur usage, soit parce quÕelle est mieux adaptŽe ˆ leurs motivations, soit parce quÕils ne
souhaitent voir que les informations pertinentes ˆ un usage particulier.
Pour illustrer cette possibilitŽ, prenons lÕexemple dÕun dictionnaire bilingue que nous allons
coder en GRIF. Ce dictionnaire a un titre, des commentaires, et une liste dÕentrŽes regroupŽes
en lettres.
Les entrŽes du dictionnaire se composent dÕun lemme, dÕune catŽgorie et dÕune liste de sens.
Un sens comprend un contexte ou synonyme (lÕidentifiant parmi les diffŽrents sens possibles)
ainsi quÕune liste de constructions syntaxiques (un ensemble dÕarbres), une liste de
traductions (repŽrŽes par un contexte), et une liste dÕexemples avec leurs traductions.
En GRIF, cette structure sÕŽcrit de la mani•re suivante, dans le langage S4 Ê:
{Nom de la structure}
STRUCTURE bilingue;
{Nom de sa présentation principale}
DEFPRES bilingueP;
STRUCT
{Un dictionnaire bilingue a deux attributs (la langue cible et la langue source}
{Il a un nom, des commentaires et un ensemble d’entrées }
bilingue (ATTR !Langue_source = TEXT; !Langue_cible = TEXT) =
BEGIN
Nom_Dico = Text;
?Commentaire = Paragraphe_sequence;
Entr\351e_sequence = LIST OF (Lettres_Entr\351e);
END;
Paragraphe_sequence = LIST OF (Paragraphe);
{ Les entrées sont regroupées par lettres }
Lettres_Entr\351e (ATTR !Lettre = TEXT) = LIST OF (Entr\351e);
{ Une entrée comprend un lemme, une catégorie et une liste de sens }
Entr\351e = BEGIN
Lemme = TEXT;
cat\351gorie = TEXT;
Liste_sens = LIST OF (sens);
END;
{ Le sens est indiqué par un contexte, suivi d’un ensemble d’arbres
syntaxiques, de traductions et d’exemples }
sens = BEGIN
Contexte_Global = TEXT;
?Syntaxes = LIST OF (Arbre);
?Traductions = LIST OF (Trad);
?Exemples = LIST OF (Exemple);
END;
4 L’annexe B donne une introduction à GRIF et présente brièvement ses différents langages.
Trad = BEGIN
Contexte_Source = TEXT;
Traduction = TEXT;
END;
Exemple = BEGIN
Exemple_Source = TEXT;
Traduction_exemple = TEXT;
END;
END
LorsquÕon indexe ce dictionnaire, on veut avoir une vue o• les informations sont compl•tes et
clairement sŽparŽes. Ainsi, lÕentrŽe composer du dictionnaire peut •tre crŽŽe sous la forme
donnŽe par les figures 5.4 et 5.5.
Figure 5.4Ê: Vue intŽgrale de lÕentrŽe composer (transitif)
Figure 5.5Ê: Vue intŽgrale de lÕentrŽe composer (intransitif)
Cette vue nous permet dÕŽditer chaque entrŽe en connaissant sa structure. On peut de plus
Žditer les arbres syntaxiques des diffŽrents sens.
Si lÕon souhaite Žditer ce dictionnaire sous une forme papier, on ne veut pas forcŽment voir
lÕensemble de sa structure, mais uniquement les informations nŽcessaires ˆ un humain. Une
telle vue ÒŽditorialeÓ est donnŽe dans la figure 5.6.
Figure 5.6Ê: Vue Žditoriale du dictionnaire bilingue
Enfin, si lÕon souhaite uniquement faire une Žtude des arbres syntaxiques des diffŽrents sens
des entrŽes, on utilisera une vue permettant de masquer les informations non pertinentes.
Cette vue est donnŽe en figure 5.7.
Figure 5.7.Ê: Vue ÒsyntaxiqueÓ du dictionnaire bilingue.
LÕutilisation dÕun syst•me de production de documents structurŽs nous permet donc, pour un
cožt rŽduit, dÕoffrir de nombreuses vues dÕun m•me dictionnaire. Par la crŽation de vues
ÒŽditorialesÓ, on int•gre lÕensemble de la cha”ne de production dÕun dictionnaire (conception,
crŽation, gestion, ŽditionÉ) dans un seul outil.
LÕutilisation du syst•me GRIF, pour la prŽsentation des donnŽes, est facilitŽe par son
architecture. En effet, il ne se prŽsente pas uniquement comme une application autonome et
fermŽe, mais comme une bo”te ˆ outils. Cet aspect permet de lÕutiliser, non pas comme un
Žditeur indŽpendant du syst•me SUBLIM, mais comme un composant intŽgrŽ au syst•me.
NŽanmoins, GRIF prŽsente actuellement deux limitations qui sont importantes dans le
contexte des dictionnaires.
En premier lieu, GRIF est un outil mono-script. Cela signifie quÕil nÕest capable de gŽrer que
les langues dont lÕŽcriture est basŽe sur lÕalphabet romain. Ainsi, il est impossible de
manipuler des dictionnaires russes, arabes, chinois ou japonais 5 .
LÕŽditeur GRIF permet dÕŽditer et de manipuler du texte. Or, certaines structures de
dictionnaire ont des attributs qui ont un nombre fini de valeurs atomiques possibles. Dans ce
cas, on souhaiterait que lÕŽditeur ne permette pas la saisie dÕune valeur non prŽvue. Cela peut
se faire en associant lÕattribut en question ˆ un menu dŽroulant contenant lÕensemble des
valeurs possibles. Mais, deuxi•me limitation, lÕutilisation dÕun tel menu nÕest pas possible ˆ
lÕintŽrieur dÕun document GRIF.
Bien que GRIF soit utilisable pour construire une maquette de syst•me, voire un prototype
limitŽ dans les langues quÕil accepte, il ne peut pas •tre utilisŽ dans son Žtat actuel pour la
crŽation dÕun syst•me de gestion de dictionnaires multilingues.
Son utilisation dans une maquette a deux avantages importantsÊ:
- illustrer les avantages dÕune approche du dictionnaire en tant que document structurŽ,
- inciter les constructeurs de syst•me de production de documents structurŽs ˆ gŽnŽraliser
leurs produits et ˆ les Žtendre ˆ de nouveaux scripts.
4.
Vérificateur de cohérence
Le but du vŽrificateur de cohŽrence est de vŽrifier que les entrŽes dÕun dictionnaire sont
conformes ˆ des contraintes spŽcifiŽes a priori. Ces contraintes sont dŽfinies en rŽfŽrence ˆ la
structure linguistique du dictionnaire.
Pour chaque dictionnaire, le linguiste peut dŽfinir un ensemble de contraintes et les vŽrifier
sur lÕensemble du dictionnaire lorsquÕil le souhaite (contraintes statiques). Il peut aussi dŽfinir
des contraintes qui seront vŽrifiŽes ˆ chaque fois quÕune entrŽe sera crŽŽe ou modifiŽe
(contraintes dynamiques).
Notons que certaines parties de la dŽfinition de lÕarchitecture linguistique sont analogues ˆ
des contraintes (la cardinalitŽ dÕune liste par exemple). Ces contraintes, dites ÒstructurellesÓ
sont vŽrifiŽes dynamiquement ˆ la modification des attributs sur lesquels elles portent.
Apr•s avoir prŽcisŽ les notions utilisŽes par le vŽrificateur de cohŽrence, nous donnerons
quelques exemples de contraintes.
4.1.
Notions
Une contrainte est une r•gle dŽfinie par un linguiste. Ces contraintes sont vŽrifiŽes lorsque le
linguiste le souhaite, o• ˆ chaque fois quÕune entrŽe est crŽŽe ou modifiŽe.
Un filtre est un ensemble de contraintes.
On dŽfinit trois niveaux de contraintesÊ:
- AlerteÊ: lorsquÕune contrainte de ce niveau est invalide pour une entrŽe, un message est
envoyŽ au linguiste. Tous les traitements restent autorisŽs sur cette entrŽe. LÕalerte
5 En effet, le travail de multilinguisation de G RIF effectué par Huy Khánh Phan [Phan 1991, Phan & Boitet 1992] a été
réalisé sur une version de laboratoire figée et n’a pas (encore) été repris dans la version commerciale, ni dans les
versions de recherche plus récentes du projet OPERA.
dispara”t d•s que le lexicographe valide lÕentrŽe. Ce type de contrainte est utilisŽ pour
dŽtecter des erreurs potentielles.
- DŽlaiÊ: lorsquÕune contrainte de ce niveau est invalide pour une entrŽe, un message est
envoyŽ au linguiste. LÕentrŽe en question ne pourra pas •tre exportŽe. Les traitements
interactifs (Ždition, navigation) ne sont pas changŽs. Ces contraintes sont utilisŽes pour
la gestion dÕentrŽes temporairement incompl•tes.
- CritiqueÊ: ce niveau de contrainte nÕest pertinent que pour une contrainte dynamique.
LorsquÕune contrainte de ce niveau est violŽe par une transaction sur une entrŽe, cette
transaction est annulŽe. Un message est envoyŽ au linguiste avec les renseignements
nŽcessaires ˆ la rectification de lÕerreur.
On dŽfinit trois types de contraintesÊ:
- IntŽgritŽÊ: une contrainte dÕintŽgritŽ sÕapplique ˆ un article dÕun dictionnaire de la base
lexicale. Elle assure quÕaucun article de la base lexicale ne prŽsente une configuration
illicite.
- CohŽrence localeÊ: un contrainte de cohŽrence locale sÕapplique ˆ diffŽrents articles dÕun
m•me dictionnaire. Ces contraintes permettent de vŽrifier la cohŽrence dÕun
dictionnaire.
- CohŽrence globaleÊ: une contrainte de cohŽrence globale sÕapplique ˆ diffŽrents articles
de diffŽrents dictionnaires dans une m•me base lexicale. Ces contraintes permettent de
vŽrifier la cohŽrence globale de lÕensemble des dictionnaires dans une base lexicale.
Une contrainte contient trois parties principalesÊ:
- un patron qui spŽcifie lÕensemble des objets de la base de donnŽes qui sont concernŽs
par cette contrainte,
- une expression boolŽenne qui doit •tre vŽrifiŽe par lÕensemble des objets concernŽs,
- une partie dŽclaration qui donne des informations supplŽmentaires sur la contrainte
(message dÕerreur, commentaire, niveauÉ).
Les contraintes dÕintŽgritŽ et de cohŽrence locale sont associŽes ˆ un dictionnaire. Les
contraintes de cohŽrence globale sont associŽes ˆ une base lexicale.
La dŽfinition dÕune contrainte ne peut se faire que si lÕon a auparavant dŽfini lÕarchitecture
linguistique des diffŽrents dictionnaires. En effet, les expression dÕextraction et les expressions
boolŽennes portent sur des ŽlŽments des diffŽrentes structures linguistiques.
Avant de donner des exemples de contraintes, nous dŽfinissons donc lÕarchitecture
linguistique de la base lexicale auxquelles elles sont associŽes.
4.2.
Structure de la base lexicale
La base lexicale sur laquelle portent nos exemples est basŽe sur une approche par transfert.
Elle est composŽe de 3 dictionnaires monolingues (fran•ais, anglais, allemand) et des six
dictionnaires bilingues correspondantsÊ:
(define-monolingual-dictionary french
:language "Français"
:owner
"GETA")
(define-bilingual-dictionary french-english
:type
unidirectionnal
:source french
:target english
:owner "GETA")
(define-lexical-database example-database
:owner
"GETA"
:comment "Une base lexicale fondée sur une approche bilingue"
:dictionaries
(french english german
french-english french-german ...))
LÕentrŽe dÕun dictionnaire monolingue est dŽfinie comme un arbre dont la racine est dŽcorŽe
par une structure de traits simple (contenant une catŽgorie et une forme graphique) et dont
les feuilles sont dŽcorŽes par des unitŽs sŽmantiques (cette structure a ŽtŽ dŽfinie plus en
dŽtail dans le paragraphe 2.1.1. du chapitre I de la partie B)Ê:
(define-linguistic-class french-entry
(tree :root
(feature-structure
(graphic-form string)
(category
cat))
:leaves french-sem-unit))
(define-linguistic-class cat
(one-of (nc np vb adj card deict repr sub coord)))
(def-linguistic-class french-sem-unit
(feature-structure
((category cat)
;; information de dérivation.
(drvv (feature-structure
((deriv-kind
(one-of (naction nresult nlieu nagent ninstr adject adjpass
adjpotpas adjresact verbe)))
(deriv-from sem-unit))))
(drvn (feature-structure
((deriv-kind
(one-of (ncond nlieu ninstr ncollect nperson adjrelat
adjqual verbe)))
(deriv-from sem-unit))))
(drva (feature-structure
((deriv-kind (one-of (nabst nperson verbe)))
(deriv-from sem-unit))))
;; information sur les valences
(val0 valency)
(val1 valency)
(val2 valency)
(val3 valency)
;; autres informations
(gnr (one-of (masc fem)))
(nbr (one-of (sg pl)))
(aux (one-of (être avoir)))
(reciproque (one-of (arg0-arg1 arg1-arg2)))
(aspect (one-of (achevé inachevé début fin duratif fréquent instantané)))
)))
(def-linguistic-class valency
(set-of (nom à+nom avec+nom comme+nom contre+nom dans+nom de+nom en+nom
entre+nom par+nom parmi+nom pour+nom sur+nom inf à+inf de+inf
adj que+ind que+subj se-moy se-pass lieu-stat lieu-dyn manière
zéro)))
LÕentrŽe dÕun dictionnaire bilingue est dŽfinie comme un lien reliant des entrŽes de
dictionnaires monolingues, et dŽcorŽ par une structure codant une condition et une action.
Ces conditions sont codŽes comme de simples cha”nes de caract•res.
(def-linguistic-class french-english-transfer-link
(link :source french::french-sem-unit
:target english::english-sem-unit
:label french-english-transfer-info))
(def-linguistic-class french-english-transfer-info
(feature-structure
((condition string)
(action
string))))
4.3.
Exemples de contraintes
On dŽfinit une contrainte par lÕexpression define-coherence-ruleÊ:
define-coherence-rule name
:applies-on
:verifies
:error-message
:level
pattern
boolean-expression
string
level
Le patron (pattern) est la spŽcification dÕune structure partielle contenant des variables. Ce
patron dŽsigne lÕensemble des structures du dictionnaire qui sÕapparient avec lui, ainsi quÕun
environnement o• les variables dŽfinies dans la structure partielle sont valuŽes.
LÕexpression boolŽenne est une expression LISP, utilisant les variables dŽfinies dans
lÕexpression dÕextraction et retournant un boolŽen.
Le niveau est lÕun des mot-clŽsÊ: :warning, :delay, :critical.
Le message dÕerreur est le message qui sera envoyŽ au linguiste si la contrainte est violŽe.
Pour spŽcifier le patron, qui dŽsigne l'ensemble des structures sur lesquelles porte la
contrainte, on dispose d'un moyen de dŽnoter une instance des classes linguistiques dŽfinies
pour le dictionnaire. Nous verrons comment spŽcifier ce patron dans les diffŽrents exemples.
4.3.1. Contraintes dÕintŽgritŽ
Les contraintes dÕintŽgritŽ permettent de vŽrifier la bonne formation dÕun article dans un
dictionnaire.
Ce type de contraintes est dŽfini au niveau du dictionnaire.
Dans lÕexemple que nous donnons, lÕattribut category est prŽsent dans lÕentrŽe et dans lÕunitŽ
sŽmantique, et lÕattribut category de lÕunitŽ sŽmantique doit avoir la m•me valeur que
lÕattribut category de lÕentrŽe correspondante.
Cette contrainte dÕintŽgritŽ sÕapplique ˆ tous les types dÕentrŽe. Le patron dŽsigne donc
lÕensemble des ŽlŽments de type french-entry dans la base. De plus, il nous faudra utiliser
chacun de ces ŽlŽments. Donc, il nous faut associer une variable qui prendra pour valeur
chacun des ŽlŽments tour ˆ tour. Pour cela, on note le nom de la variable (prŽcŽdŽ de @),
suivi dÕun patron reprŽsentant les ŽlŽments dont elle prendra la valeur.
LÕexpression boolŽenne doit vŽrifier, pour chacune des feuilles (les unitŽs sŽmantiques) de
lÕentrŽe en cours de vŽrification, que lÕattribut category de lÕunitŽ sŽmantique est Žgale ˆ
lÕattribut category de lÕentrŽe.
Cette contrainte sÕexprime de la mani•re suivanteÊ:
(define-coherence-rule synchro-category
:applies-on
(@Tree french-entry)
:verifies
(let ((tree-decor (root Tree))
(cat (get-value tree-decor.category))
(result T))
(do-list (Usem (leaves Tree))
(setf result (and result
(= cat (get-value Usem.category)))))
result)
:error-message "Catégorie incompatible pour l’une des unités sémantiques"
:level
:critical)
La seconde contrainte que lÕon souhaite tester est liŽe aux attributs de dŽrivation de chaque
unitŽ sŽmantique. Ces attributs (drvv, drvn, drva) sont incompatibles (un seul dÕentre eux
peut •tre instanciŽ ˆ la fois).
Cette contrainte porte sur toutes les unitŽs sŽmantiques.
LÕexpression boolŽenne doit vŽrifier quÕun seul parmi ces attributs est instanciŽ. LorsquÕun
attribut nÕest pas instanciŽ, sa valeur est :undef.
Cette contrainte sÕexprime de la mani•re suivanteÊ:
(define-coherence-rule only-one-drv
:applies-on
(@Usem french-sem-unit)
:verifies
(let ((drvv (get-value Usem.drvv))
(drvn (get-value Usem.drvn))
(drva (get-value Usem.drva)))
(cond ((not (= drvv :undef)) (and (= drvn :undef)
(= drva :undef)))
((not (= drvn :undef)) (and (= drvv :undef)
(= drva :undef)))
((not (= drva :undef)) (and (= drvv :undef)
(= drvn :undef)))
(T T)))
:error-message "Deux dérivations pour une unité sémantique"
:level
:critical)
La derni•re contrainte dÕintŽgritŽ que nous utiliserons porte aussi sur les dŽrivations. Le type
de dŽrivation dŽfini dŽpend de la catŽgorie de lÕunitŽ sŽmantique. Par exemple, un adjectif ne
peut porter une information indiquant quÕil est produit par une dŽrivation de verbe vers nom.
Nous fractionnons cette contrainte en plusieurs contraintes simples selon la catŽgorie de
lÕunitŽ sŽmantique de laquelle on dŽrive et de la catŽgorie de lÕunitŽ sŽmantique vers laquelle
on dŽrive. Ainsi, le patron dŽcrit les unitŽs sŽmantiques ayant une m•me catŽgorie et dŽrivant
dÕune m•me catŽgorie dÕunitŽ sŽmantique. Nous donnons en exemple les adjectifs dŽrivant
dÕun verbe.
Il nous faut de plus manipuler le type de dŽrivation. Le patron spŽcifie donc une variable en
valeur de lÕattribut deriv-kind. Comme on nÕimpose pas de restriction sur la valeur de ce trait,
seule la variable appara”t dans le patron (on ne dŽnote pas sa valeur).
LÕexpression boolŽenne vŽrifie que le type de dŽrivation est admis dans ce contexteÊ:
(define-coherence-rule adj-drvv-coherence
:applies-on
(french-sem-unit
[category : adj,
drvv : [deriv-kind : @kind]])
:verifies
(or (= kind 'adject)
(= kind 'adjpass)
(= kind 'adjpotpas)
(= kind 'adjresact))
:error-message "L’adjectif a une dérivation incompatible"
:level
:critical)
4.3.2. Contraintes de cohŽrence locale
Les contraintes de cohŽrence locale permettent de vŽrifier la bonne formation de lÕensemble
dÕun dictionnaire. Ces contraintes portent donc sur plusieurs unitŽs du dictionnaire.
Ce type de contrainte est dŽfini de mani•re identique aux contraintes prŽcŽdentes.
La contrainte que nous souhaitons dŽfinir vŽrifie que la catŽgorie de lÕunitŽ sŽmantique
indiquŽe comme source dÕune dŽrivation est compatible avec cette dŽrivation. En effet, si une
unitŽ sŽmantique est le rŽsultat dÕune dŽrivation en provenance dÕun verbe (resp. dÕun nom,
dÕun adjectif), alors lÕattribut drvv (resp. drvn, drva) sera spŽcifiŽ et lÕunitŽ sŽmantique
indiquŽe en valeur du trait deriv-from devra •tre un verbe (resp. dÕun nom, dÕun adjectif).
Nous dŽfinirons la contrainte vŽrifiant la cohŽrence pour lÕattribut drvv.
Cette contrainte porte sur toutes les entrŽes qui ont une valeur pour lÕattribut drvv.
LÕexpression boolŽenne suivant :verifies vŽrifie que lÕunitŽ sŽmantique indiquŽe en valeur
de lÕattribut deriv-from est un verbeÊ:
(define-coherence-rule drvv-deriv-from-coherence
:applies-on
(french-sem-unit
[drvv : [deriv-from : @source]])
:verifies
(= (get-value source.category) 'vb)
:error-message "Une dérivation verbale doit provenir d’un verbe."
:level
:critical)
4.3.3. Contraintes de cohŽrence globale
Les contraintes de cohŽrence globale vŽrifient la bonne formation de lÕensemble de la base
lexicale. Elles portent donc sur des unitŽs de diffŽrents dictionnaires.
Ce type de contrainte est dŽfini de mani•re analogue aux contraintes prŽcŽdentes , mais porte
sur diffŽrents dictionnaires. Le patron doit indiquer sur quel dictionnaire il sÕapplique. Pour
cela, chaque classe linguistique indiquŽe sera notŽe, prŽcŽdŽe du nom du dictionnaire et de
Ò::Ó.
Ce type de contrainte est dŽfini au niveau de la base lexicale.
La contrainte de cohŽrence globale que nous souhaitons indiquer vŽrifie que lÕunitŽ
sŽmantique, indiquŽe comme source sur un lien du dictionnaire french-english, existe bien
dans le dictionnaire french.
Cette contrainte porte sur tous les liens de transfert du dictionnaire bilingue french-english.
LÕexpression boolŽenne vŽrifie lÕexistence de lÕunitŽ sŽmantique source dans le dictionnaire
monolingue frenchÊ:
(define-coherence-rule drvv-deriv-from-coherence
:applies-on
(french-english::french-english-transfer-link
:source @french-sem-unit)
:verifies
(exist? french::@french-sem-unit)
:error-message "L’unité sémantique source du lien n’existe pas."
:level
:critical)
5.
Défauteur
Le but du dŽfauteur est de donner des valeurs par dŽfaut aux ŽlŽments des structures qui
nÕont pas ŽtŽ renseignŽs par le lexicographe. Pour calculer les valeurs par dŽfaut des
diffŽrents ŽlŽments, le dŽfauteur dispose de r•gles de calcul dŽfinies en faisant rŽfŽrence ˆ la
structure linguistique du dictionnaire.
Pour chaque dictionnaire, le linguiste peut dŽfinir un ensemble de r•gles de calcul produisant
des valeurs probables pour diffŽrents ŽlŽments des structures linguistiques. Ces contraintes
pourront •tre utilisŽes interactivement lors de lÕŽdition dÕune entrŽe (afin de faciliter le travail
du lexicographe) ou bien •tre utilisŽes pour complŽter des entrŽes importŽes ou partiellement
indexŽes.
Apr•s avoir prŽcisŽ les notions utilisŽes par le dŽfauteur, nous donnerons quelques exemples
de r•gles de dŽfaut.
5.1.
Notions
Une r•gle de valeur par dŽfaut contient trois parties principalesÊ:
- un patron qui spŽcifie lÕensemble des objets de la base de donnŽes qui sont concernŽs
par cette r•gle,
- un test qui doit •tre vŽrifiŽ pour que la r•gle sÕapplique,
- une expression qui associe une valeur ˆ un des ŽlŽments de la structure linguistique. Cet
ŽlŽment ne prendra sa nouvelle valeur que sÕil Žtait indŽfini auparavant (le linguiste a
cependant un moyen de forcer lÕaffectation sÕil le dŽsire).
On dŽfinit une r•gle de valeur par dŽfaut par lÕexpression define-default-ruleÊ:
define-default-rule name
:applies-on
:test
:do
:redefine?
pattern
boolean-expression
modifications
boolean
Le patron (pattern) a ŽtŽ dŽfini dans la section prŽcŽdente.
Le test est une expression boolŽenne. La r•gle ne sÕappliquera que si cette expression est
vŽrifiŽe.
La modification porte sur un et un seul ŽlŽment de la structure linguistique.
Le mot-clŽ :redefine? indique si on force lÕaffectation lorsque la valeur est prŽalablement
dŽfinie (par dŽfaut, sa valeur est false).
5.2.
Exemples de règles de valeurs par défaut
Les exemples suivants sÕappliquent sur la structure utilisŽe dans la section prŽcŽdente.
Notre premier exemple concerne le trait category de lÕentrŽe french-entry. Pour calculer sa
valeur par dŽfaut, on utilise une r•gle heuristique, qui spŽcifie que les lemmes se terminant en
ÒenceÓ sont probablement des noms.
Cette r•gle de dŽfaut sÕapplique sur toutes les entrŽes du dictionnaire.
Le test porte sur la terminaison du lemme.
La modification porte sur le trait category de lÕentrŽe.
(define-default-rule nominal-ending-ence
:applies-on
(@entry french-entry)
:test
(let ((decor (root entry)))
(suffix? (get-value decor.graphic-form) "ence"))
:do
(assign decor.category 'nc))
Notre second exemple de r•gle de valeur par dŽfaut permet de donner une valeur au trait
deriv-kind d'une unitŽ sŽmantique en s'appuyant sur le suffixe du lemme et sur sa catŽgorie.
Ainsi, un nom dont le lemme se termine par ÒementÓ est probablement un nom dŽrivŽ dÕun
verbe en tant que nom dÕaction.
Cette r•gle est complexe ˆ Žcrire car elle manipule une entrŽe (afin de tester le lemme) et une
des unitŽs sŽmantiques qui lui sont associŽes. Les unitŽs sŽmantiques sont les feuilles de
lÕarbre dont la racine est dŽcorŽe par le lemme et la catŽgorie. Ces feuilles apparaissent ˆ une
profondeur variable dans les diffŽrentes entrŽes. Aussi, le patron doit sŽlectionner une feuille
de lÕarbre qui se trouve ˆ une profondeur quelconque.
Pour cela, nous dŽfinissons un patron sur les arbres french-entry. Ce patron impose une
contrainte sur la dŽcoration de la racine (une dŽcoration est indiquŽe entre accoladesÊ:
Ò {patron-sur-décoration}Ó). Il sŽlectionne aussi une des racines de lÕarbre french-entry.
Pour cela, nous utilisons les notations suivantesÊ:
- @idÊ: dŽnote un arbre,
-
@*idÊ: dŽnote une for•t,
@/idÊ: dŽnote une multifor•t gauche,
@\idÊ: dŽnote une multifor•t droite,
@?idÊ: dŽnote un chemin dans un arbre (les nÏuds dÕun chemin sont sŽparŽs par des Ò.Ó),
@!idÊ: dŽnote une feuille.
Si on ne souhaite pas conserver la valeur dÕun de ces ŽlŽments, id sera la variable muette Ò-Ó.
Le test vŽrifie que le lemme se termine par ÒementÓ.
La modification porte sur lÕattribut deriv-kind de la dŽrivation verbale.
(define-default-rule noun+ement-naction
:applies-on
(french-entry:(@root {[category : nc]}
@[email protected]!Usem))
:test
(suffix? (get-value root.graphic-form) "ement"))
:do
(assign Usem.drvv.deriv-kind 'naction))
La r•gle suivante donne une valeur par dŽfaut ˆ lÕattribut reciproque de toutes les unitŽs
sŽmantiques. La valeur par dŽfaut de cet attribut est arg0-arg1.
Cette r•gle porte sur toute les unitŽs sŽmantiques.
Elle ne comporte pas de test.
Elle dŽfinit lÕattribut rŽciproque sÕil nÕest pas dŽfini.
(define-default-rule reciproque-default
:applies-on
(@Usem french-sem-unit)
:do
(assign Usem.reciproque 'arg0-arg1))
6.
Import/Export
Un outil tel que SUBLIM ne peut exister sans un mŽcanisme lui permettant dÕexporter les
informations de sa base lexicale, ou dÕimporter des informations de dictionnaires existants.
Le mŽcanisme dÕexport doit permettre de gŽnŽrer un fichier export qui refl•te la structure
dÕune base lexicale et qui soit utilisable par dÕautres applications. Il doit permettre aussi de
crŽer, ˆ partir des informations dÕune base lexicale, un structure dÕexport qui soit utilisable par
dÕautres applications.
LÕutilisabilitŽ dÕun fichier dÕexport passe par deux points essentielsÊ:
- le format du fichier doit •tre connu de lÕapplication visŽe,
- la structure exportŽe doit •tre connue de lÕapplication visŽe.
CÕest pour pouvoir satisfaire ces deux points que nous avons choisi dÕutiliser SGML (voir
annexe A). SGML permet lÕŽchange de documents dans des structures diverses. Afin dÕutiliser
un formalisme standardisŽ, nous utiliserons au maximum les entitŽs et types de documents
dŽfinis par la TEI (Text Encoding Initiative), notamment pour le codage des caract•res. La TEI
dÕailleurs offre des moyens standard de coder certaines des structures de donnŽes de base du
syst•me SUBLIM.
6.1.
Notions
Nous dŽfinirons un export standard de chacune des structures de base du syst•me afin de
pouvoir exporter des donnŽes sans avoir ˆ dŽfinir de structures particuli•res dÕexport. Ainsi,
un mecanisme dÕexport des structures de traits sera fait vers le standard de codage des
structures de traits de TEI.
NŽanmoins, on peut prŽvoir que le linguiste voudra souvent gŽnŽrer une structure
particuli•re, dŽpendant de lÕapplication vers laquelle il exporte ses donnŽes. Cette structure
particuli•re ne sera pas nŽcessairement le reflet de la structure (ou dÕune partie de la
structure) du dictionnaire. CÕest pourquoi il faut pouvoir disposer dÕun mŽcanisme dÕexport
assez sophistiquŽ.
Lors dÕun processus dÕexport, on manipule deux structures diffŽrentes. La structure source est
une structure linguistique dŽfinie en SUBLIM. La structure cible est une structure SGML. De
m•me que lÕon dispose dÕune dŽfinition de la structure source (la dŽfinition de lÕarchitecture
linguistique de la base), on doit disposer dÕune dŽfinition de la structure SGML. Cette
dŽfinition est une DŽfinition de Type de Document (DTD) SGML. Elle est le prŽrequis ˆ toute
opŽration dÕexport.
La dŽfinition dÕune mŽthode dÕexport peut avoir diffŽrents aspects.
Dans certains cas, elle est prŽsentŽe comme un moyen de rŽŽcriture dÕune structure en une
autre. Dans ce cas, on parcourt une structure source et, au fur et ˆ mesure de ce parcours, on
construit la structure cible.
Dans dÕautre cas, elle est une traduction dÕune structure source vers une structure cible. Dans
ce cas, on dŽfinit des r•gles de traduction dÕune structure vers une autre. Ici, ces r•gles sont
donnŽes de fa•on dŽclarative, sans supposer aucun parcours particulier.
Nous considŽrons plut™t la dŽfinition dÕune mŽthode dÕexport comme le remplissage dÕune
structure cible selon des informations prises dans la structure source. Dans ce cas, on parcourt
la structure cible, et on calcule la valeur de chaque ŽlŽment de la structure en fonction des
valeurs trouvŽes dans la structure source. Cette mŽthode ne peut sÕappliquer que si lÕon a
auparavant gŽnŽrŽ un squelette de la structure cible.
LÕunitŽ du lexique constituŽe par la structure dÕexport nÕa pas de raison dÕ•tre la m•me que
lÕunitŽ du lexique que lÕon exporte.
Par exemple, le dŽcoupage en catŽgories des entrŽes du lexique dŽfini et utilisŽ dans les
sections prŽcŽdentes est plus grossier que celui dŽfini ici. Dans la structure d'export, un
lemme comme ÒcomposerÓ a deux entrŽes (une pour le verbe transitif, lÕautre pour le verbe
intransitif) alors que le lexique source ne comporte quÕune entrŽe (puisquÕon ne fait pas la
distinction entre verbe transitif et intransitif).
Pour cela, nous dŽcomposons la procŽdure dÕexport en deux parties distinctes. La premi•re
Žtape permet la crŽation du squelette formŽ par lÕensemble des unitŽs du lexique dÕexport.
Seules les informations nŽcessaires ˆ la dŽsignation dÕune unitŽ sont calculŽes ˆ ce moment.
Cette Žtape est rŽalisŽe par un ensemble de r•gles de rŽŽcriture.
Base Lexicale
SUBLIM
ƒtape 1Ê: crŽation des
unitŽs du lexique d'export
Lexique d'export
R
Figure 5.8Ê: Premi•re Žtape du processus dÕexport
Pour la seconde Žtape, le point de dŽpart est lÕune des unitŽs du lexique dÕexport. Cette Žtape
a pour but le remplissage de chacune des unitŽs du lexique dÕexport.
ƒtape 2Ê: remplissage des
unitŽs du lexique d'export
Base Lexicale
SUBLIM
UnitŽ du lexique
d'export
<entry>
<lemma> composition </lemma>
<category> nc </category>
<USem>
R
</USem>
</entry>
UnitŽ remplie du
lexique d'export
<entry>
<lemma> composition </lemma>
<category> nc </category>
R
<USem>
<derivation kind = nresult>
composer
</derivation>
...
</USem>
</entry>
Figure 5.9Ê: Seconde Žtape du processus dÕexport
Ainsi, lorsquÕon dŽfinit ces r•gles de remplissage, on se situe dans le contexte dÕune seule
unitŽ du lexique dÕexport. De plus, on se place dans le contexte dÕun ŽlŽment bien particulier
dans la structure de cette unitŽ. Ces r•gles sont associŽes ˆ chaque ŽlŽment de la structure
dÕexport.
Il est possible de disposer dÕune interface graphique pour dŽfinir les r•gles dÕexport. Cette
interface permettra de visualiser la structure cible. Ainsi, on peut associer ˆ chaque ŽlŽment de
la structure cible une mŽthode rŽgissant la crŽation et la forme de la valeur associŽe.
6.2.
Exemple d’export
La structure de dŽpart est la structure dŽfinie dans la section 4 de ce chapitre. La structure
cible est dŽfinie par la DTD SGML suivanteÊ:
<!-- GETA-IMAG, 1994, export.dtd v.1.0 23/08/94 -->
<!-- DTD d'une structure d'export -->
<!--Un dictionnaire est une liste d'entrées. On lui associe aussi une langue-->
<!ELEMENT Dict
- entry* >
<!ATTLIST Dict
language
CDATA
#REQUIRED >
<!-- Une entrée est composée d'un lemme et d'une catégorie. -->
<!-- Elle est associée à une liste de sens -->
<!ELEMENT entry
- Usem* >
<!ATTLIST entry
lemma
CDATA
#REQUIRED
category
%cat
#REQUIRED >
<!ENTITY % cat "nc|np|vt|vi|adj|card|deict|repr|sub|coord">
<!-- Usem code une unité sémantique. -->
<!ELEMENT Usem
- (derivation & aux & reciproque) >
<!-- La dérivation donne le lemme source. 2 attributs sont définis -->
<!-- pour coder la catégorie du lemme source et le type de dérivation. -->
<!ELEMENT derivation - CDATA >
<!ATTLIST derivation source_cat
%cat
#REQUIRED
kind
%deriv_kind
#REQUIRED >
<!ENTITY % deriv_kind "naction|nresult|nlieu|nagent|ninstr|ncond|ncollect|
nperson|nabst|adject|adjpass|adjpotpas|adjresact|
adjrelat|adjqual|verbe">
<!ELEMENT aux
- EMPTY >
<!ATTLIST aux
value
%auxiliary
<!ENTITY % auxiliary "être|avoir" >
#REQUIRED >
<!ELEMENT reciproque - EMPTY >
<!ATTLIST reciproque value
%recipr
<!ENTITY % auxiliary "arg0_arg1|arg1_arg2" >
#REQUIRED >
Le but de la procŽdure que nous illustrons ici est dÕexporter lÕensemble des noms et verbes
dÕun dictionnaire fran•ais dans la structure SGML dŽfinie ci-dessus.
La premi•re Žtape de cette procŽdure consiste ˆ crŽer les unitŽs du lexique dÕexport. Ces
unitŽs sont dŽsignŽes par leur lemme et leur catŽgorie. Ces deux attributs constituent
lÕensemble minimal permettant de dŽsigner une entrŽe de mani•re non ambigu‘.
La crŽation des unitŽs du lexique source est faite selon les r•gles dŽfinies parÊ:
create-export-unit name
:when
:if
:create
:context
pattern
boolean-expression
creation
variable-list
o• name identifie la r•gle de crŽation. Le mot-clŽ when prend pour valeur un patron. Cette
r•gle ne sera appelŽe que si une unitŽ du lexique sÕapparie avec lui. Le mot-clŽ if prend pour
valeur une condition portant sur les variables dŽfinies dans le patron. La crŽation nÕaura lieu
que si cette condition est vŽrifiŽe.
Le mot-clŽ creation prend pour valeur lÕexpression dÕune structure dÕexport. Dans cette
expression, on donne les ŽlŽment SGML qui sont ˆ crŽer. Les attributs SGML sont notŽs entre
accolades ˆ la suite de lÕŽlŽment qui les porte et les valeurs sont notŽes sous forme de
symboles ou de cha”nes de caract•res apr•s les ŽlŽments et leurs Žventuels attributs. Les sousŽlŽments sont notŽs entre parenth•ses.
Le mot-clŽ context indique le contexte qui sera conservŽ pour lÕŽtape suivante (remplissage).
LÕattribut creation spŽcifie les valeurs qui identifient de mani•re unique une unitŽ du lexique
dÕexport. Si cette unitŽ existe dŽjˆ, la crŽation nÕa pas lieu, mais le contexte de la r•gle sÕajoute
au contexte de lÕunitŽ dŽjˆ existante.
La crŽation des unitŽs nominales se fait sans probl•me, puisquÕil y a correspondance directe
entre les unitŽs nominales des deux lexiques. La r•gle de crŽation spŽcifie donc que, pour
chaque unitŽ nominale du lexique source, on crŽe une unitŽ dans le lexique dÕexportÊ:
(create-export-unit noun-creation
:when
(@entry french-entry:(@- {[category : @cat (?or nc np),
graphic-form : @lemma]}
@*-))
:create (entry {lemma = @lemma, category = @cat})
:context (@entry))
La crŽation des unitŽs verbales est plus complexe. En effet, on ne crŽera un verbe transitif que
si lÕune des unitŽs sŽmantiques dÕun verbe a une valence val1 nÕayant que la valeur nom. Un
verbe intransitif sera crŽŽ si lÕune des unitŽs sŽmantiques du verbe source considŽrŽ a une
valence val1 ayant une autre valeur que n o m. Ces entrŽes ne sont crŽŽes que si elles
nÕexistent pas encore.
(create-export-unit vt-creation
:when
(@entry french-entry:(@- {[category : @cat vb,
graphic-form : @lemma]}
@[email protected]!Usem))
:if
(equal (get-value Usem.val1) '(nom))
:create (entry {lemma = @lemma, category = vt})
:context (@entry @Usem))
(create-export-unit vi-creation
:when
(french-entry:(@- {[category : @cat vb,
graphic-form : @lemma]}
@[email protected]!Usem))
:if
(not (equal (get-value Usem.val1) '(nom)))
:create (entry {lemma = @lemma, category = vi})
:context (@entry @Usem))
Une fois que ces unitŽs sont crŽŽes, il faut les complŽter, ˆ partir des informations prŽsentes
dans la base. Pour cela, on associe ˆ chaque ŽlŽment de la structure dÕexport, un ensemble de
r•gles qui calculeront sa valeur, en se rŽfŽrant au contenu de la base lexicale.
Certains ŽlŽments doivent •tre crŽŽs avant dÕ•tre remplis. On aura donc, localement ˆ une
unitŽ du lexique export, un ensemble de r•gles de crŽation dÕŽlŽments. Ces r•gles sont
dŽfinies gr‰ce ˆÊ:
create-export-element name
:on
:when
:if
:create
:context
pattern
pattern
boolean-expression
creation
variable-list
o• name est le nom de la r•gle.
Le mot-clŽ on prend pour valeur un patron qui sÕappliquera sur lÕunitŽ dÕexport en cours de
traitement. Ce patron sert ˆ restreindre les unitŽs sur laquelle porte la r•gle, aussi bien quÕˆ
nommer des variables utilisŽes par la suite.
Le mot-clŽ when prend pour valeur un patron qui sÕappliquera sur le contexte de lÕunitŽ du
lexique dÕexport en cours de traitement. Cette r•gle ne sera appelŽe que si une unitŽ du
contexte sÕapparie avec le patron. Le mot-clŽ if prend pour valeur une condition portant sur
les variables dŽfinies dans le patron. La crŽation nÕaura lieu que si cette condition est vŽrifiŽe.
Le mot-clŽ creation prend pour valeur lÕexpression dÕune structure dÕexport. Dans cette
expression, on donne les ŽlŽment SGML qui sont ˆ crŽer. Les attributs SGML sont notŽs entre
accolades ˆ la suite de lÕŽlŽment qui les porte et les valeurs sont notŽes sous forme de
symboles ou de cha”nes de caract•res apr•s les ŽlŽments et leurs Žventuels attributs. Les sousŽlŽments sont notŽs entre parenth•ses.
Le mot-clŽ context indique le contexte qui sera conservŽ pour le remplissage des sousŽlŽments de la structure cible.
Le premier ŽlŽment ˆ remplir est lÕŽlŽment Usem. On associe donc ˆ lÕŽlŽment Usem certaines
r•gles de crŽation dÕŽlŽments.
(create-export-element Usem-filling
:on
(entry {lemma = @lemma, category = nc})
:when
(@entry french-entry:(@- {[category : @cat nc,
graphic-form : @lemma]}
@[email protected]!Usem))
:create (entry (Usem))
:context (@Usem @entry))
Ë lÕintŽrieur dÕune Usem, on remplit ensuite lÕŽlŽment de dŽrivation.
LÕŽlŽment dŽrivation de lÕunitŽ sŽmantique ne sera crŽŽ que si lÕun des attributs drvv, drva ou
drvn est prŽsent dans lÕunitŽ sŽmantique correspondante dans le lexique source. On associe
donc associer la r•gle suivante ˆ lÕŽlŽment dŽrivationÊ:
(create-export-element derivation-filling
:on
(Usem)
:when
(@Usem french-sem-unit:[drvv : [deriv-kind : @kind,
deriv-from : @from]])
:create (derivation {kind = @kind, source_cat = vb} (lemma @from)))
o• lemma est une fonction (ˆ dŽfinir) qui retourne le lemme associŽ ˆ lÕunitŽ sŽmantique.
Le patron exprimŽ en valeur du mot-clŽ when sÕunifiera dans le contexte qui aura ŽtŽ
conservŽ ˆ la crŽation de lÕunitŽ Usem. La variable @Usem sera donc associŽe ˆ lÕunitŽ
sŽmantique du dictionnaire source qui aura motivŽe la crŽation de lÕUsem.
Cette r•gle illustre la difficultŽ de la dŽfinition dÕun mŽcanisme dÕexport. En effet, elle
comporte un probl•me qui ne peut •tre rŽsolu avec le mŽcanisme dÕexport ainsi dŽfini.
Ce probl•me porte sur lÕattribut source_cat. Cet attribut prend une catŽgorie en valeur. Or les
catŽgories des deux lexiques sont diffŽrentes. Dans le cas dÕun verbe, on ne sait pas si la
catŽgorie du lemme source de la dŽrivation est vi ou vt (puisque cette distinction nÕest pas
faite au niveau du lexique de dŽpart). Pour conna”tre cette valeur, il faut savoir ˆ quelle entrŽe
du lexique dÕexport correspond lÕunitŽ sŽmantique indiquŽe en source de dŽrivation.
Dans le cas gŽnŽral, rien ne garantit quÕune telle correspondance existe.
Le mŽcanisme, tel quÕil est prŽsentŽ ici, permet donc de rŽaliser des exports ÒguidŽs par la
structure cibleÓ, ce qui simplifie lÕŽcriture des r•gles lorsque les correspondances entre les
deux structures ne sont pas aisŽes ˆ Žtablir. Ce mŽcanisme prŽsente certains probl•mes et
mŽrite une Žtude beaucoup plus approfondie.
Spécialisation à l’interlingue par
acceptions
Introduction
Le syst•me SUBLIM prŽcŽdemment dŽcrit est gŽnŽrique. Il nÕa donc pas dÕa priori, ni sur
lÕarchitecture lexicale dÕune base, ni sur lÕarchitecture linguistique de ses dictionnaires. On
peut donc lÕutiliser pour crŽer des instances de bases lexicales ayant des fondements
thŽoriques diffŽrents.
En contrepartie, il ne peut fournir quÕune aide gŽnŽrale pour la gestion de bases lexicales,
quÕelles soient monolingues, multilingues par transfert, ou interlingues.
Cependant, son implŽmentation par objets le rend susceptible dÕ•tre spŽcialisŽ pour la gestion
de bases ayant une architecture lexicale particuli•re.
Les recherches sur la traduction automatique fondŽe sur le dialogue [Blanchon 1992,
Blanchon 1994, Boitet 1990b, Boitet & Blanchon 1993] se dŽveloppent depuis quelques
annŽes. Dans cette approche, on demande ˆ lÕauteur dÕinteragir pour aider lÕordinateur ˆ lever
les ambigu•tŽs de son texte. Cette interaction nÕa lieu quÕune fois pour le texte source, quel
que soit le nombre de langues vers lesquelles on veut traduire. LÕidŽe de base est que lÕauteur
acceptera de passer du temps ˆ cette interaction sÕil obtient des traductions dans plusieurs
langues cibles et si le dialogue est assez ergonomique et comprŽhensible.
Dans le cadre de lÕUnion EuropŽenne, qui reconna”t 9 langues officielles, les besoins en bases
lexicales multilingues regroupant (au moins) ces 9 langues sont cruciaux.
Il est donc important de dŽvelopper des bases lexicales multilingues regroupant de
nombreuses langues. Dans ce contexte, une approche interlingue prend tout son sens.
Comme nous lÕavons signalŽ dans la premi•re partie, les approches interlingues sont souvent
confondues avec les approches ÒontologiquesÓ (fondŽes sur la connaissance du ou des
domaines de discours). Or, une approche fondŽe sur la connaissance rend difficile la gestion
dÕune base lexicale. En effet, aux difficultŽs inhŽrentes aux diffŽrentes langues de la base
sÕajoutent les difficultŽs propres ˆ la reprŽsentation des connaissances (description du sens,
classification des conceptsÉ).
Nous prŽfŽrons une approche plus linguistique, dŽfendue aussi bien par des linguistes ÒpursÓ
(comme Igor MelÕc
ÿ uk [MelÕcÿuk 1984, MelÕc
ÿ uk 1988, MelÕcÿ uk 1992]) que par des spŽcialistes
120
SpŽcialisation ˆ l interlingue par acceptions
dÕIntelligence Artificielle et du Traitement Automatique des Langues Naturelles (comme
Yorick Wilks avec le projet ULTRA [Farwell, Guthrie & Wilks 1992, Farwell & al. 1993]). Pour
nous, les ŽlŽments ÒpivotsÓ sont alors des Òacceptions interlinguesÓ.
Dans cette partie, nous dŽfinirons les principes de cette approche en la situant par rapport
aux approches interlingues classiques. Nous montrerons ensuite que cette approche est
propice ˆ lÕutilisation de fonctions lexico-sŽmantiques Òˆ la MelÕÿcukÓ. Enfin, nous dŽcrirons la
maquette PARAX, une premi•re expŽrimentation de cette approche. Nous conclurons en
dŽgageant de cette Žtude les aspects gŽnŽriques qui devront •tre implŽmentŽ dans NADIA, un
syst•me spŽcialisŽ dans la gestion de telles bases lexicales.
VI.
1.
L’approche par acceptions
Acceptions et concepts
LÕapproche par acceptions est fondŽe sur une architecture lexicale interlingue. Contrairement
ˆ la grande majoritŽ des bases lexicales fondŽes sur un interlingue, cette architecture ne se
fonde pas sur une reprŽsentation des connaissances.
LÕaspect original de cette architecture lexicale repose sur le fait que les unitŽs du dictionnaire
interlingue sont des acceptions.
Une acception est un sens particulier dÕun mot, admis et reconnu par lÕusage. Il sÕagit donc
dÕune unitŽ sŽmantique propre ˆ une langue donnŽe. Cette notion dÕacception (appelŽe
parfois sŽmant•me), nÕest pas nouvelle dans le domaine des dictionnaires monolingues. En
fait, lÕacception est bien souvent lÕunitŽ dÕun lexique monolingue.
Ce qui est original, cÕest lÕutilisation de cette notion dans un contexte interlingue. Ce qui est
difficile, cÕest que rien ne garantit quÕune acception dans une langue corresponde ˆ une
acception identique (mais liŽe ˆ un lemme diffŽrent) dans une autre langue.
1.1.
Acceptions
1.1.1. Notion dÕacception
Une acception monolingue est une unitŽ sŽmantique dÕune langue. Elle est locale ˆ une
langue de la base. Ainsi, les ensembles des acceptions monolingues de deux langues
diffŽrentes sont diffŽrents, m•me si leur intersection nÕest pas vide.
Le but essentiel de la base lexicale est de fournir un lien entre les acceptions monolingues des
diffŽrents dictionnaires. Pour cela, nous dŽfinissons lÕensemble des acceptions interlingues
comme Žtant lÕunion des ensembles dÕacceptions monolingues des diffŽrents dictionnaires de
la base, lÕopŽration dÕŽgalitŽ sur les acceptions Žtant lÕidentitŽ sŽmantique.
Ainsi, une acception monolingue correspond ˆ une et une seule acception interlingue. Par
contre, une acception interlingue correspond ˆ une ou plusieurs acceptions monolingues de
dictionnaires diffŽrents.
En faisant lÕhypoth•se (idŽale) que les langues de la base utilisent un raffinement sŽmantique
identique, on obtiendra une organisation illustrŽe par la figure 6.1.
122
SpŽcialisation ˆ l interlingue par acceptions
Langue L1
Langue L2
Langue L3
Langue L4
Figure 6.1Ê: LÕinterlingue par acception dans des conditions idŽales
1.1.2. Relations entre acceptions
HŽlas, ces conditions ne sont jamais rŽalisŽes, et les probl•mes de raffinement de concepts
entre diffŽrentes langues ne peut •tre ignorŽs. Les exemples sont nombreux. Par exemple,
entre le fran•ais et lÕanglais, on peut noter la diffŽrence de raffinement entre les acceptions de
rivi•re et fleuve, dÕune part et celle de river, dÕautre part. En fran•ais, on fait une diffŽrence
entre les cours dÕeau se jetant dans la mer et les autres (fleuve/rivi•re), alors quÕen anglais, on
ne la fait pas (river).
Les acceptions correspondantes nÕŽtant pas sŽmantiquement identiques, nous obtiendrons
une organisation illustrŽe en figure 6.2.
fran•ais
anglais
rivi•re
fleuve
river
Figure 6.2Ê: Acceptions interlingues pour rivi•re, fleuve et river
Pour que le lien entre acceptions soit conservŽ (afin de pouvoir traduire ces termes), nous
utiliserons un lien entre acceptions interlingues nommŽ lien de raffinement. Ainsi,
lÕorganisation obtenue est illustrŽe en figure 6.3.
fran•ais
anglais
rivi•re
fleuve
river
Figure 6.3Ê: Acceptions interlingues pour rivi•re, fleuve et river, avec liens de raffinement
Dans cet exemple, le lien de raffinement correspond ˆ un raffinement sŽmantique. En effet, la
sŽmantique de lÕacception river correspond ˆ lÕunion des sŽmantiques des acceptions rivi•re
L approche par acceptions
123
et fleuve. Ce nÕest pas toujours le cas. En effet, des probl•mes contrastifs dÕorigine non
(go
ø ngzu˜). Certains
sŽmantique peuvent se prŽsenter. Prenons lÕexemple en chinois de
dictionnaires (comme le Òdictionnaire fran•ais de la langue chinoiseÓ [Ricci 1986]) associent
deux acceptions ˆ cette entrŽeÊ:
- travailler (de ses mains), travail manuel;
- travailler (en gŽnŽral), travail, occupation, besogne.
Comme nous le voyons, ces acceptions ont toutes deux ˆ la fois un aspect nominal et un
aspect verbal. Si on veut les relier aux acceptions fran•aises correspondantes, on doit choisir
entre lÕacception correspondante de travail (nominal) ou lÕacception correspondante de
travailler (verbal). On a donc bien un probl•me contrastif ˆ rŽsoudre. Les solutions ˆ ce
probl•me sont les suivantesÊ:
- On modifie le dictionnaire chinoisÊ: cette solution ne doit •tre envisagŽe que si lÕon
consid•re que lÕentrŽe, telle quÕelle appara”t dans le dictionnaire monolingue, est
erronŽe.
- On lie lÕacception chinoise arbitrairement ˆ lÕune des acceptions du fran•ais
(supposons lÕacception verbale)Ê: on ne pourra donc traduire quÕˆ condition de
disposer de relations de dŽrivation permettant de nominaliser lÕacception fran•aise
lorsque cela est nŽcessaire.
Chaque dictionnaire monolingue est indŽpendant des autres langues prŽsentes dans la base.
On ne peut donc envisager la premi•re solution que dans le cas o• lÕon a dŽtectŽ une erreur,
ce qui nÕest pas le cas gŽnŽral.
LÕapproche par acceptions ne peut faire des hypoth•ses a priori sur les informations que lÕon
trouve dans les dictionnaires monolingues. On ne peut donc pas prŽsupposer lÕexistence dÕun
lien de dŽrivation dans ces dictionnaires.
Aussi, la solution de ce probl•me passe, dans le cas gŽnŽral, par le lien de raffinement. On
obtiendra donc la configuration indiquŽe dans la figure 6.4.
fran•ais
chinois
travailler
travail
Figure 6.4Ê: Un exemple de lien de raffinement motivŽ par un phŽnom•ne contrastif non sŽmantique
Dans cette configuration, le lien de raffinement a une interprŽtation linguistique et non
sŽmantique.
1.2.
Concepts
Nous lÕavons vu, les unitŽs du lexique interlingue sont des acceptions, et non des ÒconceptsÓ,
tels quÕon les rencontre en gŽnŽral dans les bases lexicales fondŽes sur la connaissance. Mais
la diffŽrence entre les deux approches ne rŽside pas uniquement dans leur vocabulaire.
LÕapproche par connaissances se base sur lÕhypoth•se quÕil existe un niveau sŽmantique
universel, indŽpendant des langues, et que les langues sont des reflets de ce niveau.
124
SpŽcialisation ˆ l interlingue par acceptions
Ainsi, une base lexicale interlingue fondŽe sur la connaissance part dÕun ensemble de
dictionnaires de languesÊ:
Langue 1
Langue 2
Langue 3
Figure 6.5Ê: Un ensemble de dictionnaires monolingues
Ë cet ensemble de dictionnaire, on ajoute un nouveau dictionnaire reprŽsentant un reflet du
niveau sŽmantique universel (la connaissance)Ê:
Figure 6.6Ê: Une base de connaissances
Le but est donc de relier les unitŽs des diffŽrentes langues aux unitŽs de la base de
connaissancesÊ:
Langue 1
Langue 2
Langue 3
Figure 6.7Ê: Une base lexicale fondŽe sur la connaissance
Dans cette approche, la base interlingue est une modŽlisation du monde, suffisante pour
permettre des calculs sur la sŽmantique des concepts manipulŽs dans le domaine.
Selon lÕapproche par connaissances, le dictionnaire interlingue est indŽpendant de lÕensemble
des langues de la base. En thŽorie, lÕajout dÕune langue ne devrait pas modifier son contenu.
LÕexemple le plus reprŽsentatif de ce type dÕapproche a ŽtŽ donnŽ par le projet KBMT
[Goodman & Nirenburg 1991] dŽveloppŽ au Center for Machine Translation de Carnegie
Mellon University.
Ce projet utilisait une reprŽsentation du monde des ordinateurs personnels (appelŽe
ontologie), et un outil dÕacquisition et de maintenance des connaissances nommŽ ONTOS.
Le dictionnaire de concepts de KBMT est une reprŽsentation conceptuelle, indŽpendante des
langues, des interactions entre un ordinateur personnel et son utilisateur.
Cette ontologie est reprŽsentŽe comme un rŽseau interconnectŽ et hierarchisŽ de frames,
chacune reprŽsentant un concept en ONTOS.
L approche par acceptions
1.3.
125
Variantes et discussion
1.3.1. DiffŽrences entre approche par acceptions et approche par connaissances
Une base lexicale par acceptions part dÕun Žtat analogueÊ: on dispose dÕun ensemble de
dictionnaires monolingues. Par contre, on ne dispose pas dÕun dictionnaire interlingue. Il faut
donc crŽer des liens entre les unitŽs des diffŽrents dictionnaires de la base. Cette crŽation se
traduit par la construction dÕune base interlingue par acceptions.
Cette base interlingue nÕayant aucune prŽtention de reprŽsentation des connaissances, on nÕa
donc pas ˆ crŽer et ˆ gŽrer un dictionnaire supplŽmentaire reflŽtant un langage abstrait.
Les unitŽs et les relations entre acceptions dŽpendent des langues de la base. LÕajout dÕune
langue modifie donc quasi-obligatoirement le contenu du dictionnaire interlingue. De plus, la
mŽthodologie de crŽation, et notamment lÕordre dans lequel on Žtablit les correspondances,
peut influer sur le contenu du dictionnaire interlingue.
Cette approche nÕapportant pas dÕinformation sŽmantique, elle se justifie lorsque le nombre
de langues de la base est suffisamment important pour que le cožt de dŽveloppement dÕun
lexique interlingue soit moins ŽlevŽ que le cožt de dŽveloppement dÕun grand nombre de
dictionnaires bilingues.
1.3.2. Variantes de lÕapproche par acceptions
LÕapproche par acceptions est utilisŽe dans certains projets de bases lexicales. Le premier de
ces projets, le projet U LTRA, est menŽ au Computing Research Laboratory de la New Mexico
State University.
ULTRA (Universal Language TRAnslator) est un syst•me de traduction interlingue qui implique
actuellement cinq langues (anglais, allemand, chinois, espagnol et japonais). Ce syst•me
manipule un vocabulaire dÕenviron 10Ê000 acceptions (avec 6Ê000 ˆ 7Ê000 mots dans les
diffŽrents dictionnaires monolingues).
Les dictionnaires dÕULTRA contiennent des acceptions interlingues (appelŽs INTER TOKEN, et
reprŽsentŽes dans la derni•re partie de la figure 6.8) et des entrŽe monolingues (reprŽsentŽes
dans les cinq premi•res parties de la figure 6.8). Les acceptions interlingues sont rŽparties en
catŽgories (entitŽs, relations, spŽcifieurs dÕentitŽ, spŽcifieurs de relation, etc.).
Chaque entrŽe des dictionnaires monolingue est une clause Prolog o• le prŽdicat correspond
ˆ la catŽgorie de lÕentrŽe, le premier argument est gŽnŽralement la forme et le dernier,
lÕidentificateur de lÕacception correspondante.
Ainsi, le mot novela (roman) en espagnol a la forme suivanteÊ:
se_form(novela, ts, f, _Case, novel2_0)
Cette forme espagnole est donc associŽe ˆ lÕacception novel2_0. Cet identificateur est lui
m•me associŽ ˆ une clause du dictionnaire interlingue. De plus, cette acception est associŽe ˆ
un sens du dictionnaire LDOCE.
ULTRA utilise donc une variante de la notion dÕacceptions que nous avons dŽfinie, dans le sens
o• ses acceptions interlingues sont les acceptions du dictionnaire anglais LDOCE, et non
lÕunion des acceptions des langues de la base.
126
SpŽcialisation ˆ l interlingue par acceptions
LEXICAL ENTRY SYSTEM
ENGLISH WORD(S):
ENG MENUS
novel
ENG LEXICON
CREATE ENTRY
ASSERT ENTRY
ee_form(novel,ts,_Case,ci,novel2_0)
JAPANESE WORD(S):
JAP MENUS
JAP LEXICON
CREATE ENTRY
n_lex([novel2_0, nrm, a_obj, ts], ['
ASSERT ENTRY
'], [])
CHINESE WORD(S):
CHI MENUS
CHI LEXICON
c_noun(novel2_0, ts, '
SPANISH WORD(S):
SPA MENUS
CREATE ENTRY
ASSERT ENTRY
CREATE ENTRY
ASSERT ENTRY
')
novela
SPA LEXICON
se_form(novela, ts, f, _Case, novel2_0)
GERMAN WORD(S):
GER MENUS
roman
GER LEXICON
CREATE ENTRY
ASSERT ENTRY
g_noun(roman, novel2_0, [s, _I, _C])
INTER TOKEN:
IR MENUS
novel2_0
LDOCE LOOK
CREATE ENTRY
ASSERT ENTRY
ir_spec_ent(novel2_0, nrm, a_obj, c, _, _)
CLEAR
QUIT
Figure 6.8Ê: Le syst•me de gestion lexicale dÕULTRA
Un deuxi•me projet utilisant la notion dÕacception est le projet EDR. Cela semble paradoxal
pour un projet qui utilise un Òdictionnaire de conceptsÓ et reprŽsente des informations
sŽmantiques par des liens entre les concepts (voir chapitre II).
Pourtant, les unitŽs du lexique interlingue produit par EDR sont plus proches des acceptions
que des concepts. En effet, ces unitŽs sont crŽŽes en rŽfŽrence ˆ un sens de mot dans lÕun des
dictionnaires monolingues de la base, et non en rŽfŽrence ˆ une notion sŽmantique du
monde.
La classification des ÒconceptsÓ nÕa pas de caract•re encyclopŽdique, mais est motivŽe par des
considŽration de factorisation de certaines relations entre unitŽs du lexique interlingue.
De plus, EDR ne prŽsente pas de vŽritables liens sŽmantiques entre les unitŽs du lexique
interlingue. Les liens utilisŽs ont des aspect plus lexicaux que sŽmantiques.
Par exemple, les liens object, a-object, agent, causeÉ portent bien une information
sŽmantique, mais dans le contexte dÕune base interlingue, ils sont plus utiles en Žtant
interprŽtŽs en tant que liens de collocation. Ainsi, la relation ÇmangerÈ ÑÊagentÊ → ÇanimalÈ
sÕinterpr•te comme une relation de connotation entre les acceptions ÇmangerÈ et ÇanimalÈ.
L approche par acceptions
127
1.3.3. MŽthodologie de crŽation
Le dictionnaire dÕacceptions interlingues est un moyen de lier les diffŽrentes unitŽs des
dictionnaires monolingues. La crŽation de ce dictionnaire ne se base pas sur une
reprŽsentation du monde. Il nous faut donc crŽer une mŽthodologie de crŽation et de gestion
des unitŽs de ce dictionnaire.
La mŽthodologie que nous proposons se base sur la dŽfinition de liens bilingues.
La construction dÕune base lexicale multilingue se passe en deux temps. Dans un premier
temps, le lexicographe dŽfinit les informations monolingues pour un certain nombre dÕentrŽes
du dictionnaire. Ensuite, il donne diffŽrentes traductions pour ces entrŽes.
La premi•re Žtape dans la construction du dictionnaire dÕacceptions est la crŽation des
acceptions interlingues correspondant aux acceptions monolingues dÕun dictionnaire
particulier (voir figure 6.9.). Ce dictionnaire particulier sera appelŽ dictionnaire de rŽfŽrence.
acceptions
copie des acceptions du
dictionnaire de rŽfŽrence dans
le dictionnaire d'acceptions.
fran•ais
anglais
allemand
Figure 6.9Ê: CrŽation du dictionnaire dÕacceptions, premi•re Žtape.
On relie ensuite les acceptions monolingues des autres dictionnaires aux acceptions
interlingues ainsi crŽŽes. Pour cela, un lexicographe fournit des informations bilingues reliant
les unitŽs de deux dictionnaires monolingues. LÕune au moins des unitŽs liŽes doit •tre
auparavant associŽe ˆ une acception interlingue.
Prenons lÕexemple dÕune base lexicale fran•ais-anglais-allemand, et choisissons le dictionnaire
anglais comme dictionnaire de rŽfŽrence. LÕensemble des acceptions du dictionnaire anglais
correspond donc ˆ des acceptions interlingues (voir figure 6.9.).
Le lexicographe donne une traduction de lÕacception courante du mot fran•ais rivi•re en
anglais. Il donne donc le mot anglais river comme traduction de rivi•re.
Le syst•me lui demande de choisir parmi les acceptions de river celle qui correspond au sens
de rivi•re. Le syst•me Žtablit donc un lien entre lÕacception fran•aise de rivi•re et lÕacception
interlingue correspondant ˆ lÕacception anglaise de river.
Ainsi, lÕinformation bilingue donnŽe par le linguiste a permis dÕŽtablir un lien interlingue.
Apr•s cette Žtape, la base de donnŽes prŽsente la structure illustrŽe par la figure 6.10.
128
SpŽcialisation ˆ l interlingue par acceptions
acceptions
#river
river
rivi•re
fran•ais
anglais
Figure 6.10Ê: ƒtat de la base lexicale apr•s avoir liŽ rivi•re, avant dÕavoir liŽ fleuve
Cette structure, bien quÕerronŽe (puisque les acceptions de rivi•re et river ne recouvrent pas
la m•me sŽmantique), est cohŽrente avec le contenu de la base. En effet, tant que le mot
fleuve nÕa pas ŽtŽ introduit dans le dictionnaire ou liŽ ˆ lÕinterlingue, il nÕy a aucune raison de
scinder lÕacception associŽe ˆ rivi•re et river, puisque ces mots sont toujours traduction lÕun
de lÕautre.
Ce probl•me contrastif appara”tra ˆ lÕintroduction du mot fran•ais fleuve. Lorsque le
lexicographe indique que fleuve se traduit par river, le syst•me devra dŽtecter que deux
acceptions fran•aises sont associŽes ˆ la m•me acception interlingue. Cela nÕest possible que
si ces deux acceptions sont parfaitement synonymes.
acceptions
#river
rivi•re
fleuve
fran•ais
river
anglais
Figure 6.11Ê: Configuration illicite dŽtectŽe par le syst•me
Or, les acceptions de rivi•re et de fleuve ne recouvrent pas le m•me sens (en fait, les cas de
synonymie parfaite son rares). Le syst•me doit dŽtecter ce genre de configuration et
demander au lexicographe de rŽsoudre le probl•me. Dans cet exemple, il y a quatre solutions
possiblesÊ:
acceptions
1)
acceptions
2)
#river
#river
#fleuve
rivi•re
fleuve
fran•ais
3)
river
anglais
acceptions
#rivi•re
rivi•re
fleuve
fran•ais
4)
#river
river
anglais
acceptions
#rivi•re
#river
#fleuve
rivi•re
fleuve
fran•ais
river
anglais
rivi•re
fleuve
fran•ais
Figure 6.12Ê: Les diffŽrentes solutions aux probl•mes contrastifs.
river
anglais
L approche par acceptions
129
Dans lÕexemple considŽrŽ, les sens de river, rivi•re et fleuve sont distincts deux ˆ deux. Le
syst•me crŽera donc deux nouvelles acceptions interlingues correspondant ˆ rivi•re et fleuve,
et reliŽes par un lien de raffinement ˆ lÕacception de river (solution n¡ 4).
2.
Acceptions et fonctions lexicales
Notre approche est tr•s bien adaptŽe ˆ lÕutilisation de fonctions lexico-sŽmantiques dans les
dictionnaires monolingues, aussi bien que dans les dictionnaires bilingues.
Le principe des fonctions lexicales dŽveloppŽes par Igor MelÕcÿuk ˆ Moscou puis ˆ MontrŽal
repose sur la constatation que certains mots dans un texte nÕont pas une valeur dŽnominative,
mais ne sont prŽsents que pour modifier dÕautres mots proches.
Ainsi, lorsque lÕon parle dÕune Òforte fi•vreÓ, le mot forte appara”t comme intensifieur de
fi•vre. Pour pouvoir traduire un texte, il faut •tre capable dÕidentifier la fonction de ces mots.
En effet, Òforte fi•vreÓ ne peut •tre traduit par Òstrong feverÓ, mais par Òhigh feverÓ. On traduit
donc la fonction du terme, plut™t que le terme lui-m•me.
Le Dictionnaire Explicatif et Combinatoire (DEC) indique que lÕintensifieur de fi•vre est forte.
Cette indication est donnŽe sous forme dÕune fonction (Magn), appliquŽe ˆ fi•vre et dont le
rŽsultat est forte.
Igor MelÕc
ÿ uk et ses coll•gues ont recensŽ 52 fonctions lexicales. Certaines de ces fonctions
peuvent m•me •tre modifiŽes par lÕajout dÕindices ou dÕexposants (pris parmi un ensemble
fini).
Ces fonctions lexicales ont ŽtŽ ŽtudiŽes sur de nombreuses langues (russe, polonais, fran•ais,
anglais, espagnol, allemand, et moins systŽmatiquement sur le japonais, tatare, hongrois,
chinois) et elles apparaissent actuellement comme universelles.
LÕapproche par acceptions utilise les sens de mots. Elle manipule donc les m•mes unitŽs que
les dictionnaires utilisant les fonctions lexico-sŽmantiques. De plus, les fonctions lexicales
sont des liens formant un rŽseau reliant les unitŽs dÕun dictionnaire. LÕapproche par
acceptions passe par lÕutilisation dÕau moins un lien entre unitŽs du dictionnaireÊ: le lien de
raffinement.
Cette approche ne restreint pas les informations linguistiques des dictionnaires monolingues.
NŽanmoins, elle est propice ˆ lÕutilisation de fonctions lexicales.
Les fonctions lexicales dŽfinies par Igor MelÕcÿ uk et ses coll•gues sont instanciŽes au niveau
des dictionnaires monolingues. Par lÕutilisation dÕun syst•me de bases lexicales fondŽes sur
une approche par acceptions, il est possible dÕŽtudier les moyens permettant de reporter
et/ou de reflŽter certaines de ces fonctions lexico-sŽmantiques au niveau du lexique
interlingue.
3.
PARAX, une expérimentation
Afin dÕexpŽrimenter lÕapproche par acceptions, ƒtienne Blanc a construit une maquette de
base lexicale interlingue par acceptions. Cette maquette a ŽtŽ implŽmentŽe avec HyperCardª
sur Macintoshª, et une version a ŽtŽ portŽe sur le gestionnaire de bases de donnŽes 4Dª.
Dans ce paragraphe, nous prŽsentons la version HyperCard de cette maquette.
130
SpŽcialisation ˆ l interlingue par acceptions
3.1.
Les dictionnaires monolingues
Les dictionnaires monolingues sont accessibles par la liste des lemmes prŽsents. Un lemme
nous m•ne ˆ un Žcran o• se trouvent les diffŽrentes acceptions associŽes (figure 6.13.). Le
dictionnaire monolingue se compose de deux partiesÊ:
- les informations linguistiques associŽes ˆ chaque acception (dans la colonne de
gauche),
- une recopie de lÕacception interlingue correspondant ˆ chaque acception (dans la
colonne du milieu).
Figure 6.13Ê: Le dictionnaire monolingue de PARAX
LÕacception est associŽe ˆ une information linguistique qui indique sa structure argumentaire
et le rŽgime de ces arguments.
LÕacception interlingue associŽe ˆ une acception monolingue contient une dŽfinition dans la
langue du dictionnaire. Elle contient de plus un ensemble dÕinformations sŽmantiques
rŽgissant la sŽmantique des arguments.
Il est possible de consulter le dictionnaire interlingue dÕacceptions en cliquant sur le bouton
MONOPIVOT, pour lÕacception considŽrŽe.
3.2.
Le dictionnaire interlingue
LÕacc•s au dictionnaire interlingue se fait soit ˆ travers la liste des acceptions dŽfinies, soit via
un dictionnaire monolingue.
Lorsque lÕon arrive ˆ ce dictionnaire via un dictionnaire monolingue, on retrouve lÕacception
monolingue par laquelle sÕest fait lÕacc•s (colonne de gauche de la figure 6.14.). Dans la
colonne centrale se trouve lÕacception interlingue avec ses Žventuelles sous-acceptions. Ainsi,
L approche par acceptions
131
lÕacception Ò#acheter_commerceÓ a une sous-acception issue du chinois. En effet, le chinois
introduit une acception particuli•re correspondant ˆ Òacheter en grosÓ.
Figure 6.14Ê: LÕacception interlingue Ò#acheter_commerceÓ
En regard de chaque acception se trouvent des liens vers les acceptions monolingues
correspondantes. En cliquant dessus, on obtient ces acceptions dans la colonne de droite.
Figure 6.15Ê: LÕacception interlingue Ò#acheter_commerceÓ et ses traductions en chinois
132
SpŽcialisation ˆ l interlingue par acceptions
On proc•de de la m•me mani•re pour obtenir les correspondants des sous-acceptions.
Figure 6.16Ê: LÕacception interlingue Ò#acheter_commerce$engrosÓ et ses traductions en chinois
Enfin, en cliquant sur MONOPIVOT pour lÕacception cible considŽrŽe, on arrive au dictionnaire
monolingue de la langue cible.
Figure 6.17Ê: Une entrŽe chinoise correspondant ˆ lÕacception Ò#acheter_commerceÓ
L approche par acceptions
3.3.
133
PARAX et les fonctions lexicales
Chaque acception monolingue est associŽe ˆ un ensemble dÕexemples et de fonctions
lexicales telles quÕelles apparaissent dans le Dictionnaire Explicatif et Combinatoire dÕIgor
MelÕcÿuk. On obtient les exemples en cliquant sur EXEMPLE et les fonctions lexicales en cliquant
sur FLEXICALES.
Figure 6.18Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Fran•aise Ò#acheter_commerceÓ
Figure 6.19Ê: Fonctions lexicales et exemples associŽs ˆ lÕacception monolingue Fran•aise Ò#acheter_corrompreÓ
134
SpŽcialisation ˆ l interlingue par acceptions
3.4.
Problèmes et limitations
LÕutilisation du logiciel HyperCard ne permettra pas la construction de bases lexicales de
grande taille, m•me si une expŽrimentation dans un logiciel de base de donnŽes commerciale
(4D) nÕa pas permis de conclure ˆ la supŽrioritŽ dÕun tel syst•me.
La crŽation de nouvelles acceptions nÕest pas pilotŽe par le syst•me, mais reste ˆ lÕinitiative du
lexicographe. Cette mŽthodologie tr•s ouverte oblige le linguiste ˆ se poser de nombreuses
questions lors dÕune telle crŽation. En consŽquence, les motivations de cette crŽation sont
plus souvent dus ˆ un raffinement naturel du linguiste (qui raisonne en termes de concepts)
quÕa des besoin de codage dÕun probl•me contrastif.
Avec une plate-forme de dŽveloppement aussi gŽnŽrale, il est toujours possible de rajouter
des fonctionnalitŽs permettant lÕindexage dÕune entrŽe, la crŽation dÕune acception, son
renommage, et la crŽation dÕun lien lexical. Par contre, il est difficile dÕoffrir une interface
diffŽrente de celle prŽsentŽe plus haut.
En particulier, il est impossible dÕoffrir au linguiste une vue graphique des diffŽrents rŽseaux
lexicaux dŽfinis par les fonctions lexicales de MelÕc
ÿ uk. Pourtant, une telle visualisation globale
est utile pour la vŽrification des informations lexicales. Notons quÕun syst•me se basant sur
SUBLIM doit dŽfinir un outil de visualisation de graphe. En effet, une telle visualisation nÕest
pas tr•s aisŽe ˆ dŽfinir en GRIF.
Enfin, ˆ cause de lÕabsence dÕun mŽcanisme pratique de manipulation de structures
complexes, HyperCard ne permet pas la dŽfinition et la vŽrification efficace de contraintes de
cohŽrence.
HyperCard a donc permis de dŽvelopper rapidement une maquette de base lexicale
interlingue par acceptions. Il a aussi permis dÕexpŽrimenter les probl•mes de maintenance
rencontrŽs dans cette approche, et dÕen dŽduire les comportements gŽnŽraux souhaitables
dans un syst•me gŽnŽrique de gestion de bases lexicales interlingues par acceptions.
4.
Conclusion de l’étude
LÕapproche par acceptions rŽgit lÕarchitecture lexicale et lÕorganisation des diffŽrentes unitŽs
du lexique. Elle nÕimpose pas de restriction sur les informations linguistiques associŽes aux
unitŽs de dictionnaires. On peut donc la considŽrer comme un cadre gŽnŽral dans lequel le
linguiste est libre dÕimplŽmenter sa base lexicale, ˆ condition de satisfaire ˆ la condition
suivanteÊ:
- les unitŽs du dictionnaire sont des acceptions.
Ë cette condition, le linguiste dispose donc de toute la flexibilitŽ de SUBLIM pour le codage
des ses informations linguistiques.
De plus, il est possible dÕassocier des informations aux acceptions interlingues.
Enfin, lÕapproche par acceptions nÕest donc pas antinomique dÕune information linguistique
interlingue.
En particulier, on peut imaginer de ÒglisserÓ vers lÕapproche conceptuelle, dans le cas de
bases restreintes/dŽdiŽes ˆ des langues de spŽcialitŽ.
Enfin, nous pouvons dŽgager trois aspect gŽnŽriques ˆ lÕapproche interlingue par acceptionsÊ:
- quelle que soit la forme de lÕinformation linguistique contenue dans les dictionnaires, les
unitŽs des lexiques monolingues et bilingues sont des acceptionsÊ;
L approche par acceptions
135
- lÕapproche par acceptions utilise un lien de raffinement. De plus, cette approche est
propice ˆ lÕutilisation de fonctions lexicales. Aussi, nous proposons une structure de
base correspondant ˆ ces fonctions lexicales, et reprŽsentons de mani•re analogue le
lien de raffinementÊ;
- lÕutilisation de liens lexico-sŽmantiques entre unitŽs du lexique permet (et incite ˆ) une
dŽtection des schŽmas illicites dans un grand rŽseau lexical. Un syst•me gŽnŽrique doit
donc fournir des moyens de vŽrifier la cohŽrence de ce type dÕinformations.
LÕapplication de lÕapproche par acceptions ˆ un gestionnaire de bases lexicales multilingues se
concrŽtise par le syst•me NADIA, qui est une spŽcialisation du syst•me SUBLIM.
Le syst•me NADIA permet la crŽation et la gestion de bases lexicales multilingues fondŽes sur
les acceptions. Il permet au linguiste de dŽfinir les informations linguistiques associŽes aux
unitŽs des dictionnaire monolingues ou interlingue et lui propose les structures de base de
SUBLIM et une structure plus particuli•rement dŽdiŽe ˆ la dŽfinition de fonctions lexicales. Il
propose de plus un moyen de vŽrifier la cohŽrence dÕun rŽseau lexical.
VII.
1.
Implémentation
L’acception, une structure logique supplémentaire
La premi•re partie de la spŽcialisation de SUBLIM vers NADIA porte sur son noyau. Afin de
pouvoir gŽrer des acceptions monolingues et interlingues, on introduit deux nouvelles
structures de baseÊ: monolingual-acception et interlingual-acception.
1.1.
Acceptions monolingues
LÕacception monolingue est une structure pouvant accueillir nÕimporte quelle information
linguistique. De plus, elle doit contenir un lien vers une et une seule acception interlingue se
trouvant dans le dictionnaire interlingue. Nous la dŽfinissons comme une sous-classe de la
classe acception, dŽfinie comme un agrŽgat avec un seul trait contenant nÕimporte quelle
information linguistique.
Ainsi, la dŽfinition en DƒCOR de la nouvelle structure de base est la suivanteÊ:
(define! acception :type
(:is-a :aggregated)
(linguistic-information T))
(define! link-to-interlingua :type
(:is-a 'link)
(target (:type 'interlingual-acception)))
(define! monolingual-acception :type
(:is-a 'acception )
(interlingual-acception 'link-to-interlingua))
Pour dŽfinir une classe linguistique basŽe sur la structure d'acception, on utilise l'expression
suivanteÊ:
(monolingual-acception keywords*)
o• les mots-clŽs restreignent les classes qui peuvent •tre valeurs de dŽcoration des diffŽrents
ŽlŽments de lÕacception monolingue. Le mot-clŽ possible estÊ:
:information class
spŽcifie la classe acceptable pour lÕinformation linguistique
associŽe ˆ l'acception.
Ainsi, la dŽfinitionÊ:
(define-linguistic-class french-acception
(monolingual-acception
:information (feature-structure
(id
string)
(definition string))))
se rŽŽcrit enÊ:
(define! french-acception :type
(:is-a monolingual-acception)
(linguistic-information (define! nil :type
(:is-a 'feature-structure)
(id
(:type 'string))
(definition (:type 'string))))))
On peut ainsi dŽfinir une acception sans ce soucier des liens quÕelle entretient avec les unitŽs
du dictionnaire interlingue.
1.2.
Acceptions interlingues
LÕacception interlingue peut, elle aussi, accueillir nÕimporte quelle information linguistique ou
sŽmantique. De plus, elle doit contenir un ensemble de liens vers des acceptions monolingues
se trouvant dans les diffŽrents dictionnaires interlingues.
Ainsi, la dŽfinition en DƒCOR de la nouvelle structure de base passe par la dŽfinition d'un lien
vers les acceptions monolingues. Cette dŽfinition est la suivanteÊ:
(define! link-to-monolingual-acception :type
(:is-a 'link)
(target (:type 'monolingual-acception))
(source (:type 'interlingual-acception)))
(define! interlingual-acception :type
(:is-a 'acception)
(monolingual-acceptions (define! nil :type
(:is-a :list)
(:range 1)
(:allowed-types 'link-to-monolingual-acception)))
(close-acceptions (define! nil :type
(:is-a :list)
(:allowed-types 'refinement-link)))
(explanation
string))
On remarque dans cette dŽfinition quÕune acception interlingue contient une explication sous
forme dÕune cha”ne de caract•res (ce qui est nŽcessaire pour une bonne gestion de la base).
Cette dŽfinition utilise la classe 'refinement-link dŽfinie plus bas.
Pour dŽfinir une structure basŽe sur la structure d'acception interlingue, on utilise lÕexpression
suivanteÊ:
(interlingual-acception keywords*)
o• les mots-clŽs restreignent les classes qui peuvent •tre valeurs de dŽcoration des diffŽrents
ŽlŽments de lÕacception interlingue. Les mots-clŽs possibles sontÊ:
:information class
spŽcifie la classe acceptable pour lÕinformation
linguistique associŽe ˆ l'acception.
:refinement-link class*
spŽcifie la (ou les) classe(s) de lien de raffinement (par
dŽfaut, on aura la classe 'refinement-link).
:link-to-monolingual-acception
spŽcifie la (ou les) classe(s) de lien vers les dictionnaires
class*
monolingues.
On remarque quÕil est possible de modifier les liens de raffinement afin de leur associer une
information (pondŽrationÉ). Il est aussi possible de changer la classe des liens vers les
acceptions monolingues afin dÕy ajouter une information quelconque.
Ainsi, la dŽfinitionÊ:
(define-linguistic-class my-acception
(interlingual-acception
:information (feature-structure
(id
string)
(definition string))
:refinement-link 'my-link))
se rŽŽcrit enÊ:
(define! my-acception :type
(:is-a 'interlingual-acception)
(linguistic-information (define! nil :type
(:is-a 'feature-structure)
(id
(:type 'string))
(definition (:type 'string)))))
(close-acceptions
(define! nil :type
(:is-a :list)
(:allowed-types '(my-link)))))
1.3.
Dictionnaires d’acceptions
Le noyau de SUBLIM comprend aussi des ŽlŽments dictionnaires qui sont les ŽlŽments de base
de la dŽfinition dÕune base lexicale. NADIA introduit donc une nouvelle classe de dictionnaireÊ:
le dictionnaire interlingue par acceptions.
La dŽfinition dÕun dictionnaire interlingue par acceptions se fait gr‰ce ˆ la fonctionÊ:
define-acception-dictionary name Keywords*
o• name est un symbole dŽfinissant de mani•re unique le dictionnaire pour lÕensemble de la
base.
:owner string
spŽcifie le propriŽtaire du dictionnaire.
:links list
spŽcifie la liste des dictionnaires liŽs par le dictionnaire interlingue.
Cette liste est donnŽe sous forme de liste de symboles, chacun
correspondant ˆ un dictionnaire dŽfini par ailleurs.
Cette dŽfinition se traduit par la crŽation dÕune instance de la classe acception-dictionary.
La classe acception-dictionary dŽfinie dans Nadia comprend des mŽthodes spŽcialisŽes pour
la crŽation et la gestion des acceptions interlingues.
2.
Le lien lexical
Comme nous lÕavons indiquŽ dans le chapitre prŽcŽdent, lÕapproche par acceptions se pr•te
bien ˆ lÕutilisation de liens lexicaux analogues aux fonctions lexicales.
2.1.
Lien général
Comme dans SUBLIM, un lien a une source, une cible et une Žtiquette. Dans le cas dÕun lien
lexical, la source et la cible sont des acceptions. Pour le lien gŽnŽral, on ne fait aucune
hypoth•se sur lÕinformation portŽe par lÕŽtiquette.
Ainsi, ce lien lexical est une nouvelle structure de base dŽfinie comme suitÊ:
(define! lexical-link :type
(:is-a 'link)
(target (:type 'acception))
(source (:type 'acception))
(label T))
Pour dŽfinir une structure basŽe sur la structure de lien lexical, on utilise lÕexpression
suivanteÊ:
(lexical-link keywords*)
o• les mots-clŽs restreignent les classes qui peuvent •tre valeurs de l'Žtiquette du lien. Les
mots-clŽs possibles sontÊ:
:label class
spŽcifie la classe acceptable pour l'Žtiquette du lien.
:target class
spŽcifie la classe de la cible ('acception par dŽfaut).
:source class
spŽcifie la classe de la source ('acception par dŽfaut).
Ainsi, la dŽfinitionÊ:
(define-linguistic-class my-link
(lexical-link
:label integer)
se rŽŽcrit enÊ:
(define! my-link :type
(:is-a 'lexical-link)
(label 'integer))
2.2.
Lien de raffinement
La gestion de l'interlingue par acceptions passe par le lien de raffinement. Ce lien relie deux
acceptions interlingues et contient une Žtiquette constante contenant son nom.
(define! refinement-link :type
(:is-a 'lexical-link)
(target 'interlingual-acception)
(source 'interlingual-acception)
(label 'refinement-link))
Ce lien ne peut pas •tre redŽfini par l'utilisateur.
2.3.
Liens “à la Mel’čuk”
Une fonction lexicale, comme par exemple une FL de Mel'cÿ uk, est un lien entre acceptions.
Ce lien comprend un nom de fonction comme Žtiquette. Pour reprŽsenter la composition de
fonctions lexicales, nous reprŽsentons ce nom comme une liste (ordonnŽe) de noms de
fonctions de base.
La sŽmantique d'une fonction de base peut •tre modifiŽe par l'ajout d'un indice ou d'un
exposant. Nous nous limiterons aux indices ÒproductifsÓ qui sont restreints aux numŽros
dÕargument (dÕautres indices existent mais sont locaux ˆ un type de fonction et seront intŽgrŽs
dans le nom). Aussi, un nom de fonction de base est reprŽsentŽ par une structure complexeÊ:
(define! base-function-name :type
(:is-a 'aggregated)
(name
'flname)
(index
'possible-indexes)
(exponent 'possible-exponents))
(define! flname :type
(:is-a :enumerated)
(:allowed-values '(Syn Syn^ Syn< Syn> Conv Anti Anti^ Anti< Anti> Contr
Epit Gener Figur S V A Adv Sinstr Sloc Smed Smod Sres
Sing Mult Cap Equip Germ Centr Culm Able Qual Magn
Plus Minus Ver Bon Pejor Pos Instr Loc Locin Locab
Locad Propt Pred Oper Func Labor Involv Incep Cont Fin
Caus Liqu Perm Real Fact LabReal Manif Prepar Prox
Degrad Nocer Obstr Excess Son Imper Perf Result Sympt)))
(define! possible-indexes :type
(:is-a :enumerated)
(:allowed-values '(1 2 3 4)))
(define! possible-exponents :type
(:is-a :enumerated)
(:allowed-values '(actual usual qual quant temp color dim fulg motor
stat trem t° I II III)))
Un nom de fonction lexicale est reprŽsentŽ par une liste de fonctions de baseÊ:
(define! lexical-function-name :type
(:is-a :list)
(:allowed-types '(base-function-name)))
Un lien ˆ la MelÕcÿ uk est reprŽsentŽ par un lien avec un nom de fonction lexicale en ŽtiquetteÊ:
(define! lexical-function :type
(:is-a :lexical-link)
(label 'lexical-function-name))
3.
Vérification de cohérence
LÕun des probl•mes de la maquette PARAX provient de la difficultŽ de vŽrifier la cohŽrence des
informations linguistiques. Cette cohŽrence peut porter sur les informations linguistiques
contenues dans une entrŽe. Dans ce cas, le vŽrificateur de cohŽrence de S UBLIM peut-•tre
utilisŽ.
LorsquÕon utilise de nombreux liens entre acceptions, comme cÕest le cas avec les fonctions
lexicales, il faut aussi dŽtecter des schŽmas incohŽrents sur le rŽseau lexical formŽ par ces
liens.
3.1.
Exemples de schémas à détecter
Les schŽmas de cohŽrence ˆ dŽtecter peuvent sÕappliquer sur le rŽseau lexical formŽ par un
ensemble de liens particuliers ou sur lÕensemble du rŽseau lexical de la base.
Prenons lÕexemple dÕune base lexicale interlingue par acceptions utilisant les fonctions lexicosŽmantiques de MelÕcÿuk. Certaines fonctions lexicales sont reflŽtŽes dans la base interlingue
(les relations de synonymieÉ). Dans une telle base lexicale, on veut pouvoir dŽfinir les
contraintes de cohŽrence suivantesÊ:
Les relations de synonymie sur les acceptions interlingues doivent •tre reflŽtŽes
dans les dictionnaires monolingues (figure 7.1)Ê:
Acceptions
Syn∩
Langue L
Figure 7.1Ê: Le lien de synonymie interlingue doit se reflŽter dans le dictionnaire monolingue
Cette contrainte de cohŽrence nÕest pas une contrainte portant sur une configuration
graphique, mais uniquement sur un ŽlŽment de graphe. Elle peut donc sÕexprimer avec le
langage gŽnŽral de vŽrification de contraintes de SUBLIM.
Il sÕagit dÕune contrainte de cohŽrence globale, portant sur lÕensemble des liens de synonymie.
Un lien de synonymie du dictionnaire interlingue relie deux acceptions interlingues. Pour
exprimer cette contrainte, il nous faut, ˆ partir dÕune acception interlingue, pouvoir conna”tre
lÕacception monolingue qui lui correspond dans un dictionnaire donnŽ. Pour cela, on utilise la
fonction prŽdŽfinie dans N ADIAÊ:
corresponding-acception(A, D)
o• A est une acception et D est un dictionnaire. Cette fonction renvoie une acception A’ du
dictionnaire D, correspondant ˆ A. SÕil nÕexiste pas dÕacception correspondante, cette fonction
retourne nil.
En voici la dŽfinition pour le dictionnaire frenchÊ:
(define-coherence-rule interlingual-monolingual-syn
:applies-on
(acception::lexical-function
{lexical-function-name
[flname : 'Syn]}
[from: @source-acception,
to:
@target-acception])
:verifies
:error-message
:level
(let ((source (corresponding-acception source-acception))
(target (corresponding-acception target-acception)))
(if (and source target)
(exist? (french::lexical-function
{lexical-function-name
[flname : 'Syn]}
[from: @source-acception,
to:
@target-acception]))
T))
"Un synonyme interlingue doit être reflété dans le
dictionnaire français"
:warning)
On ne peut avoir de cycle dans le sous-rŽseau des relations de synonymie
englobante Syn ∩ (voir figure 7.2.)Ê:
Syn∩
Syn∩
Syn∩
Syn∩
Syn∩
Figure 7.2Ê: Configuration illicite dans le sous-rŽseau de synonymie englobante Syn∩
Ainsi, dans chaque dictionnaire, il faut pouvoir spŽcifier que la relation de synonymie
englobante Syn∩ n'admet pas de cycle. Cette relation permet de trouver des probl•mes
potentiels dans le rŽseau lexical d'une langue particuli•re.
Lorsqu'une relation est donnŽe dans diffŽrents dictionnaires, elle forme un rŽseau qui
recouvre un ensemble de dictionnaires (voire la totalitŽ de la base). Dans ce cas, il est
intŽressant de vŽrifier la cohŽrence entre les relations donnŽes sur les diffŽrents dictionnaires.
Dans ce cas, la contrainte dŽfinie plus haut correspond ˆ la dŽtection d'un schŽma illicite
ayant la forme donnŽe dans la figure 7.3.
Acceptions
Syn∩
Syn∩
Syn∩
Langue L
Figure 7.3Ê: Configuration illicite dans le sous rŽseau lexical interdictionnaire de synonymie englobante Syn∩
Ces contraintes portent sur l'ensemble d'un rŽseau lexical. On ne peut donc utiliser de
mani•re efficace le moteur de vŽrification proposŽ par SUBLIM. On dŽfinit donc un moteur
spŽcialisŽ dans la vŽrification de cohŽrence sur des rŽseaux lexicaux.
3.2.
Déclaration d’une contrainte de cohérence sur le réseau lexical
La plupart des schŽmas ˆ dŽtecter passe par la dŽtection dÕun cycle dans un rŽseau lexical
complexe. Cette dŽtection de cycle ne peut se faire quÕavec des liens orientŽs.
Par contre, certains liens orientŽs forment des rŽseaux o• les cycles sont valides. Aussi, il faut
donner au linguiste un moyen dÕexprimer quels sont les liens pour lesquels la cohŽrence doit
•tre vŽrifiŽe.
Ces dŽclarations de contraintes comportent 2 parties principalesÊ:
- la dŽclaration du rŽseau lexical sur lequel portent les contraintes,
- la propriŽtŽ qui doit •tre vŽrifiŽe par le rŽseau ainsi dŽclarŽ.
La dŽclaration dÕun rŽseau lexical passe par la dŽclaration des liens qui le composent. On peut
dŽfinir un rŽseau portant sur un dictionnaire (la dŽfinition est alors faite au niveau du
dictionnaire) ou sur un ensemble de dictionnaires (la dŽfinition est alors faite au niveau de la
base lexicale).
La dŽclaration dÕun rŽseau portant sur un dictionnaire est faite en donnant lÕensemble des
liens qui dŽfinissent ce rŽseauÊ:
(lexical-network links*)
ou links est un suite de liens dŽfinis sur le dictionnaire.
Ainsi, le rŽseau formŽ par lÕensemble des liens de synonymie de MelÕcÿuk est dŽfini par
lÕexpressionÊ:
(lexical-network (lexical-function
{lexical-function-name
[flname : 'Syn]})
(lexical-function
{lexical-function-name
[flname : 'Syn^]})
(lexical-function
{lexical-function-name
[flname : 'Syn<]})
(lexical-function
{lexical-function-name
[flname : 'Syn>]}))
La dŽclaration dÕun rŽseau portant sur un ensemble de dictionnaires est faite en donnant
lÕensemble des liens qui dŽfinissent ce rŽseau. Ces liens seront notŽs en indiquant le
dictionnaire sur lequel ils portent. Ainsi, un rŽseau de synonymie englobante Syn∩ portant sur
trois dictionnaires monolingues (fran•ais, anglais et allemand) et le dictionnaire dÕacceptions
est-il dŽfini au niveau de la base lexicale de la mani•re suivanteÊ:
(lexical-network (french::lexical-function
{lexical-function-name
[flname : 'Syn^]})
(english::lexical-function
{lexical-function-name
[flname : 'Syn^]})
(german::lexical-function
{lexical-function-name
[flname : 'Syn^]})
(acception::lexical-function
{lexical-function-name
[flname : 'Syn^]})
link-to-interlingua)
Rappelons que link-to-interlingua est la classe des liens qui relient une acception
monolingue ˆ son acception interlingue correspondante.
La propriŽtŽ ˆ vŽrifier sur un rŽseau lexical est lÕune des propriŽtŽs suivantesÊ:
acyclic :
vŽrifie quÕun rŽseau est sans cycle,
graph :
vŽrifie que le rŽseau (un multigraphe) est composŽ dÕun seul graphe,
forest :
vŽrifie que le rŽseau (un multigraphe) est Žquivalent ˆ une for•t (chaque
graphe du rŽseau est un arbre),
tree :
vŽrifie que le rŽseau (un multigraphe) est Žquivalent ˆ un arbre (le rŽseau
est composŽ dÕun seul graphe Žquivalent ˆ un arbre).
Nous avons vu lÕutilitŽ de la propriŽtŽ acyclic. Les propriŽtŽs graph, forest et tree sont
utiles pour tester des relations dŽfinissant une hiŽrarchie (on ne doit avoir quÕun graphe sans
cycle) ou une arborescence.
Ainsi, une contrainte de cohŽrence portant sur un rŽseau lexical sÕexprime gr‰ce ˆ
lÕexpressionÊ:
define-network-coherence-rule name
:applies-on
:verifies
:error-message
:level
lexical-network-spec
property
string
level
La contrainte de cohŽrence vŽrifiant lÕabsence de cycle dans le rŽseau lexical de synonymie
englobante dÕun dictionnaire particulier est dŽfinie de la mani•re suivante (au niveau du
dictionnaire)Ê:
(define-network-coherence-rule acyclic-more-general-synonymy
:applies-on
(lexical-network (lexical-function
{lexical-function-name [flname : 'Syn^]}))
:verifies
'acyclic
:error-message "Détection d’un cycle dans le réseau de synonymie englobante"
:level
:warning)
La contrainte vŽrifiant lÕabsence de cycle dans le rŽseau lexical de synonymie englobante sur
plusieurs dictionnaires est dŽfinie de la mani•re suivante (au niveau de la base lexicale)Ê:
(define-network-coherence-rule global-acyclic-more-general-synonymy
:applies-on
(lexical-network
(french::lexical-function
{lexical-function-name
[flname : 'Syn^]})
(english::lexical-function
{lexical-function-name
[flname : 'Syn^]})
(german::lexical-function
{lexical-function-name
[flname : 'Syn^]})
(acception::lexical-function
{lexical-function-name
[flname : 'Syn^]})
link-to-interlingua)
:verifies
'acyclic
:error-message "Détection d’un cycle dans le réseau de synonymie global"
:level
:warning)
Le syst•me NADIA ainsi dŽfini est en cours de rŽalisation. La premi•re Žtape de son utilisation
passe par la rŽcupŽration de la maquette Parax dans ce syst•me.
De plus, N ADIA sera appliquŽe au dŽveloppement dÕune version informatique du DEC dans le
cadre dÕune action de recherche partagŽe entre le GETA et lÕŽquipe dÕIgor MelÕcÿ uk ˆ
lÕUniversitŽ de MontrŽal.
Conclusion
Le premier syst•me prŽsentŽ dans ce document, SUBLIM , se place dans la continuitŽ des efforts
de gŽnŽralisation dÕoutils de gestion de bases lexicales (MULTILEX , Le LexicalisteÉ). Il part
dÕune volontŽ de disposer dÕun outil gŽnŽrique de gestion de bases de donnŽes lexicales
multilingues. Ce projet apporte des nouveautŽs par rapport aux diffŽrents syst•mes de gestion
de bases lexicales multilingues. Il permet de spŽcifier lÕarchitecture lexicale dÕune base
particuli•re en utilisant des dictionnaires monolingues, bilingues ou interlingues dont la
gestion globale (acc•s aux unitŽs, structure squeletteÉ) est prise en charge par le syst•me.
Les unitŽs des dictionnaires, ainsi que les informations quÕelles portent, ne sont pas
contraintes. Cela permet dÕutiliser SUBLIM pour implŽmenter une des bases lexicales ÒfondŽes
sur la connaissanceÓ inspirŽes de projets tels que EDR (Japon) ou KBMT-89 (USA). On peut
aussi implŽmenter des bases lexicales fondŽes sur une approche par transfert comme celles
du projet MULTILEX ou comme les dictionnaires de METAL.
Ainsi, le projet SUBLIM dŽpasse les faiblesses du projet MULTILEX (dictionnaires bilingues par
transfert, obligation de coder les structures linguistiques sous forme de structures de traits
typŽesÉ), qui est le projet le plus poussŽ parmi ceux qui se sont attaquŽs ˆ la dŽfinition de
gestionnaires de bases lexicales indŽpendants des applications.
Le linguiste peut dŽfinir lÕarchitecture linguistique des diffŽrents dictionnaires de sa base
lexicale. Pour cela, il choisit les structures logiques servant de base ˆ ses structures
linguistiques parmi une importante collection (automates, graphes, arbres, structures de traits
typŽs, ensembles, listesÉ). En combinant ces structures, on peut dŽfinir des structures
linguistiques complexes dÕune mani•re naturelle. Cette approche universelle permet la
crŽation de bases lexicales pour des usages diffŽrents, automatiques aussi bien quÕhumains.
Le second projet prŽsentŽ dans ce document, NADIA, ajoute au fonctionnalitŽs gŽnŽrales de
SUBLIM, des fonctionnalitŽs particuli•res permettant la gestion de bases lexicales interlingues
fondŽes sur les acceptions. LÕarchitecture lexicale interlingue que nous privilŽgions pour nos
applications est, comme celle du projet ULTRA, fondŽe sur des connaissances linguistiques
plut™t que sur des connaissances extralinguistiques. Le langage pivot nÕest plus formŽ de
ÒconceptsÓ (indŽpendants des langues), mais ÒdÕacceptions interlinguesÓ fonctions des
langues en prŽsence.
146
Conclusion
Cette Žtude prŽsente une premi•re Žtape dans la mise au point effective dÕun syst•me de
gestion de bases lexicales interlingues. La dŽfinition dÕune architecture ˆ trois niveaux
sŽparant clairement les probl•me de stockage, de reprŽsentation et de prŽsentation des
donnŽes garantit dÕune part lÕindŽpendance des outils vis-ˆ-vis dÕun syst•me de stockage de
donnŽes (SGBD relationnel, ˆ objet, ou autres), et lÕindŽpendance des donnŽes vis-ˆ-vis de
leur prŽsentation.
LÕutilisation dÕune approche permettant de combiner des structures logiques de base pour
dŽfinir, dÕune mani•re naturelle, des structures linguistiques plus complexes donne au
linguiste une libertŽ de choix et une expressivitŽ quÕon ne trouve, ˆ notre connaissance, dans
aucun autre syst•me de gestion de bases lexicales. Cette approche permet, avec une m•me
plate-forme logicielle, de gŽrer des bases lexicales dŽveloppŽes pour des besoins diffŽrents.
Elle offre ainsi un premier pas vers la fusion ou la rŽcupŽration de bases lexicales.
LÕŽtude dÕune approche interlingue fondŽe sur les acceptions a permis la spŽcialisation dÕun
syst•me gŽnŽral. NŽanmoins, cette spŽcialisation est gŽnŽrique et laisse au linguiste toute
libertŽ de choix quant aux structures linguistiques portŽes par les ÒunitŽs dictionnairiquesÓ
(acceptions interlingues, acceptions monolinguesÉ).
LÕapproche par acceptions est bien adaptŽe ˆ lÕutilisation de liens lexicaux analogues aux
fonctions lexicales dŽfinies par Igor MelÕc
ÿ uk, puisque les unitŽs des dictionnaires
monolingues sont identiques aux unitŽs du DEC. Cette approche permet lÕŽtude du codage de
certaines fonctions lexicales au niveau de la base interlingue.
La mise au point effective dÕun tel syst•me de gestion de bases lexicales multilingue ne peut
•tre que longue et difficile. En effet, les dŽveloppements et les probl•mes de gŽnie logiciel
soulevŽs par lÕimplŽmentation de certains des outils dŽfinis ici sont des probl•mes non
triviaux. De plus, certains des outils dŽfinis dans ce document ont ŽtŽ simplifiŽs et peuvent
faire lÕobjet dÕŽtude sŽparŽes.
Dans le cadre dÕune action de recherche partagŽe conduite entre le GETA et lÕŽquipe dÕIgor
MelÕcÿuk ˆ lÕUniversitŽ de MontrŽal, nous allons appliquer le syst•me N ADIA ˆ la crŽation dÕune
version Žlectronique du DEC. Nous pourrons ainsi expŽrimenter diffŽrentes visualisations de
la base lexicale qui sera crŽŽe. Nous pourrons de plus Žtudier en dŽtail lÕapplication des
fonctions lexicales ˆ un lexique interlingue. Enfin, cette expŽrimentation consistera en un
premier test de la validitŽ des choix pris pour les syst•mes SUBLIM et NADIA.
Dans ce cadre, seule une certaine partie des outils de SUBLIM pourra •tre implŽmentŽes.
Certains, comme le mŽcanisme dÕimport/export, pourront faire lÕobjet dÕune Žtude
approfondie, en vue dÕune plus grande gŽnŽralisation. De plus, lÕimport dÕun dictionnaire
quelconque dans une base SUBLIM passe par un prŽtraitement (ÒnettoyageÓ des donnŽes,
standardisation en un fichier SGMLÉ). Ce prŽtraitement constitue une opŽration difficile et
nŽcessite certains outils particuliers. Dans cette optique, il est intŽressant dÕŽtudier la
dŽfinition dÕune plate-forme gŽnŽrique de manipulation de donnŽes linguistiques et lexicales
qui permette de standardiser des documents (dictionnaires, corpus, bandes de
photocompositionÉ) en des documents SGML, voire en des instances de documents TEI
lorsque cela est possible.
Bibliographie
[AbeillŽ 1989]
AbeillŽ A. (1989) LÕunification dans une grammaire dÕarbre adjoints:
quelques exemples en syntaxe fran•aise. T.A. Information, 30/1-2: pp. 69-112.
[AbeillŽ 1993]
AbeillŽ A. (1993) Les nouvelles syntaxes - Grammaires dÕunification et
analyse du fran•ais, Armand Colin, Paris, 327 p.
[Adriaens & al. 1990]
Adriaens G. & Lemmens M. (1990) The Self Extending Lexicon : Off-line
and On-line Defaulting of Lexical Information in the METAL Machine
Translation System. Proc. Coling-90, Helsinki, 20-25 August 1990, H. Karlgren
ed. vol. 3/3: pp. 305-307.
[A•t-Kaci 1986]
A•t-Kaci H. (1986) An Algebra•c Approach to the Effective Resolution of Type
Equations. Theoretical Computer Science, 45: pp. 293-351.
[A•t-Kaci & al. 1988]
A•t-Kaci H. & Lincoln P. (1988) LIFE : a Natural Language for Natural
Language. T.A. Information, 30/1-2: pp. 37-67.
[A•t-Kaci & al. 1992]
A•t-Kaci H., Meyer R. & Roy P. V. (1992) Wild LIFE - A User Manual,
Available with the WILD-LIFE software, 81 p.
[A•t-Kaci & al. 1986]
A•t-Kaci H. & Nasr R. (1986) LOGIN : a Logic Programming Language with
Built-in Inheritance. Journal of Logic Programming, 3: pp. 185-215.
[AndrŽ & al. 1989a]
AndrŽ J., Furuta R. & Quint V. (1989a) By way of an introduction.
Structured Documents: What and Why? In ÒStructured DocumentsÓ, J. AndrŽ, R.
Furuta & V. Quint ed., Cambridge University Press: pp. 1-6.
[AndrŽ & al. 1989b]
AndrŽ J., Furuta R. & Quint V. (1989b) Structured Documents P.
Hammersley ed., The Cambridge Series on Electronic Publishing, Cambridge
University Press, Cambridge, 220 p.
[Apple Computer Inc. 1992a]
Apple Computer Inc. (1992a) Macintosh Human Interface Guidelines,
Addison-Wesley Publishing Company, Inc., 384 p.
148
Bibliographie
[Apple Computer Inc. 1992b]
Apple Computer Inc. (1992b) Text Services Manager. In ÒInside Macintosh:
TextÓ, Apple Computer Inc.: pp. 1-107 (section 7).
[Apple Computer Inc. 1989]
Apple Computer Inc. (1989) Hypercard Stack Design Guidelines, AddisonWesley Publishing Company, Inc., 230 p.
[Barnett & al. 1990]
Barnett J., Knight K., Mani I. & Rich E. (1990) Knowledge and Natural
Language Processing. Communications of ACM, 33/8: pp. 50-71.
[Blanchon 1990]
Blanchon H. (1990) Ambiguity resolution and paraphrase selection. Proc.
DBMT-90, Post-COLING seminar on Dialogue-Based MT, Le Sappey, France,
26-28 August 1990, E. Blanc & C. Boitet ed. vol. 1/1: pp. 38-41 & 238-241.
[Blanchon 1991]
Blanchon H. (1991) Probl•mes de dŽsambigu•sation interactive en TAO
personnelle. Proc. LÕenvironnement traductionnel : La station de travail du
traducteur de lÕan 2001, Mons (Belgique), 25-27 avril 1991, ActualitŽs
scientifiques, A. Clas: pp. 31-48.
[Blanchon 1992]
Blanchon H. (1992) A Solution to the Problem of Interactive Disambiguation.
Proc. Coling-92, Nantes, France, 23-28 juillet 1992, C. Boitet ed. vol. 4/4: pp.
1233-1238.
[Blanchon 1994]
Blanchon H. (1994) LIDIA-1 : une premi•re maquette vers la TA interactive
Òpour tousÓ. Th•se nouveau doctorat, UniversitŽ Joseph Fourier (Grenoble 1),
319 p.
[Boitet 1988a]
Boitet C. (1988a) Hybrid Pivots using m-structures for multilingual Transferbased systems. Japanese Institute of Electronic Information and Communication
Engineering, NLC, 88/3: pp. 17-22.
[Boitet 1988b]
Boitet C. (1988b) Representation and computation of units of translation for
Machine Interpretation of spoken texts. Technical report, GETA - ATR, 1988, 20
p.
[Boitet 1990a]
Boitet C. (1990a) Multilingual Machine Traslation does not have to be saved
by Interlingua. Proc. MMT-90, Tokyo, 5-6 November 1990, 2 p.
[Boitet 1990b]
Boitet C. (1990b) Towards Personnal MT : general design, dialogue structure,
potential role of speech. Proc. Coling-90, Helsinki, 20-25 August 1990, H.
karlgren ed., Hans karlgren, vol. 3/3: pp. 30-35.
[Boitet 1993a]
Boitet C. (1993a) Crucial open problems in Machine Translation &
Interpretation. Proc. BKKÕ93, Bangkok, Thailand, 17-20 March 1993 vol. 1/1.
[Boitet 1993b]
Boitet C. (1993b) Human-Oriented Design and Human-Machine-Human
Interactions in Machine Interpretation. Technical Report, ATR Interpreting
Telecommunications Research Laboratories, 30 August 1993, 13 p.
[Boitet 1993c]
Boitet C. (1993c) Integration of Heterogeneous Components for Speech
Translation: the ÒWhiteboardÓ Architecture and an Architectural Prototype.
Technical Report, ATR Interpreting Telecommunications Research Laboratories,
30 August 1993, 20 p.
[Boitet 1993d]
Boitet C. (1993d) La TAO comme technologie scientifique : le cas de la
traduction automatique fondŽe sur le dialogue. In ÒLa traductiqueÓ, P. Bouillon
& A. Clas ed., Les presses de lÕUniversitŽ de MontrŽal, AUPELF/UREF: pp. 109148.
Bibliographie
149
[Boitet 1993e]
Boitet C. (1993e) Multimodal Interactive Disambiguation: first report on the
MIDDIM project. Technical Report, ATR Interpreting Telecommunications
Research Laboratories, 30 August 1993, 16 p.
[Boitet 1993f]
Boitet C. (1993f) TA et TAO ˆ GrenobleÉ 32 ans dŽjˆ ! T.A.L. (revue
semestrielle de lÕATALA), 33/1Ñ2, SpŽcial Trentenaire: pp. 45-84.
[Boitet & al. 1990]
Boitet C. & Blanchon H. (1990) TAO personnelle et promotion des langues
nationales : le projet LIDIA du GETA. Proc. Les industries de la langue :
perspectives des annŽes 1990, MontrŽal, Canada, 22-24 novembre 1990 vol. 1/2:
pp. 415-434.
[Boitet & al. 1993]
Boitet C. & Blanchon H. (1993) Dialogue-based MT for monolingual
authors and the LIDIA project. Proc. NLPRSÕ93, Fukuoka, Japon, 6-7 dŽcembre
1993: pp. 208-222.
[Boitet & al. 1982a]
Boitet C., Guillaume P. & Quezel-Ambrunaz M. (1982a) ARIANE-78: an
integrated environment for automatic translation and human revision. Proc.
COLING-82, Prague, July 1982: pp. 19-27.
[Boitet & al. 1982b]
Boitet C., Hue & Collomb RŽd. (1982b) ÒDSE-2Ó Ñ SpŽcification du syst•me
Ariane-X. Projet ESOPE Contrat ADI/CAP-Sogeti/Champollion, GETAChampollion - Cap Sogeti France, 24 juin 1982.
[Boitet & al. 1982c]
Boitet C. & Nedobejkine N. (1982c) Base lexicale : organisation gŽnŽrale et
indexage. rapport final, projet ESOPE ADI, partie D, GETA, Grenoble, 1982, 30
p.
[Boitet & al. 1986a]
Boitet C. & Nedobejkine N. (1986a) Toward Integrated Dictionary for
M(A)T : Motivations and Linguistic Organisation. Proc. COLING 86, Bonn, 2529 aout 1986 vol. 1/1: pp. 423-428.
[Boitet & al. 1986b]
Boitet C. & Nedobejkine N. (1986b) Vers une base lexicale intŽgrŽe pour la
T(a)O : motivations et organisation linguistique. Proc. JournŽes francophones
de lÕinformatique, bases de donnŽes et bases de connaissances, Grenoble,
janvier 1986 vol. 1/1: pp. 151-169.
[Boitet & al. 1994]
Boitet C. & Seligman M. (1994) The ÒWhiteboardÓ Architecture: A Way to
Integrate heterogeneous components of NLP Systems. Proc. COLING-94, Kyoto,
Japan, 5-9 August 1994, M. Nagao ed. vol. 1/2: pp. 426-430.
[Boitet & al. 1988]
Boitet C. & Zaharin Y. (1988) Representation trees and string-tree
correspondences. Proc. Coling-88, Budapest, 22Ð27 August 1988, D. V‡rgha ed.:
pp. 59-64.
[Booch 1992]
Booch G. (1992) Conception orientŽe objets et applications. Addison-Wesley
ed., Addison-Wesley, 588 p.
[Brachman 1993]
Brachman R. J. (1993) Viewing Data Through a Knowledge Representation
Lens. Proc. KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed., JPDEC, vol.
1/1.
[Briscoe & al. 1993a]
Briscoe T. & Caroll J. (1993a) Generalized Probabilistic LR parsing Natural
Language (Corpora) with Unification-Based Grammars. C.L., 19/1: pp. 25-59.
[Briscoe & al. 1993b]
Briscoe T., Paiva V. d. & Copestake A., ed. (1993b) Inheritance, Defaults,
and the Lexicon. Studies in Natural Language Processing, B. Boguraev ed.,
Cambridge University Press, Cambridge, 298 p.
150
Bibliographie
[Broguraev & al. 1989]
Broguraev B., Briscoe E., Calzolari N., Carter A., Meijs W., Picchi E. & al.
(1989) Acquisition of Lexical Knowledge for Natural Language Processing
Systems. technical annex for Esprit BRA,n¡ 3030, Acquilex, avril 1989, 30 p.
[Brown & al. 1989]
Brown R., Gates D. M., Goodman K., Kaufmann T., Kee M., Levin L. & al.
(1989) KBMT-89. project report, Center for Machine Translation, Carnegie
Mellon University, April 1989.
[Brown & al. 1990]
Brown R. D. & Nirenburg S. (1990) Human-Computer Interaction for
Semantic Disambiguisation. Proc. COLING 90, Helsinki vol. 3/3: pp. 42-47.
[Calder & al. 1992]
Calder P. & Linton M. (1992) The Object-Oriented Implementation of a
Document Editor. Proc. OOPSLAÕ92, Vancouver, Canada, 1992, ACM ed., ACM,
vol. 1/1: pp. 164-165.
[Calzolari 1988]
Calzolari N. (1988) The Dictionary and the Thesaurus Can Be Combined. In
ÒRelationnal Models of the LexiconÓ, M. W. EVENS ed., Cambridge University
Press, Cambridge (Mass.): pp. 75-96.
[Calzolari 1989]
Calzolari N. (1989) Lexical Databases and Textual Corpora : Perspectives of
Integration for a Lexical Knowledge Base. Technical Report, Universita di Pisa,
Dipartimento di linguistica, 1989, 6 p.
[Calzolari & al. 1990]
Calzolari N. & Bindi R. (1990) Acquisition of Lexical Information from a
Large Textual Italian Corpus. Proc. COLING 90, Helsinki, H. Karlgren ed. vol.
3/3: pp. 54-59.
[Calzolari & al. 1988]
Calzolari N. & Picchi E. (1988) Acquisition of Semantic Information from
an On-line Dictionary. Proc. COLING 88, Budapest, 22-27 August 1988, D.
V‡rgha ed.: pp. 87-92.
[Carpenter 1992]
Carpenter B. (1992)
University Press, 270 p.
[ChauchŽ 1974]
ChauchŽ J. (1974) Transducteurs et arborescences. Th•se dÕEtat, USMG Grenoble I, 440 p.
[Date 1989]
Date C. (1989) Introduction au standard SQL, InterŽditions, 235 p.
[Defrise & al. 1990]
Defrise C. & Nirenburg S. (1990) Meaning Representation and Text
Planning. Proc. COLING 90, Helsinki, 20-25 August 1990, H. Karlgren ed. vol.
3/3: pp. 219-224.
[Delannoy 1990]
Delannoy J.-F. (1990) A Message Processing System with Object-Centered
Semantics. Proc. COLING-90, Helsinki, 20-25 August 1990, H. Karlgren ed. vol.
3/3: pp. 333-335.
[Delannoy 1991]
Delannoy J.-F. (1991) Un syst•me fondŽ sur les objets pour le suivi de
situations a partir de textes en languages naturel. Th•se nouveau doctorat,
UniversitŽ dÕAix-Marseille III, 173 p.
[Delobel & al. 1982]
Delobel C. & Adiba M. (1982) Bases de donnŽes et syst•mes relationnels,
Dunod, Paris, 450 p.
[DGT 1987]
DGT (1987) Version finale de la structure logique de la base de donnŽes
lexicale. rapport contrat DGT,n¡ 15, GETA, fŽvrier 1987, 40 p.
[Domenig & al. 1992]
Domenig M. & Hacken P. t. (1992) Word Manager: A System for
Morphological Dictionaries, Georg Olms Verlag, Hildesheim, 211 p.
The logic of Typed Feature Structures, Cambridge
Bibliographie
151
[Ducournau & al. 1989]
Ducournau R. & Habib M. (1989) La multiplicitŽ de lÕhŽritage dans les
langages ˆ objets. Techniques & Science Informatiques, 8/1: pp. 41-62.
[Dutoit 1992]
Dutoit D. (1992) A Set-Theoretic Approach to Lexical Semantics. Proc.
COLING-92, Nantes, July 23-28, 1992, C. Boitet ed. vol. 3/4: pp. 982-987.
[EDR 1993]
EDR (1993) EDR Electronic Dictionary Technical Guide. Project report,n¡ TR042, Japan Electronic Dictionary Research Institute Ltd., August 16, 1993, 144 p.
[Edvins 1993]
Edvins M. (1993) Objects Without Classes. Frameworks, 7/6: pp. 34-39.
[Emele & al. 1990a]
Emele M., Heid U., Momma S. & Zajac R. (1990a) Organising Linguistic
Knowledge for Multilingual Generation. Proc. COLING 90, Helsinki, 20-25
August 1994, H. Karlgren ed. vol. 3/3: pp. 102-107.
[Emele & al. 1990b]
Emele M. & Zajac R. (1990b) Typed Unification Grammars. Proc. COLING
90, Helsinki, 20-25 August 1990, H. Karlgren ed. vol. 3/3: pp. 293-298.
[Farwell & al. 1992]
Farwell D., Guthrie L. & Wilks Y. (1992) The Automatic Creation of Lexical
Entries for a Multilingual MT system. Proc. COLING-92, Nantes, 23-28 July
1992, C. Boitet ed. vol. 2/4: pp. 532-538.
[Farwell & al. 1993]
Farwell D., Guthrie L. & Wilks Y. (1993) Automatically Creating Lexical
Entries for ULTRA, a Multilingual MT System. M.T., 8/3: pp. 127-145.
[Fedder & al. 1991]
Fedder L., McNaught J. & Smith S. (1991) Typed Feature Logic and its role
in MULTILEX. Rapport Multilex, Centre for Computational Linguistics, UMIST,
novembre 1991, 30 p.
[Furuta 1989]
Furuta R. (1989) Concepts and Models for Structured Documents. In
ÒStructured DocumentsÓ, J. AndrŽ, R. Furuta & V. Quint ed., Cambridge
University Press: pp. 7-39.
[Gaschler & al. 1994a]
Gaschler J. & Lafourcade M. (1994a) A Case of Building and Manipulating
a Dictionary with Very Simple Tools: the FEM Dictionary. Proc. ICLA, Penang
(Malaysia), 26-28 July 1994 vol. 1/1: pp. 34-37.
[Gaschler & al. 1994b]
Gaschler J. & Lafourcade M. (1994b) Manipulating human-oriented
dictionaries with very simple tools. Proc. COLING-94, Kyoto, Japan, August 5-9
1994, M. Nagao ed. vol. 1/2: pp. 283-286.
[Gates & al. 1989]
Gates D., Haberlach D., Kaufmann T., Kee M., McCardell R., Mitamura T.
& al. (1989) Lexicons. M.T., 4/1: pp. 67-112.
[Gazdar & al. 1989]
Gazdar G. & Mellish C. (1989) Natural Language Processing in Lisp - An
introduction to Computational Linguistics, Addison-Wesley Publishing
Company, 524 p.
[Genelex 1993]
Genelex (1993) Projet Eureka Genelex, mod•le sŽmantique. Rapport
Technique, Projet Eureka Genelex, 4 mars 1994, 185 p.
[Genthial 1991a]
Genthial D. (1991a) Contribution ˆ la construction dÕun syst•me robuste
dÕanalyse du fran•ais. Th•se nouveau doctorat, UniversitŽ Joseph Fourier, 236
p.
[Genthial 1991b]
Genthial D. (1991b) ReprŽsentation des donnŽes lexicales : vers des
traitements tolŽrants. Proc. Deuxi•mes journŽes nationales du GRECO-PRC
Communication Homme-Machine, Toulouse, EC2 ed.: pp. 69-76.
152
Bibliographie
[Genthial & al. 1990]
Genthial D., Courtin J. & Kowarski I. (1990) Contribution of a Category
Hierarchy to the Robusteness of Syntactic Parsing. Proc. COLING-90, Helsinki,
20-25 aožt 1990, H. Karlgren ed., Hans Karlgren, vol. 2/3: pp. 139-144.
[Goodman & al. 1991]
Goodman K. & Nirenburg S., ed. (1991) The KBMT project: a case study in
Knowledge-Based Machine Translation., Morgan Kaufmann Publishers, San
Mateo, California, 330 p.
[Gross 1987]
Gross M. (1987) The Use of Finite Automata in the Lexical Representation of
Natural Language. Proc. Electronic Dictionaries and Automata in
Computational Linguistics- LITP Spring School on Theoretical Computer
Science, St Pierre dÕOleron, M. Gross ed., Springer Verlag, Berlin,: pp. 34-50.
[Gross & al. 1985]
Gross M. & Tremblay D. (1985) Etude du contenu dÕune banque
terminologique. Rapport technique, LADL Paris, mai 1985, 180 p.
[Hari• 1990]
Hari• S. (1990) Analyse automatique dÕun dictionnaire en vue de la
constitution dÕune base de donnŽes lexicales. MŽmoire de DEA en Informatique
et Automatique mention XIAO, UniversitŽ dÕAix-Marseille III, GRTC,n¡ 371,
septembre 1990, 68 p.
[Herwijnen 1990]
Herwijnen E. V. (1990)
Dordrecht(Nl.), 307 p.
[Hutchins 1986]
Hutchins W. J., ed. (1986) Machine Translation - Past, Present, Future.
Computers and their Applications, E. Horwood ed., Ellis Hordwood Limited,
New York/Chichester/Brisbane/Toronto, 382 p.
[Hutchins & al. 1992]
Hutchins W. J. & Somers H. L. (1992) An introduction to Machine
Translation, Academic Press, Harcourt Brace Jovanovich, 362 p.
[Karttunnen 1984]
Karttunnen L. (1984) Features and Values. Proc. COLING-84, Stanford
University, California, 2-6 July 1984, ACL ed., Association for Computational
Linguistics, vol. 1/1: pp. 28-33.
[Karttunnen 1991]
Karttunnen L. (1991) Finite-state Constraints. Proc. CICL-91, USM, Penang,
Malaysia vol. 1/1: pp. 1-18.
[Karttunnen 1993]
Karttunnen L. (1993) Finite-State Lexicon Compiler. Research Report,n¡ ISTLNLTT-1993-04-02, Xerox PARC, Avril 1993, 18 p.
[Karttunnen & al. 1992]
Karttunnen L. & Beesley K. R. (1992) Two-Level Rule Compiler. Research
Report,n¡ ISTL-92-2, Xerox PARC, October 1992, 15 p.
[Kay 1973]
Kay M. (1973) The MIND system. In ÒCourant Computer Science Symposium
8: Natural Language ProcessingÓ, R. Rustin ed., Algorithmics Press, New York:
pp. 155-188.
[Kay 1980]
Kay M. (1980) The Proper Place of Men and Machines in Language
Translation. Research Report,n¡ CSL-80-11, Xerox, Palo Alto Research Center,
octobre 1980, 20 p.
[Kay 1982]
Kay M. (1982) Machine Translation. American Journal of Computational
Linguistics, 8/2: pp. 74-78.
[Keene 1989]
Keene S. E. (1989) Object-Oriented Programming in Common Lisp, AddisonWesley, 266 p.
[Kiczales & al. 1991]
Kiczales G., Rivi•res J. d. & Bobrow D. G. (1991) The Art of the Metaobject
Protocol, MIT Press, 335 p.
Practical SGML, Kluwer Academic Publishers,
Bibliographie
153
[Lafourcade 1992]
Lafourcade M. (1992) Le probl•me de lÕacc•s au lexique dans les outils pour
rŽdacteurs. ODILE, une approche. Proc. SŽminaire Lexique, Toulouse, P™le
langage naturel et parole du GDR-PRC CHM, vol. 1/1: pp. 81-89.
[Lafourcade 1993]
Lafourcade M. (1993) Geta-Browser. GETA-IMAG, Grenoble, Common Lisp
Object System (MCL - CLOS), Apple Macintosh, version 2.2.
[Lafourcade 1994a]
Lafourcade M. (1994a) Applying Pivot MT Techniques to Multi-dialectal
Programming Language Editors. rapport interne, GETA-IMAG, janvier 1994.
[Lafourcade 1994b]
Lafourcade M. (1994b) GŽnie logiciel pour le gŽnie linguiciel. Th•se nouveau
doctorat, UniversitŽ Joseph Fourier (Grenoble 1), 300 p.
[Lafourcade 1994c]
Lafourcade M. (1994c) ODILE: un outil personnel dÕaide ˆ la traduction.
Turjuman, 3/1: pp. 13-21.
[Lafourcade 1994d]
Lafourcade M. (1994d) Re-Engineering with added Genericity of Specialized
Languages for Linguistic Programming - A case study with the ATEF & LT
SLLPs. Proc. IACLÕ94, Penang, Malaysia, 26-28 July 1994: pp. 51-57.
[Lafourcade & al. 1992]
Lafourcade M. & SŽrasset G. (1992) Geta-Strings. Logiciel GETA, Grenoble,
Common Lisp Object System (MCL - CLOS), Macintosh, version 1.0.
[Lafourcade & al. 1993a]
Lafourcade M. & SŽrasset G. (1993a) DOP (Dictionary Object Protocol).
GETA-IMAG, Grenoble, Common Lisp Object System (MCL - CLOS), Apple
Macintosh, version 2.0.
[Lafourcade & al. 1993b]
Lafourcade M. & SŽrasset G. (1993b) Geta-Grapher. GETA-IMAG, Grenoble,
Common Lisp Object System (MCL-CLOS), Apple Macintosh, version 1.1.
[Lay & al. 1992]
Lay M.-H., Zaysser L. & Flores S. (1992) Projet Eureka Genelex, le mod•le
syntaxique. Rapport technique, Projet Eureka Genelex, 10 juin 1992, 107 p.
[Lenat & al. 1990]
Lenat D. B., Guha R. V., Pittman K., Pratt D. & Shepherd M. (1990) CYC:
Toward Programs with Common Sense. Communications of ACM, 33/8: pp. 3049.
[MelÕcÿuk 1984]
MelÕc
ÿuk I. (1984) DEC : Dictionnaire explicatif et combinatoire du fran•ais
contemporain, recherche lexico-sŽmantiques I, Presses de lÕuniversitŽ de
MontrŽal, MontrŽal(Quebec), Canada, 172 p.
[MelÕcÿuk 1988]
MelÕc
ÿuk I. (1988) DEC : Dictionnaire explicatif et combinatoire du fran•ais
contemporain, recherche lexico-sŽmantiques II, Presses de lÕuniversitŽ de
MontrŽal, MontrŽal(Quebec), Canada, 332 p.
[MelÕcÿuk 1992]
MelÕc
ÿuk I. (1992) DEC : Dictionnaire explicatif et combinatoire du fran•ais
contemporain, recherche lexico-sŽmantiques III, Presses de lÕuniversitŽ de
MontrŽal, MontrŽal(Quebec), Canada, 323 p.
[Melby 1988]
Melby A. k. (1988) Lexical Transfert: Between a Source Rock and a Hard
Target. Proc. Coling-88, Budapest, 22-27 aožt 1988, D. Vargha ed. vol. 2/2: pp.
411-413.
[Melby 1991]
Melby A. K. (1991) Pour le traducteur : un poste de travail ˆ trois niveaux
dÕassistance. Proc. LÕenvironnement traductionnel ; La station de travail du
traducteur de lÕan 2001, Mons, Belgique, 25-27 avril 1991 vol. 1/1: pp. 151-153.
[Meyer & al. 1990]
Meyer I., Onyshkevych B. & Carlson L. (1990) Lexicographic Principles
and Design for Knowledge-Based Machine Translation. Technical Report,n¡
CMU-CMT-90-118, Carnegie Mellon University, August 13, 1990, 66 p.
154
Bibliographie
[Miike 1990]
Miike S. (1990) How to Define Concepts for Electronic Dictionaries. Proc.
international workshop on electronic dictionaries, Oiso Kanagawa, Japan: pp.
43-49.
[Morin 1991]
Morin J.-Y. (1991) IntŽgration des connaissances en gŽnie linguistique :
niveaux, dimensions, objets et contraintes. Proc. LÕenvironnement
traductionnel - La station de travail du traducteur de lÕan 2001, Mons, Belgique,
25-27 avril, AUPELF&UREF, Presses de lÕUniversitŽ de MontrŽal, vol. 1/1: pp.
109-133.
[Nagao 1993]
Nagao M. (1993) Current Status and Future Trends of Natural Language
Processing. Proc. KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed.,
JIPDEC, vol. 1/1: pp. 31-39.
[Nagao & al. 1985]
Nagao N., Tsujii J. & Nakamura J. (1985) Terminology dictionary for
machine translation. Proc. Second Infoterm Symposium on Terminology,
Wien, 15-18 avril 1985.
[NŽdobejkine 1990]
NŽdobejkine N. (1990) ReprŽsentation des informations lexicales dans les
dictionnaires Žlectroniques. T.A. Informations, 31/1: pp. 5-15.
[NŽdobejkine 1991]
NŽdobejkine N. (1991) Dictionary Approach in Natural Language
Processing. Proc. Third International Conference on Translation, Kuala Lumpur
(Malaysia).
[Nirenburg 1987]
Nirenburg S., ed. (1987) Machine translation. Studies in Natural Language
Processing, A. K. Joshi ed., Cambridge University Press, Cambridge, 350 p.
[Nirenburg 1989a]
Nirenburg S. (1989a) KBMT-89 Project Report., Center for Machine
Translation, Carnegie Mellon University, Pittsburg, avril 1989, 286 p.
[Nirenburg 1989b]
Nirenburg S. (1989b) Knowledge-based machine translation. M.T., 4/1: pp.
5-24.
[Nirenburg & al. 1990a]
Nirenburg S. & Defrise C. (1990a) Lexical and Conceptual Structure for
Knowledge-Based Machine Translation. Proc. ROCLING III, Taipeh, 20-22
August 1990 vol. 1/1: pp. 105-130.
[Nirenburg & al. 1990b]
Nirenburg S. & Goodman K. (1990b) Treatment of Meaning in MT Systems.
Proc. ROCLING III, Taipeh, 20-22 August 1990 vol. 1/1: pp. 81-101.
[Nirenburg & al. 1989]
Nirenburg S. & Levin L. (1989) Knowledge Representation Support. M.T.,
4/1: pp. 25-52.
[Norvig 1992]
Norvig P. (1992) Paradigms of Artificial Intelligence Programming: Case
Studies in Common Lisp, Morgan Kaufmann Publishers, San Mateo - California,
948 p.
[Phan 1991]
Phan H. K. (1991) Contribution ˆ lÕinformatique multilingue, extension dÕun
Žditeur de documents structurŽs. Th•se nouveau doctorat, UniversitŽ des
sciences et techniques de Lille, Flandres Artois, 231 p.
[Phan & al. 1992]
Phan H. K. & Boitet C. (1992) Multilinguization of an editor for structured
documents. Application to a trilingual dictionary. Proc. COLING 92, Nantes,
23-28 July 1992, C. Boitet ed., ACL, vol. 3/4: pp. 966 - 971.
[Qi 1991]
Qi Y. (1991) Research and Development of the Chinese Dictionary Used for
Multilingual Machine Translation. Proc. International Symposium on
Bibliographie
155
Multilingual Machine Translation (MMT-91), Beijing, August 19-21, 1991 vol.
1/1: pp. 59-61.
[Quint 1987]
Quint V. (1987) Une approche de lÕŽdition structurŽe des documents.,
UniverstitŽ scientifique, technologique et mŽdicale de Grenoble, 274 p.
[Quint 1989]
Quint V. (1989) Systems for Manipulation of Structured Documents. In
ÒStructured DocumentsÓ, J. AndrŽ, R. Furuta & V. Quint ed., Cambridge
University Press: pp. 35.
[Quint & al. 1994]
Quint V. & Vatton I. (1994) Making Structured Documents Active. Electronic
Publishing, 7/1:.
[Ricci 1986]
Ricci, ed. (1986) Dictionnaire fran•ais de la langue chinoise., Institut Ricci Kuangchi Press, Paris & Taipei, 185 p.
[Sabah 1988]
Sabah G. (1988) LÕintelligence artificielle et le langage. Volume 1 :
ReprŽsentation des connaissances M. Borillo & F. Nef ed., Langue Raisonnement - Calcul, Herm•s, Paris, 352 p.
[Sabah 1989]
Sabah G. (1989) LÕintelligence artificielle et le langage. Volume 2 : Processus
de comprŽhension M. Borillo & F. Nef ed., Langue - Raisonnement - Calcul,
Herm•s, Paris, 411 p.
[Sabah 1993]
Sabah G. (1993) Knowledge Representation and Natural Language
Understanding. AICOM, 6/3/4: pp. 155-186.
[Schneider 1989]
Schneider T. (1989) The METAL System. Status 1989. Proc. MT Summit II,
Munich, Germany, 16-18 August 1989, C. Rohrer ed. vol. 1/1: pp. 128-136.
[Seligman & al. 1994]
Seligman M. & Boitet C. (1994) A ÒwhiteboardÓ architecture for automatic
speech translation. Proc. International Symposium on Spoken Dialogue,
Waseda University, Tokyo, 1-12 November 1993: pp. 4-8.
[SŽrasset 1992a]
SŽrasset G. (1992a) Defining a Database Ñ An example. Technical report,
Multilex ESPRIT project, May 1992, 33 p.
[SŽrasset 1992b]
SŽrasset G. (1992b) Defining a database Ñ The language. Technical report,
Multilex ESPRIT project, May 1992, 17 p.
[SŽrasset 1992c]
SŽrasset G. (1992c) Psi-termes et dictionnaires. Proc. SŽminaire Lexique des
p™les langage naturel et parole du GDR PRC CHM, Toulouse, janvier 1992 vol.
1/1: pp. 35-45.
[SŽrasset 1994a]
SŽrasset G. (1994a) Approche ÏcumŽnique au probl•me du codage des
structures linguistiques. Proc. TALN-94 : Le traitement automatique du langage
naturel en France aujourdÕhui, Marseille, 7-8 avril 1994, P. Blache ed. vol. 1/1:
pp. 109-118.
[SŽrasset 1994b]
SŽrasset G. (1994b) An Interlingual Lexical Organisation Based on
Acceptions, From the Parax Mock-up to the NADIA System. Proc. ICLA-94,
Penang, 26-28 July 1994 vol. 1/1: pp. 21-33.
[SŽrasset 1994c]
SŽrasset G. (1994c) Interlingual Lexical Organisation for Multilingual
Lexical Databases in NADIA. Proc. COLING-94, Kyoto, 5-9 August 1994, M.
Nagao ed. vol. 1/2: pp. 278-282.
[SŽrasset 1994d]
SŽrasset G. (1994d) Peut-on coder un dictionnaire avec des Ψ-termes.
Turjuman, revue de Traduction et dÕInterprŽtation, ƒcole supŽrieure roi Fahd de
traduction, Tanger, 3/1: pp. 41-56.
156
Bibliographie
[SŽrasset 1994e]
SŽrasset G. (1994e) Recent Trends of Electronic Dictionary Research and
Development in Europe. Technical Memorandum,n¡ TM-038, Japan Electronic
Dictionary Research Institute Ltd., 16 March 1994, 89 p.
[SŽrasset 1994f]
SŽrasset G. (1994f) Software architecture and tools. In ÒMULTILEXÓ (title to
be decided), K. Ahmad ed., (to be published) Springer Verlag.
[SŽrasset & al. 1993]
SŽrasset G. & Blanc ƒ. (1993) Une approche par acceptions pour les bases
lexicales multilingues. Proc. T-TA-TAO 93, MontrŽal, 30 septembre-2 octobre
1993, A. Clas ed. vol. 1/1: pp. (ˆ para”tre).
[Shieber 1986]
Shieber S. M. (1986) An Introduction to Unification-Based Approaches to
Grammar, CSLI Lecture Notes, Center for the Study of Language and
Information, Menlo Park, 105 p.
[Sperberg-McQueen & al. 1994]Sperberg-McQueen C. M. & Burnard L., ed. (1994) Guidelines for
Electronic Text Encoding and Interchange., Text Encoding Initiative, Chicago,
Oxford, 1290 p.
[St Clair 1991]
St Clair B. (1991) WOOD: a Persistent Object Database for MCL. Apple,
Avalaible in MCL CD-ROM & FTP (cambridge.apple.com), version 1.0.
[Steele 1990]
Steele G. L. Jr. (1990) COMMON LISP. The Language, Digital Press, 1030 p.
[Tsujii 1986]
Tsujii J.-I. (1986) Future Directions of Machine Translation. Proc. Coling-86,
Bonn, 25-29 aožt 1986 vol. 1/1: pp. 655-668.
[Tsujii 1988]
Tsujii J.-I. (1988) What is a cross-linguisticaly valid interpretation of
discourse? Proc. New Directions in Machine Translation, Budapest, 18-19 aožt
1988, D. Maxwell, K. Schubert & T. Witkam ed., Distributed Language
Translation, T. Witkam, Floris Publications,: pp. 157-166.
[Tsujii 1989]
Tsujii J.-i. (1989) Machine Translation in Natural Language Understanding.
Literary and Linguistic Computing, 4/3: pp. 214-217.
[Tsujii 1990]
Tsujii J.-i. (1990) Why do we need man-machine interaction in MT? Proc.
RocLing III, Taipeh, August 1990 vol. 1/1: pp. 133-138.
[Tsujii & al. 1993]
Tsujii J.-i. & Ananadiou S. (1993) Knowledge-based Processing in MT. Proc.
KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed., JIPDEC, vol. 1/1: pp. 7082.
[Tsujii & al. 1990]
Tsujii J.-i. & Fujita K. (1990) Lexical Transfer based on Bi-Lingual Signes Toward Interaction during Transfert. Proc. RocLing III, Taipeh, August 1990
vol. 1/1: pp. 141-157.
[Uchida & al. 1991]
Uchida H. & Zhu M. (1991) Interlingua. Proc. International Symposium on
Multilingual Machine Translation (MMT-91), Beijing, 19-21 August 1991 vol. 1/1:
pp. 22-30.
[Ullman 1980]
Ullman J. D. (1980) Principles of Database Systems, Computer Science Press,
Rockville, 378 p.
[VŽronis 1992a]
VŽronis J. (1992a) Disjunctive Feature Structures as Hypergraphs. Proc.
COLING-92, Nantes, 23-28 July 1992, C. Boitet ed. vol. 2/4: pp. 498-504.
[VŽronis 1992b]
VŽronis J. (1992b) A Feature-Based Model for Lexical Databases. Proc.
COLING-92, Nantes, 23-28 July1992, C. Boitet ed. vol. 2/4: pp. 588-594.
Bibliographie
157
[VŽronis & al. 1989a]
VŽronis J., Ide N. M. & Hari• S. (1989a) Construction automatique de
grands rŽseaux de neurones pour la dŽsambiguisation du langage naturel.
Proc. 10•mes journŽes Syst•mes Experts et leurs applications, confŽrence
spŽcialisŽe : le traitement des langues naturelles et ses applications, Avignon, 28
mai-1 juin 1990: pp. 105-117.
[VŽronis & al. 1989b]
VŽronis J., Ide N. M. & Wurbel N. (1989b) Extraction dÕinformations
sŽmantiques dans les dictionnaires courants. Proc. 7•me congr•s
Reconnaissance des Formes et Intelligence Artificielle, AFCET RFIA, Paris: pp.
1381-1395.
[VŽronis & al. 1990]
VŽronis J., Ide N. M., Wurbel N. & HariŽ S. (1990) Construction et
exploitation dÕune base de donnŽes lexicale Franco-Anglaise: le projet
Vassar/GRTC. Proc. JournŽes nationales du PRC Communication HommeMachine, Toulouse, Octobre 1990: pp. 115-124.
[Wilks 1986]
Wilks Y. (1986) An Intelligent Analyzer and Understander of English. In
ÒReadings in Natural Language ProcessingÓ, B. J. Grosz, K. Spark Jones & B. L.
Webber ed., Morgan Kaufmann Publishers, Inc., Los Altos, California: pp. 193204.
[Wilks & al. 1990]
Wilks Y. & Farwell D. (1990) A White paper on Research in Pragmatic-based
Machine Translation. Memorandan in Computer and Cognitive Science,n¡
MCCS-90-188, Computing Research Laboratory, New Mexico State University,
Las Cruces, NM, 25 p.
[Wilks & al. 1993]
Wilks Y. & Nirenburg S. (1993) Toward Automated Knowledge Acquisition.
Proc. KB&KSÕ93, Tokyo, Japan, December 1993, JIPDEC ed., JIPDEC, vol. 1/1:
pp. 54-58.
[Yaoliang & al. 1991]
Yaoliang J. & Zhendong D. (1991) As a CICC MMT (ODA) Project. Proc.
International Symposium on Multilingual Machine Translation (MMT-91),
Beijing, 19-21 August 1991 vol. 1/1: pp. 13-15.
[Yokota 1990]
Yokota E. (1990) How to Organise a Concept Hierarchy. Proc. International
workshop on electronic dictionaries, Oiso Kanagawa Japan, Japan Electronic
Dictionary Research Institute, Ltd., vol. 1/1: pp. 50-57.
[Zajac 1988]
Zajac R. (1988) Operations on Typed Feature Structures: Motivations and
Definitions. Internal Report, ATR Interpreting Telephony Research Laboratories,
1988, 32 p.
[Zampolli 1973]
Zampolli A. (1973) LÕautomatisation de la recherche lexicographique : Žtat
actuel et tendances nouvelles. 18/1/2: pp. 103-138.
[Zaysser & al. 1992]
Zaysser L., Laporte E., Lay M.-H., Vandenbussche C. & Francopoulo G.
(1992) Projet Eureka Genelex, couche morphologique. Rapport Technique,
Projet Eureka Genelex, 2 juin 1992, 97 p.
Annexes
Annexe A : Introduction à SGML
SGML6 (Standard Generalized Markup Language) est un standard international pour la
dŽfinition de mŽthode de reprŽsentation de documents sous forme Žlectronique.
SGML est un mŽtalangage, cÕest ˆ dire un moyen de dŽfinir formellement un langage
permettant la reprŽsentation dÕun document Žlectronique. Le langage ainsi dŽfini est un
langage dÕŽtiquettes.
Une ÒŽtiquetteÓ est un moyen de donner une information, ou une annotation sur le contenu
dÕun texte de document.
Un langage dÕŽtiquette permet de dŽfinir lÕensemble des Žtiquettes autorisŽes, lÕensemble des
Žtiquettes requises, comment ces Žtiquettes sont distinguŽes du texte et ce quÕelles signifient.
SGML donne des moyen de dŽfinir les trois premiers points, le quatri•me Žtant ˆ la charge de
lÕutilisateur.
SGML est un formalisme descriptif permettant de dŽfinir un type de documents (Document
Type Definiton ou DTD). Une DTD contient une description des Žtiquettes autorisŽes et
requises. Chaque document SGML sera associŽ ˆ un type. Ce type est la grammaire qui
permettra de manipuler le document.
Un texte nÕest pas une suite de mots que lÕon ne peut diffŽrencier. Il peut •tre divisŽ en
diffŽrentes unitŽ textuelles. Un article par exemple peut •tre divisŽ en une suite de
paragraphes, de chapitres, etc.
Le document est donc divisŽ en ŽlŽments. SGML ne permet pas la dŽfinition de la sŽmantique
dÕun ŽlŽment, mais il permet de dŽfinir les relations quÕil entretient avec dÕautres ŽlŽments.
Ë lÕintŽrieur dÕun texte ŽtiquetŽ (une instance de document), chaque ŽlŽment doit •tre
explicitement repŽrŽ. Le moyen le plus couramment utilisŽ pour cela est lÕinsertion dÕune
Žtiquette au dŽbut et ˆ la fin dÕun ŽlŽment. Ces Žtiquettes agissent donc comme des
parenth•ses sur le texte. Ainsi, une citation peut •tre indiquŽe comme suitÊ:
... Rosalind’s remaks <quote>This is the silliest stuff that ere I heard
of!</quote> clearly indicate ...
6 Cette partie est inspirée du chapitre 2 de [Sperberg-McQueen & al. 1994].
162
Annexes
Dans cet exemple, le dŽbut de lÕŽlŽment est indiquŽ par lÕŽtiquette <quote>. Sa fin est
indiquŽe par </quote>. ÒquoteÓ indique le nom de lÕŽlŽment. LÕutilisation des chevrons ( < et
>) et du slash (/) est la convention standard utilisŽe en SGML (cette convention peut •tre
redŽfinie).
Un ŽlŽment peut •tre vide, contenir un simple texte, on contenir un ensemble dÕautres
ŽlŽments dÕun type diffŽrent. Cela permet le codage de structure plus complexes.
Supposons que lÕon souhaite coder une anthologie, qui contiendra un ensemble de po•mes
dont on conna”t le titre, et un ensemble de strophes (elles m•me constituŽes dÕun ensemble
de vers).
Un tel document appara”tra sous la forme suivante7 Ê:
<anthology>
<poem><title>The SICK ROSE</title>
<stanza>
<line>O rose thou art sick.</line>
<line>The invisible worm,</line>
<line>That flies in the night</line>
<line>In the howling storm:</line>
</stanza>
<stanza>
<line>Has found out thy bed</line>
<line>Of crimson joy:</line>
<line>And his dark secret love</line>
<line>Does thy life destroy.</line>
</stanza>
</poem>
<poem>
<!-- more poems go here -->
</anthology>
Des blancs et retours ˆ la lignes ont ŽtŽ introduits pour simplifier la lecture du document. Ils
ne jouent aucun r™le dans la dŽfinition de la structure du document. De plus, la ligneÊ:
<!-- more poems go here -->
est un commentaire SGML qui nÕest pas traitŽ comme une partie du texte.
Cet exemple ne fait aucune hypoth•ses sur les r•gles qui gouvernent la structure dÕune
anthologie. Pourtant, on peut dŽfinir des r•gles qui permettront de simplifier lÕŽtiquetage du
documentÊ:
- une anthologie contient des po•mes, et rien dÕautre,
- un po•me a un seul titre qui prŽc•de la premi•re strophe et qui ne contient pas dÕautre
ŽlŽment,
- mis ˆ part le titre, un po•me ne contient que des strophes,
- une strophe ne contient quÕun ensemble de vers,
- seuls une strophe ou un autre po•me peuvent venir ˆ la suite dÕune strophe,
- seuls un vers ou une strophe peuvent venir ˆ la suite dÕun vers.
Ë partir de ces r•gles, on peut infŽrer quÕil nÕest pas nŽcessaire dÕŽtiqueter explicitement la fin
des vers et des strophes. La deuxi•me r•gle implique quÕil est inutile de marquer la fin dÕun
titre (qui est implicitement marquŽe par un dŽbut de strophe). De la m•me mani•re, il est
7 Cet exemple est extrait de “Songs of innocence and experience” (1974) de William Blake.
Description informelle de SGML
163
inutile dÕŽtiqueter explicitement la fin dÕun po•me. Ainsi, on peut reprŽsenter le m•me
document de la mani•re suivanteÊ:
<anthology>
<poem><title>The SICK ROSE
<stanza>
<line>O rose thou art sick.
<line>The invisible worm,
<line>That flies in the night
<line>In the howling storm:
<stanza>
<line>Has found out thy bed
<line>Of crimson joy:
<line>And his dark secret love
<line>Does thy life destroy.
<poem>
<!-- more poems go here -->
</anthology>
Les r•gles, telles celles dŽcrites ci-dessus, sont la premi•re Žtape du processus de crŽation
dÕune spŽcification formelle de la structure dÕun document SGML. Cette description est une
ÒDŽfinition de Type de DocumentÓ (DTD).
Ainsi, la DTD correspondant ˆ lÕexemple ci-dessus est dŽfinie comme suitÊ:
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
anthology
poem
title
stanza
line
-
O
O
O
O
(poem+)>
(title?, stanza+)>
(#PCDATA)>
(line+)>
(#PCDATA)>
On a ainsi dŽfini les diffŽrents ŽlŽments du document. On a pu indiquer lÕoptionnalitŽ ou
lÕobligation des Žtiquettes de dŽbut et de fin. Ainsi, dans la ligneÊ:
<!ELEMENT title
- O
(#PCDATA)>
le Ò-Ó indique lÕobligation de lÕŽtiquette de dŽbut et le ÒOÓ indique que lÕŽtiquette de fin peut
•tre omise.
En troisi•me partie de la dŽfinition de chaque ŽlŽment (entre parenth•ses) appara”t la
dŽfinition de son contenu. Le contenu peut •tre une suite de caract•res (#PCDATA) ou un
ensemble dÕŽlŽments (title?, stanza+). Le Ò ?Ó ˆ la suite dÕun ŽlŽment indique sont
optionnalitŽ. Un Ò+Ó ˆ la suite dÕun ŽlŽment indique que cet ŽlŽment est obligatoire et peut
•tre rŽpŽtŽ. Un Ò *Óˆ la suite dÕun ŽlŽment indique que cet ŽlŽment peut •tre rŽpŽtŽ, mais nÕest
pas obligatoire. Un Ò ,Ó entre deux ŽlŽment indique leur mise en sŽquence.
Il est possible dÕassocier des attributs ˆ chacun des ŽlŽments dÕun document. Il est ainsi
possible dÕassocier un identificateur ˆ un ŽlŽment particulier ou de lui associer un numŽro, un
statut, etc. Ainsi, pour pouvoir associer un identificateur et un statut ˆ un ŽlŽment de type
poem, on va ajouter la dŽfinition suivante dans la DTD anthologyÊ:
<!ATTLIST poem
id
status
ID
(draft | revised | published)
#IMPLIED
draft
>
Dans cette dŽfinition, on indique ˆ quel ŽlŽment sont associŽs les attributs dŽfinis. Pour
chaque attribut, on donne un nom, un ensemble de valeur, et une valeur par dŽfaut. ID est un
type de valeur spŽcial permettant de donner un nom unique ˆ un ŽlŽment du document. Sa
164
Annexes
valeur est calculŽe automatiquement (#IMPLIED). LÕattribut status peut avoir trois valeursÊ:
draft, revised, published, avec draft comme valeur par dŽfaut.
Les concepts exposŽs jusquÕalors portent sur la dŽnotation dÕune structure dans le document.
SGML propose aussi un moyen simple et souple de coder et de nommer des parties arbitraires
du contenu dÕun document, de mani•re portable. Cette possibilitŽ est offerte par les entitŽs.
Une entitŽ est une partie nommŽe du contenu du document, indŽpendamment de sa
structure. Par exemple, la dŽclaration suivanteÊ:
<!ENTITY tei "Text Encoding Initiative">
dŽfinit une entitŽ de nom tei et dont la valeur est la cha”ne ÒText Encoding InitiativeÓ. On
peut rŽfŽrer ˆ ces entitŽs ˆ lÕintŽrieur dÕun document en insŽrant leur nom, prŽcŽdŽ dÕun Ò &Ó et
terminŽ par un point-virgule. Ainsi, le texte ÒLa &tei; est une initiative…Ó est Žquivalent
au texte ÒLa Text Encoding Initiative est une initiative…Ó.
Ce mŽcanisme dÕentitŽ est utilisŽ notamment pour coder les caract•res diacritŽs dans un texte
que lÕon souhaite pouvoir passer dÕune machine ˆ une autre.
Annexe B : Introduction à GRIF
GRIF8 est un syst•me interactif de production de documents structurŽs. Il permet de manipuler
des documents complexes comportant des formules mathŽmatiques, des tableaux, des
schŽmas, etc., en mettant lÕaccent sur lÕorganisation logique des documents. Il est disponible
sur station de travail Unix et utilise le syst•me de fen•trage X.
Tous les traitements que GRIF peut effectuer sÕappuient sur un mod•le de document de haut
niveau. Pour GRIF , un document est dÕabord une structure logique. Ainsi, un article
scientifique est considŽrŽ comme une suite dÕŽlŽments typŽsÊ: un titre, un ou plusieurs noms
dÕauteurs, un rŽsumŽ et une suite de section, le rŽsumŽ Žtant formŽ de paragraphes et chaque
section comportant un titre, quelques paragraphes et une suite de sections de niveau
infŽrieur. Cette organisation convient bien ˆ un article, mais ne permet pas de reprŽsenter
correctement un livre ou une lettre. CÕest pourquoi il nÕy a pas de mod•le unique de
document, mais un mŽta-mod•le qui permet de dŽcrire plusieurs mod•les, un pour chaque
classe de documents.
Gr‰ce au mŽta-mod•le, on peut dŽfinir une structure logique pour la classe de documents
Article, une autre pour la classe de documents Livre, une autre pour la classe de documents
LettreÉ Un langage, appelŽ S, permet de spŽcifier des structures logiques gŽnŽriques de ces
classes de documents sous la forme de schŽmas de structure.
LÕun des intŽr•ts de lÕutilisation dÕune structure logique est quÕelle permet de produire
automatiquement lÕaspect graphique des documents. Ë chaque type dÕŽlŽment de la structure
logique gŽnŽrique est associŽ un ensemble de r•gles de prŽsentation qui dŽfinissent lÕaspect
graphique de ce type dÕŽlŽment. En appliquant ces r•gles aux ŽlŽments de la structure logique
spŽcifique, on peut construire lÕimage du document. On dŽbarrasse ainsi lÕutilisateur du travail
de mise en forme du document, on assure une bonne homogŽnŽitŽ de la prŽsentation (tous
8 Le nom Grif est associé à trois choses différentes : 1) un prototype en cours de développement à l’INRIA dans le
cadre du projet Opéra (à Grenoble et à Rennes), 2) un produit commercial issu du précédent et 3) la société Grif SA, qui
commercialise le produit précédent (Grif SA, 2, bd Vauban, BP 266, 78053 St Quentin en Yvelines Cedex). Nous ne
parlons ici que du prototype 1.
166
Annexes
les ŽlŽments de m•me type sont prŽsentŽs par application des m•mes r•gles), et on peut
assurer, lorsque cÕest nŽcessaire, que le document est prŽsentŽ selon un mod•le imposŽ.
Un ensemble de r•gles de prŽsentation dŽfinissant lÕaspect graphique de tous les types
dÕŽlŽments dÕune classe de documents est appelŽ un schŽma de prŽsentation. Les schŽmas de
prŽsentation sont Žcrits dans un langage appelŽ P, qui permet aux utilisateurs de spŽcifier
leurs propres prŽsentations. Si lÕon spŽcifie plusieurs schŽmas de prŽsentation pour une classe
de documents, on peut voir le m•me document sous diffŽrentes formes graphiques, sans
affecter ni son contenu, ni sa structure logique.
LÕimpression peut se faire directement par GRIF (qui gŽn•re du Postscriptª et donne alors un
comportement WYSIWYG) ou via un formateur. Cette seconde option fait intervenir un
troisi•me langage, le langage T, qui permet dÕexprimer des r•gles de traduction, regroupŽes
dans des schŽmas de traduction. Un schŽma de traduction spŽcifie le transcodage des
caract•res ainsi que des cha”nes de caract•res ˆ engendrer pour chaque ŽlŽment du
document, en fonction de son type et de sa position dans la structure logique du document.
Un programme de traduction fait partie du syst•me. Il lit un document produit par lÕŽditeur et,
en suivant les r•gles exprimŽes dans un schŽma de traduction, il produit un document traduit.
Comme pour les schŽmas de prŽsentation, on peut dŽfinir plusieurs schŽmas de traduction
pour une m•me classe de documents, ce qui permet de traduire les documents dÕune classe
dans plusieurs formalismes diffŽrents.
La traduction peut •tre utilisŽe pour produire des documents acceptables par un formateur
comme TeX ou LaTeX. Elle peut aussi •tre utilisŽe pour coder les documents selon un
standard comme SGML.
Le langage S permet de dŽcrire des structures logiques de classes de documents. Ces
structures se prŽsentent comme une grammaire hors contexte augmentŽe dont les terminaux
sont les ŽlŽments textuels. On peut associer aux non-terminaux de la grammaire un ensemble
dÕattributs. Un attribut peut servir pour lÕinterfa•age (position dÕun ŽlŽment dans une pageÉ),
pour une rŽfŽrence (identificateur dÕun paragraphe, dÕune note de bas de pageÉ) ou pour
ajouter une information ne faisant pas partie du contenu dÕun document (la langue dÕun
paragraphe, sa date de crŽationÉ).
Pour illustrer GRIF, nous prendrons le m•me exemple que dans lÕannexe prŽcŽdente. Une
anthologie contient un ensemble de po•mes dont on conna”t le titre, et une suite de strophes
(elles-m•mes constituŽes de vers).
Cette structure se traduit en S parÊ:
STRUCTURE Anthology;
DEFPRES AnthologyP;
STRUCT
Anthology (ATTR editor = TEXT) = BEGIN
Anthology_title = TEXT;
Poems = LIST OF (Poem);
END;
Poem
END;
= BEGIN
Title = TEXT;
Author = TEXT;
Stanzas = LIST OF (Stanza);
Description informelle de GRIF
Stanza
167
= BEGIN
Lines = LIST OF (Line);
END;
Line
= TEXT;
END
Ici, lÕŽlŽment Anthology a un attribut editor dont la valeur est un texte.
ƒtant donnŽe cette structure, on peut dŽfinir une prŽsentation la reflŽtant dans un document.
Cette prŽsentation est dŽfinie en associant, ˆ chaque ŽlŽment de la structure, une bo”te de
prŽsentation, dont la position et la taille sont dŽfinies en fonction de celle des bo”tes voisines.
Par exemple, la bo”te correspondant au titre de lÕanthologie est centrŽe par rapport ˆ sa bo”te
contenante (celle correspondant ˆ lÕanthologie), et son texte est Žcrit en Helvetica 14 grasÊ:
Anthology_title:
BEGIN
HorizPos: VMiddle = Enclosing . VMiddle;
VertPos: Top = Enclosing . Top;
Size: 14;
Font: Helvetica;
Style: Bold;
END;
Un po•me est alignŽ ˆ gauche, et se trouve 1 cm en dessous du po•me prŽcŽdentÊ:
Poem:
BEGIN
HorizPos: Left = Enclosing . Left;
VertPos: Top = Previous Poem . Bottom + 1 cm;
END;
Son titre est prŽsentŽ en Times 12 gras, alignŽ ˆ gaucheÊ:
Title:
BEGIN
VertPos: Top = Enclosing . Top;
HorizPos : Left = Enclosing . Left;
Size: 12;
Font: Times;
Style: Bold;
END;
LÕauteur est prŽsentŽ en Times 10 italiques, avec un retrait ˆ gauche dÕun demi centim•treÊ:
Author:
BEGIN
VertPos: Top = Previous Title . Bottom;
HorizPos: Left = Enclosing . Left + 0.5 cm;
Size: 10;
Font: Times;
Style: Italics;
END;
LÕensemble des strophes dÕun po•me est alignŽ ˆ gauche et son texte est en Times 10. On
laisse un espace de 0,7 centim•tre apr•s le nom dÕauteurÊ:
Stanzas:
BEGIN
VertPos: Top = Previous Author . Bottom + 0.7 cm;
HorizPos: Left = Enclosing . Left;
Size: 10;
Font: Times;
Style: Roman;
END;
168
Annexes
De la m•me mani•re, une strophe se trouve un demi-centim•tre en dessous de la strophe
prŽcŽdente, et alignŽe sur la gauche, en Times 10 (la typographie a ŽtŽ hŽritŽe de la bo”te
contenante Stanzas)Ê:
Stanza:
BEGIN
VertPos: Top = Previous Stanza . Bottom + 0.5 cm;
HorizPos: Left = Enclosing . Left;
END;
Ainsi, on a dŽfini une prŽsentation pour la classe de document Anthology. Nous donnons une
instance de cette classe de document dans la figure B.1.
Figure B.1Ê: Une instance de document de la classe Anthology
Enfin, gr‰ce au langage T, il est possible dÕexporter les documents de cette classe sous
certaines formes. Dans lÕexemple proposŽ, nous allons exporter vers la forme SGML prŽsentŽe
dans lÕannexe prŽcŽdente.
Dans le format que lÕon veut produire, on doit gŽnŽrer les Žtiquettes <anthology> et
</anthology> autour du documentÊ:
Anthology:
BEGIN
Create "<anthology>" before;
Create "</anthology>" after;
END;
De plus, le titre de lÕanthologie nÕappara”t pas. On ne lui associe donc pas de r•gle de
traduction.
Description informelle de GRIF
169
Les Žtiquettes <poem> et </poem> apparaissent autour de chaque po•meÊ:
Poem:
BEGIN
Create "<poem>" before;
Create "</poem>" after;
END;
Le titre d'un po•me appara”t entre les Žtiquettes <title> et </title>Ê:
Title:
BEGIN
Create "<title>" before;
Create "</title>" after;
Create content;
END;
Chaque strophe est entourŽe de <stanza> et </stanza>Ê:
stanza:
BEGIN
Create "<stanza>" before;
Create "</stanza>" after;
END;
Enfin, chaque vers est entourŽ de <line> et </line>Ê:
Line:
BEGIN
Create "<line>" before;
Create "</line>" after;
Create content;
END;
D'autre mŽcanismes permettent la gŽnŽration de formats d'export plus compliquŽs
(conditions d'application de r•gles, sortie vers plusieurs fichiers, traduction des caract•res
spŽciaux, utilisation de compteursÉ).
Annexe C : Exemples d’articles du Dictionnaire Explicatif
et Combinatoire du Français Contemporain
Nous donnons ici 5 articles du Dictionnaire Explicatif et Combinatoire du Fran•ais
contemporain, extraits du volume I de ce dictionnaire.
Nous avons sŽlectionnŽ deux noms, un verbe et deux adjectifs afin de donner une idŽe la plus
exacte possible des structures de ce dictionnaire. Le lecteur souhaitant des renseignements
plus approfondis sur la thŽorie sous-jacente ˆ ce dictionnaire peut consulter les articles qui se
trouvent au dŽbut de chaques volumes du DEC.
172
Annexes
CÎUR, nom, masc.
I.1a.
Organe principal de la circulation sanguine d'une personneÉ [le cÏur de Jean ]
1b.
Organe principal de la circulation sanguine d'un animalÉ [le cÏur de lion ]
2.
Produit alimentaire É [le cÏur de veau ]
3.
Partie de la poitrine d'une personne É [Il a serrŽ son fils sur son cÏur ]
4a.
Organe imaginaire des sentiments É [Le cÏur esp•re toujours ]
4b.
Organe imaginaire de l'intuition É [Son cÏur le lui dit ]
5a.
É propriŽtŽ de la personnalitŽ É [un cÏur de glace ]
5b.
Personne possŽdant le cÏur I.5a [Vous devez la vie ˆ un noble cÏur, ˆ un homme vaillant ]
II.1a.
1b.
Partie principale d'une unitŽ fonctionnelleÉ [le cÏur du bateau ]
ƒlŽment principal [le cÏur du probl•me ]
2a.
Partie centrale d'un espaceÉ [le cÏur du royaume ]
3.
ObjetÉ ayant la forme du cÏur I.1a [un cÏur en papier ]
4.
Une des quatre couleurs 2 des cartes ˆ jouerÉ [l'as de cÏur ]
III.
Organe imaginaire des nausŽes É [Cette senteur lui tournait le cÏur ]
I.1a. CÏur de X = Organe principal de la circulation sanguine d'une personne X qui se trouve dans la partie
centrale du corps II.1d de X et qu'on reprŽsente symboliquement comme ayant la forme
.
Connotations
1) CÏur I.1a est le si•ge des sentiments [voir CÎUR I.4a].
2) CÏur I.1a est le si•ge de l'intuition [voir CÎUR I.4b].
3) CÏur I.1a qui bat 1 reprŽsente la vie [voir les phras•mes correspondants dans CÎUR I.1a].
RŽgime
1=X
1. de N
2. A
poss
C1
: le cÏur de Marie, son cÏur
Fonctions lexicales
Gener
: organe (interne), visc•re [le cÏur, le foie, les poumons et autres organes
internes visc•res ]
A
: de [ s ] [maladie de cÏur ] // cardiaque 1 [art•re cardiaque, palpitations
cardiaques, affections cardiaques ]
: bon | prŽpos; parfait, excellent; sain; fort, puissant, solide
: mauvais | prŽpos; faible, malade 1a
0
Bon = Ver
AntiBon = AntiVer
Loc
Loc
>
: dans [le s ]; au [ s ] | C = v [On le dŽcouvrit Žtendu, un poignard dans
1
le cÏur ; ressentir une douleur au cÏur ]
in
ad
Oper
<
1
: en [plein s ] [Il a re•u la balle en plein cÏur ]
: avoir [ART s ] | C. a un dŽpendant [avoir le cÏur malade
<sain>]
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
S (Oper + AntiBon)
: cardiaque 2
Fact
: battre 1; se contracter
1
1
0
: battement [de s ]
SingS Fact
0
0
F = FinFact
1
: s'arr•ter
0
F comme consŽquence
1
de Excess
S FinFact
0
0
de nouveau CausFact
0
CausFact_____. PlusBon
ATTR
0
Son = Fact
: arr•t [de ART s ]
: ranimer [ART
s]
:soutenir, stimuler [ART
s]
: coup [de ART s ] [J'entendais les coups rapides de son cÏur ]
0
S AntiFact
:// attaque, crise (cardiaque 1)
actual,0
AntiFact
: cŽder
: cogner, battre 2 [J'entends battre son cÏur ]
0
SingS Son
0
usual
: fam battre la breloque, fam avoir des ratŽs
usual,0
S AntiFact
: maladie 1a [de s ] // spŽc insuffisance cardiaque 1
Degrad
: faiblir, flancher
0
usual,0
Degrad
actual
: [Cl ] manquer [Ë cette nouvelle, le cÏur lui manqua ]
dat
F = Caus
Excess
nonPerm
Excess
2
: se fatiguer [le s ]
usual,1
usual,1
actual
:fam soigner 2, mŽnager [A
Excess
poss
s]
: palpiter, accŽlŽrer
: // spŽc palpitations (cardiaques 1), battements prŽcipitŽs [de ART s ]
actual
S Excess
0
AntiBon comme consŽusual
quence de Excess
: usŽ
Stop(C.) Ñ
Sympt (peur , Žmotion ,É) :s'arr•ter [(de N)]
13
Stop(C.) Ñ Sympt
123
(Žmotion forte) : [Cl ] flanche [(de N)] [Le cÏur lui flanche ]
dat
F = Stop(C.) Ñ Sympt
3
13
(chagrin ) : se rompre, se briser [(de N)]
CausF
: rompre [le
3
s]
F = Excess(C.) Ñ
4
Sympt (Žmotion forte) : fam battre la chamade [(de N)]
13
: le s battant [Nous l'attendons le cÏur battant ]
Adv F
1 4
Excess(C.) Ñ Sympt (peur, horreur, effroi, chagrin,
13
dŽsespoirÊ) : se serrer, cogner, battre vite
<fort> [(de N)]
Excess(C.) Ñ
Sympt (joie ,amour ) : bondir, tressaillir, palpiter, frŽmir [(de N)]
13
Excess(C.) Ñ Sympt (pitiŽ, chagrin,
13
angoisse ) : se serrer [(de N)]
en forme de C.
: en [ s ] [un ornement en cÏurÊ]
Parties du cÏur
173
174
Annexes
F = moitiŽ latŽrale
5
droite du C. :
F = moitiŽ latŽrale
6
s droit
s gauche
gauche du C. :
cavitŽ dans la partie
supŽrieure de F et de F
:// oreillette ([du
5
cavitŽ dans la partie
infŽrieure de F et de F
5
6
6
s ])
:// ventricule ([du s ])
Affections du cÏur
F = syncope provoquŽe par un court arr•t du C. entra”nant
7
une grande p‰leur : syncope blanche
maladie 1a entra”nant
de frŽquentes F : maladie 1a blanche
7
malformation du C.
chez les nouveau-nŽs : maladie 1a bleue
avoir une lŽsion au C. entra”nant un souffle
[bruit anormal] : avoir un souffle [au
hŽmorragie dans le C.
: infarctus
syndrome caractŽrisŽ par des douleurs dans
la rŽgion du C. : angine de poitrine
personne qui a une
affection du C. : cardiaque 2
s]
Traitement du cÏur
discipline mŽdicale
s'occupant du C. : // cardiologie
examen des bruits du C.
: // ausculation cardiaque 1
Žtude des enregistrements graphiques des
mouvements du C. : // cardiographie
mŽdicament pour le C.
: // potion cordiale, cordial
opŽration sur le C. qui
continue ˆ battre 1 : opŽration [ˆ
fermŽ]
opŽration sur le cÏur
qui est arr•tŽ : opŽration [ˆ
ouvert]
pile Žlectrique pour
stimuler le C. : stimulateur cardiaque
s
s
Exemples
Le cÏur te flanche, ma beautŽ? [J. Giono]. Sous l'influence de causes diverses, en particulier une mauvaise nouvelle, ou un
coup violent portŽ ˆ l'estomac, le cÏur peut s'arr•ter pendant quelques instants, en m•me temps que la respiratio : la
syncope est rŽalisŽe [P. Vallery-Radot]. Il montait s'arr•tant toutes les deux marches, reprenant souffle, attendant que se
calment un peu les battements prŽcipitŽs de son cÏur [A. Gide]. Ë l'annonce de cette nouvelle, il Žprouva une vive douleur
au cÏur. Son pauvre petit cÏur se mit ˆ battre la chamade. S'il continuait malgrŽ tout, c'est que son cÏur Žtait solide. Le
cadavre Žtait froid; le cÏur avait cessŽ de battre depuis longtemps.
×
(Faire) la bouche en cÏur
Phras•mes reliŽes ˆ CÎUR I.1a par la connotation
ÔcÏur I.1a qui bat 1 reprŽsente la vieÕ
Tant que ce
<mon, É> cÏur battra
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
Ce
175
<son, É> cÏur s'est arr•tŽ
I.1b. CÏur de X = Organe principal de la circulation sanguine d'un animal X.
RŽgime
1=X
1. de N
2. A
poss
C
: le cÏur d'un animal, son cÏur
1
Fonctions lexicales
Toutes les FL, sauf nonPerm
Excess et les FL contenant Sympt : ^
| CÎUR I.1a
usual,1
Exemples
La b•te s'effondra, atteinte au cÏur
<en plein cÏur>.
I.2. CÏur de X = Produit alimentaire Ñ cÏur I.1b d'un animal de boucherie X.
RŽgime
Le cÏur de veau est plus apprŽciŽ que le cÏur de bÏuf; Jeanne le prŽpare farci.
N
1.3. CÏur de X = Partie de la poitrine d'une personne X, sous laquelle se trouve le cÏur I.1a de X.
: EmployŽ le plus souvent dans quelques expressions signifiant ÔX cause que Y soit en contact avec le cÏur
I.2 de X, ce qui manifeste l'affection de X pour YÕ (comme, par ex., serrer presser, Žtreindre
quelqu'un
contre
<sur > son cÏur, mettre <porter > quelque chose sur son cÏur ).
<
>
RŽgime
1=X
1. de N
2. A
poss
C
1
o
Syn
: le cÏur de Jean, son cÏur
Fonctions lexicales
: poitrine I.1a, sein 2
Exemples
Apr•s, elle s'est assise la main sur le cÏur dans son fauteuil [ƒ. Ajar]. Elle s'assit en prenant son fils entre ses deux genoux, et
le pressant avec force sur son cÏur, elle l'embrassa [H. de Balzac]. Quand un chanteur met la main sur son cÏur, cela veut
dire d'ordinaire : je t'aimerai toujours! [Ch. Baudelaire]. Il porte une croix sur son cÏur. Il mit la lettre sur son cÏur et
176
Annexes
s'endormit. Il longeait le prŽcipice, serrant l'enfant contre son cÏur. Elle dŽposa des fleurs sur le cÏur de Jean. Elle
s'endormit, la t•te sur le cÏur de Jean.
I.4a. CÏur de X Žprouvant Y [ˆ l'Žgard de Z ] = Organe imaginaire d'une personne X moyennant lequel X
Žprouve le sentiment Y (ˆ l'Žgard de Z) [comme si cet organe se trouvait dans le cÏur I.1a].
RŽgime
1=X
2=Y
1. de N
(3 = Z)
1. en N
2. A
2. A
poss
1) C
: N = joie, peine ,É [mais pas, par exemple, admiration ou angoisse ]
2) C
: A = joyeux, haineux, effrayŽ ,É [mais pas, par exemple, admiratif ]
C
: le cÏur de ma m•re, son cÏur
Impossible
: *Le cÏur en angoisse, il marchait le long de la rivi•re (1) [= Le cÏur
angoissŽ ,É]
*Le cÏur admiratif, il contemplait ce tableau (2)
2.1
2.2
1
Fonctions lexicales
o
Syn
: ‰me 1a
Contr
: t•te I.2, esprit; corps II.1a
Loc
: en, dans [le/A
Loc
in
:
ab
Adv Real
1
Real
Fact
:
1
s ] | C /=v [La col•re grondait dans son cÏur ]
du plus profond [du s] [Du plus profond du cÏur, je vous en fais la
promesse ]
avec [le s ] [Ce livre est Žcrit avec le cÏur ]
poss
1
: Func (M (C.)) [La haine dŽvore son cÏur ; La joie dilate son cÏur ; L'amour
1
2
enflamme son cÏur ; L'angoisse agite son cÏur ,É]
2
: V (M (C.)) [Son cÏur esp•re
0
0
2
>
<souffre, aime, hait, regrette, s'inqui•te,
s'Žmeut ,É , mais pas *Son cÏur a honte ]
SingS MagnFact
0
nonFact
1
: coup [au
0
s]
: se taire
0
2
X et X ont les C. qui
Fact de la m•me fa•on : ne former qu'un
0
Able Fact
1
: sensible, tendre, jeune
0
qui n'est plus jeune mais dont le C. est
Able Fact : jeune de
1
Able MagnFact
1
nonAble Fact
1
s et qu'une ‰me
0
s
: chaud, ardent
0
: vide, aride
0
nonAble Fact en consŽquence de trop
1
0
Fact : blasŽ, lassŽ
0
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
177
fa•on de parler Žmotionnelle qui
Caus Fact : Žloquence du s
3
Caus Fact
3
Caus Fact
3
Adv Fact
2
Fact
0
: [Cl ] toucher, troubler, agiter, retourner [le s ]; [Cl ] aller droit [au s ],
1
dat
parler [ˆ ART s ], faire vibrer les cordes [du s ]
: [Cl ] remplir, gonfler [ART s de N] [Cette nouvelle me remplit le cÏur
12
dat
d'espoir ]
: de [ s ] [catholique de cÏur ]
13
: Žprouver, ressentir [N]
2
MagnFact
: •tre plein, dŽborder, bržler, se consumer [de N] | Y est un sentiment fort [Mon
2
cÏur est plein
IncepFact
Fact
dat
: se remplir [de N]
2
: v (M (C.)) [(PREP) N] [Son cÏur s'attache facilement aux personnes ; Mon
0
2
cÏur esp•re cette rencontre ]
: sensible [ˆ N] [Son cÏur fut sensible ˆ ces paroles ]
3
Able Fact
1
<dŽborde > de joie ]
3
IncepPredMinusAble Fact
: faiblir
nonAble Fact
: inaccessible [ˆ N]
1
1
Labreal
3
3
: avoir [N au s ] [Il avait la joie au cÏur ]
12
F = Z Žtant tr•s important pour X,
1
Labreal
IncepF
13
: avoir, tenir [N ˆ s ] [J'ai mon travail
<cette affaire >ˆ cÏur ]
: prendre [N ˆ s ], se prendre [de s pour N]
1
Z Žtant important pour X,
Labreal
31
: [Cl ] tenir [ˆ s ] [Mon travail me tient ˆ cÏur ]
dat
: venir [du s ] [Cette parole me vient du cÏur ]
Conv Manif
21
mots de X - spontanŽment
S Manif : cri [du s ]
2
ATTR
F = (en disant ˆ W ses sentiments)
≤____
2
un peu F
Caus Manif : ouvrir, dŽcouvrir, expliquer [A
s ˆ N], mettre, livrer, montrer [A
s]ˆ
1
poss
poss
nu [Il mit son cÏur ˆ nu ]
: ouvrir [un coin de A
2
volontairement Caus Manif
1
poss
s ˆ N]
:Žpancher, vider, dŽcharger [A
deviner les sentiments de X sans que X
Caus Manif : lire [dans le/A
1
poss
poss
s]
s ], sonder [le.A
poss
s]
s]
nonPerm Manif
: cacher [A
Degrad
Excess Ñ Sympt (Y)
: vieillir
: frŽmir, tressaillir, tressauter, bondir [de N = Y]
1
23
poss
Excess Ñ Sympt (un
213
fort sentiment Y) : [Cl ] sauter dans la gorge [de N = Y]
dat
une partie du C. telle que son contenu est
per•u ou admis par X : fond, replis, secret, coin | le plus souvent avec Loc [Au fond du cÏur
in
>
<Dans les
replis de son cÏur, dans le secret de son cÏurÊ il ressentait encore de
l'amour ]
avoir dans le C. de la sympathie pour la personne W : •tre [de s avec N = W]
178
Annexes
F = facultŽ de X d'Žprouver dans son C., en se souvenant des faits
3
s]
// se graver au fond du s
qui avaient provoquŽ des sentiments forts, ces
m•mes sentiments : litt mŽmoire I.1 [du
IncepMagnReal (F )
2
:
3
Y = amour 1,2
Real
s]
: vivre [dans ART
3
s]
Caus Fact
: conquŽrir, gagner [ART
Caus Fact
: attirer [ART
Fact
: •tre [ˆ N] [Mon cÏur est ˆ Pierre ]
3
actual,0
3
usual,0
3
F =S
4
instr
Caus Fact
trouver F
3
: chemin, clŽ [du
3
s]
: trouver [le chemin
4
Caus Fact
3
s]
: [se] aliŽner [ART
actual,3
<la clŽ> s ]
s]
le fait que la personne Z aimŽe de X ne contacte plus X
LiquFact : prov Loin des yeux, loin du
3
Labreal
: porter [N dans A
13
Žtat des C. des personnes qui
s'aiment
: union [des
poss
ss] | C.
s]
s
au pl
Y = amour 2
Ø
A
: de [ /ART
0
s ] [amant <affaire, probl•me, histoire, drame, peine, sa
> de cœur, courrier du cœur ]
dameÊ
IncepReal
A Fact
1
:
0
Caus Fact
3
1
poss
s ˆ N]
pris [Elle a le cÏur pris ], Žpris
: possŽder [ART
0
A nonFact
Fact
: donner [A
13
s ], •tre ma”tre [de ART s ]
: libre, ˆ prendre
0
: appartenir [ˆ N]
3
beaucoup de X +
Caus Fact
3
: tra”ner tous [les
3
homme Ñ
ss] apr•s soi
ss] | C.
charmeuse [de ss] | C.
S Able Caus Fact : bourreau [de
1
1
3
3
femme Ñ
S Able Caus Fact :
1
1
3
3
F = dans le but que Z Caus Fact , Caus Manif
5
3
0
1
ˆ Z : offrir [A
poss
5
Caus Manif ˆ X : accorder [A
1
AntiF
6
: refuser [A
au pl
s ˆ N = Z]
F = en rŽponse ˆ F , Z
6
au pl
s ˆ N = X]
s ˆ N = X]
poss
poss
Y = chagrin
Fact
0
: saigner, pleurer
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
CausFact
179
: [Cl ] blesser, broyer, briser, crever, dŽchirer, fendre, oppresser, percer,
1
dat
transpercer, serrer, ronger [le
S CausFact
res
: blessure [au
1
s]
s ] [Cette nouvelle lui brisa le cÏur ]
Y = dŽsir
Real
: avoir [le
1
AntiAdv Real
1
sˆV
inf
: ˆ contrecÏur
1
X refuse volontairement ce que
son C. Fact : bouder [contre A
0
Fact
] [Il avait le cÏur ˆ rire ]
: [le/A
1
poss
s]
s dire Cl
poss
dat
de V ] [Mon cÏur me dit de me promener ]
inf
Y = joie
Real
s ˆ N] | N = ouvrage, travail, t‰che,É
de bon <grand, tout> s , de gaietŽ de s [Il accepta de bon cÏur ]
: avoir [du
1
Adv Real
1
:
1
Y = plaisir
Real
Fact
: •tre [selon A
3
s]
: chanter
0
A Fact
1
: le
0
Caus Fact
3
3
s en f•te
s ] [Ce chant captivait son cÏur ]
rŽchauffer, rŽjouir [ART s ]
: captiver [ART
actual,0
Caus Fact
Fact
poss
:
1
: y •tre [Il faisait son travail avec diligence, mais le cÏur n'y Žtait pas ]
3
Y = sentiment pŽnible
F = Real
7
AntiF
: avoir [le
s]
1
s lŽger]
avoir [le s ] en Žcharpe
: avoir [le
7
ˆ cause d'un amour 2
non partagŽ, Real
Real
1
:
s
: [Cl ] rester, demeurer, peser [sur le
]; rester en travers [du
dat
de cet homme injuste me resta sur le cÏur ]
3
s gros <lourd> |
le s lŽger |
F = A Fact
: le
AntiF
:
8
s gros <lourd> de N], avoir un poignard <une Žpine> [dans le
1
0
8
postpos
postpos
: [Cl ] glacer, littÊtransir, oppresser [le
CausFact
1
ronger, empoisonner [le
Fact
: [Cl
2
dat
s
2
s
: avoir (fort) [N sur le
], en avoir gros [ˆ V sur le
] [J'ai ce soufflet fort
inf
sur le cÏur ; Il en avait gros sur le cÏur ˆ leur dire adieu ]
13
ContLabreal
] pincer,
dat
2
: •tre bourrelŽ [de remords] | M (C.) = remords
2
Labreal
1
s ] | M (C.) = peur ; [Cl
s ] | M (C.) = haine, envie, jalousie
] soulager, apaiser, calmer [le s ]
dat
CausMinusFact
s ] [Le silence
13
: garder [N sur le
s]
180
Annexes
Exemples
C'est moi qui suis le Seigneur qui sonde les cÏurs, et qui Žprouve les reinsÉ [Bible]. Ce n'est pas de gaietŽ de cÏur qu'il
renonce aux certitudes mŽtaphysiques [F. Maurois]. L'ŽgalitŽ est l'idŽal de l'esprit de l'homme, et l'inŽgalitŽ le penchant de
son cÏur [ƒ. Bourges]. É pendant que la bouche accuse, le cÏur absout [A. de Musset]. L'horrible silence qui y rŽgnait me
gla•ait le cÏur [A. France]. Un espoir immense me gonfle le cÏur [G. Duhamel]. On n'a plus le cÏur jeune impunŽment
quand le corps a cessŽ de l'•tre [J.-J. Rousseau]. Et pourtant c'ežt ŽtŽ si bon, au milieu de tant de deuils et de tristesse d'avoir
un peu d'amour pour se chauffer le cÏur! [A. France]. Il pleure dans mon cÏur/ Comme il pleut sur la ville,/ Quelle est cette
langueur/ Qui pŽn•tre mon cÏur? [P. Verlaine]. Le cÏur a ses raisons que la raison ne conna”t point [B. Pascal]. Jeune de
cÏur : c'est la vraie jeunesse [J. Giono]. D'un c™tŽ, c'est le cÏur qui commande [É], de l'autre, c'est votre cervelle et elle se
sert librement de votre corps [J. Giono]. CÏur qui soupire n'a pas ce qu'il dŽsire [proverbe]. Une chaumi•re et un cÏur,
c'Žtait lˆ toute son ambition. Cette attention dŽlicate me va droit au cÏur. Mais ils Žtaient de cÏur avec la rŽbellion. L'Ïuvre
de Tibulle est de celles qu'on ne peut comprendre qu'avec le cÏur. Vous prenez la chose fort ˆ cÏur. Ce ue l'intelligence a
acceptŽe doit se transplanter dans le cÏur. Calvin insiste sur le fait que la religion chrŽtienne ne touche pas uniquement
l'esprit, mais aussi le cÏur et consiste dans la conviction inŽbranlable de l'esprit et du cÏur. Je lui ai vidŽ mon cÏur. Ne
vous excusez pas : c'Žtait le cri du cÏur. J'ai ˆ cÏur de vous prŽvenir. C'est ˆ contrecÏur et bien malgrŽ lui, que le duc
d'Albe exŽcutait les instructions de Philippe II. Bude put alors se remettre ˆ ses Žtudes; celles-ci lui tenaient tellement ˆ cÏur
qu'il ne sut m•me pas s'en arracher le jour de son mariage. Elle garde, gravŽ au fond de son cÏur, le jugement de P‰ris,
l'injure de sa beautŽ mŽprisŽe. Quelques mots mŽlancoliques dans une lettre nous ouvrent un coin de son cÏur. Ils font le
si•ge d'un m•me cÏur de femme. D•s qu'on commen•ait ˆ •tre gai, on avait le cÏur qui s'ouvrait. Pour ce que vous m'avez
rŽvŽlŽ au sujet de cette pauvre Marie, j'en ai le cÏur brisŽ. Marie s'est flattŽe qu'elle Žtait la premi•re et la seule ˆ avoir Žmu
son cÏur. L'homme fort doit accepter d'un cÏur Žgal les maux auxquels il ne peut rien.
×
Ë cÏur joie
Ë cÏur ouvert
Avoir le cÏur sur les l•vres
CÏur ˆ cÏur
Comme un cÏur
cÏur
De tout A
poss
En avoir le cÏur net
Faire le joli cÏur
Mon cÏur [Veux-tu, mon cÏur? ]
I.4b. CÏur de X [percevant Y ] = Organe imaginaire de l'intuition d'une personne X moyennant lequel X per•oit
Y [comme si cet organe se trouvait dans le cÏur I.1a].
RŽgime
1=X
2=Y
1. de N
2. A
poss
C
: le cÏur d'une m•re , son cÏur
1
Fonctions lexicales
Syn
: ‰me 1b
Real
: Žcouter [son s ]
1
nonFact
: se taire
0
ATTR
AntiVer
≤_____ Fact
nonAble Fact
1
F = Fact
1
F =S
2
: se tromper
: muet
: [Cl ] dire, souffler, prŽdire [N]
1
dat
: voix [du s ]
F
instr 1
: Žcouter [la voix du s ]
Real (F )
1
0
0
2
AntiReal (F )
: Žtouffer [la voix du s ]
Fact (F )
: [Cl ] dire, souffler, prŽdire [N]
Fact
: sentir, deviner [N]
1
1
2
2
2
dat
Exemples
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
181
Je sais qu'il m'aime; mon cÏur ne se trompe jamais. MalgrŽ les serments rŽpŽtŽs de son amant, son cÏur lui disait qu'il lui
Žtait infid•le.
I.5a. CÏur Y de X = CÏur I.4a de X tel qu'il assure la propriŽtŽ Y de la personnalitŽ de X, cette propriŽtŽ
consistant en un fort penchant pour certains sentiments.
RŽgime
1=X
2=Y
1. de N
1. de N
2. A
2. A
poss
C +C
1
: un cÏur de glace
2
<fid•le, juste,É>
<sensible, gai, ferme > de Pierre, son cÏur d'or
Fonctions lexicales
Syn
S
: ‰me 2
: cÏur I.4b
1
Oper
: avoir [ART s ] | C /=v
1
2
F = C.____. bon
:
A +F
:
2
1
1
1
CausPredF
Oper + F
1
:
1
:
1
ContrOper
Ø + F1
:
C.____. gŽnŽreux
:
F = C.____. noble
:
S F
:
2
2
2
0 2
S AntiF
0
:
2
F = C.____. fier
:
F = C.____. courageux
:
CausPredF
:
2
3
2
4
Oper + F
1
4
:
4
Imper(Oper
actual,1
+F )
:
4
s d'or <en or>
de s [personne <homme >de cÏur ]
attendrir [ART s ]
avoir [du s ] | C. a un dŽpendant
il [Cl ] reste [un s ]
dat
s grand <grand sÊ>; le s sur la main | le plus souvent, avec Oper1
s bien nŽ, s haut placŽ, s noble
noblesse [de ART s ]
bassesse [de ART s ], petitesse [de ART s ] [N : *cÏur bas , *cÏur petit ]
s d'aigle
s bien en place, s bien accrochŽ, s de lion, s de fer
affermir, fortifier [ART s ]
avoir [du s ] au ventre
Haut les ss! | C. au pl
dans les Žpreuves
Oper + F
1
F = Oper
5
actual,1
4
: prov faire contre mauvaise fortune bon
s
+ si courageux que X peut
Z-er : avoir [le
s de Vinf = Z]
ne pas Conv F
: [Cl ] manquer
CausFunc + F
: donner [du s ˆ N] au ventre [Les paroles de son chef lui donn•rent du cÏur
au ventre pour affronter l'ennemi ]
21 5
1
4
dat
182
Annexes
: se mettre [du s ] au ventre
Caus Func + F
1
0
4
2
A Manif + C._____.
2
bienveillant : plein de s // cordial 2 [mot
A Caus Manif + C.
_____.
<accueil >cordial ]
2
1
1
C._____. hypocrite
bienveillant : // cordial 1 [personne cordialeÊ]
2
:
F6 = C._____. insensible
2
:
s double
s sec, s de glace, s d'airain, s de pierre, litt s de granit, vieilli s de
bronze
CausPredF
: [Cl ] durcir [ART s] [Les nombreux malheurs lui durcissent le cÏur ]
2
F7 = C._____.
mŽchant
:
S (F )
:
6
0
dat
7
A +F
1
PredF
s noir, s de vip•re
noirceur du s
: sans-cÏur [ce voyou sans-cÏurÊ]
7
: •tre [sans s ], manquer [de
7
bien que X dise des
choses agrŽables, X a F
C._____. peureux
s]
: prov Bouche de miel, s de fiel
7
2
:
C._____. infid•le
2
:
CausPred(C._____.
malhonn•te)
2
s de poulet
s d'artichaut
: dŽpraver, corrompre [ART s ]
Exemples
Les natures au cÏur sur la main ne se font pas l'idŽe des jouissances solitaires de l'hypocrisieÉ[Barbey d'Aurevilly]. Comme
un soldat qui prend la goutte ˆ boire pour se mettre du cÏÏur au ventreÉ [J. Giono]. Mais je n'aurais jamais le cÏur de
pouvoir prŽfŽrerl'un de vous deux ˆ l'autre. Ce voyou sans cÏur et sans honneur, ce bandit! S'il te reste un cÏur, attends
jusqu'ˆ demain! Ceux qui avaient encore un peu de cÏur l'ont perdu. Cet acte rŽv•le la noirceur de son cÏur.
I.5b. CÏur Y = Personne possŽdant le cÏur I.5a Y [= S (cÏur I.5a )].
1
RŽgime
1=Y
1. de N
2. A
C
: un cÏur de fer
1
Fonctions lexicales
Les FL Syn et celles de type C._____. M : ^
| CÎUR I.5a
2
2
C. courageux peut tout
rŽussir : prov Ë s vaillant, rien d'impossible
Exemples
Quoi? dans leur duretŽ ces cÏur d'acier s'obstinent [P. Corneille]. C'est un cÏur de fer, indomptable. Vous devez de tr•s
humbles excuses ˆ un noble cÏur, votre fils.
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
183
II.1a CÏur de X = Partie principale d'une unitŽ fonctionnelle X o• l'activitŽ caractŽristique de X est la plus
intense.
RŽgime
1=X
1. de N
2. A
poss
C
1
: le cÏur du bateau
<de l'usineÊ>, son cÏur
Exemples
La rue Sainte-Catherine est le cÏur de MontrŽal. En un point qui n'est pas tout ˆ fait le centre du terrier, mais quia ŽtŽ
mžrement choisi pou un cas d'extr•me pŽril, j'ai b‰ti le cÏur de ma citadelle. La chaleur produite dans le cÏur du rŽacteur
est transfŽrŽe par un fluide caloporteur ˆ un circuit eau-vapeur.
II.1b. CÏur de X = ƒlŽment principal de X [= FL non standard Çpartie principaleÈ(X) | X = dŽbat, sujet, question,
probl•me, discussion, querelle, contrverse, document ,É, mais pas *po•me , *roman ,É].
RŽgime
1=X
1. de N
C
1
: le cÏur du probl•me
<de l'intrigue >
Exemples
<
>
Cette attitude nous m•ne au cÏur d'une querelle au cÏur de la controverse philosophique . Nous Žtions parvenus au
cÏur de sujet. Mais le cÏur du document Žtait bel et bien l'installation des rŽfugiŽs. Touts ses Ïuvres paraissent dŽcouler
d;une conception centrale, du cÏur mystŽrieux de sa philosophie.
II.2a. pas de pl. CÏur de X = Partie centrale d'un espace topographique X.
RŽgime
1=X
1. de N
2. A
poss
C
1
: le cÏur du royaume , son cÏur
Fonctions lexicales
Syn
: centre, milieu
184
Loc
s ], au [ s ]
en plein s
du [ s ]
: dans [ART
in
Magn
Loc
Annexes
[ÔcentraleÕ]
+ Loc
:
in
:
ab
Exemples
C'est au cÏur de cette for•t que se trouvaient les deux colonnes [G. de S•de]. Il s'agit pour lui ˆ la fois de reculer ses
fronti•res jusqu'au cÏur de la Germanie [G. de S•de]. ÉÊles oasis les plus douces, les plus riches du cÏur de l'Asie [J. Kessel].
Voilˆ l'ennemi dans le cÏur du royaume! Pourquoi lui, SŽjan, chef des 10 000 lŽgionnaires qui gardaient le cÏur de l'Empire
romain, ne deviendrait-il pas le ma”tre de cet Empire tout entier? Une source qui jaillit directement du cÏur du rocher. Il faut
au moins protŽger le cÏur de ce jardin. Des lianes moussues au cÏur des buissons de lilas. Les manifestations se sont
rendues en cort•ge au pied du tombeau en plein cÏur de la capitale polonaise.
II.2b. CÏur de X = Partie centrale Ñ en Žpaisseur Ñ d'une plante X ou de la partie X d'une plante, qui est
per•ue comme distincte des autres parties de X.
RŽgime
^| CÎUR II.2a
C
: le cÏur de ce bouleau, son cÏur
1
Fonctions lexicales
Toutes les FL : ^
| CÎUR II.2a
: // spŽc dŽcÏurer [dŽcÏurer une pi•ce de bois ]
enlever le C.
Exemples
Ils devaient aussi se repasser le cÏur de la salade, le blanc de la poularde et le foie du lapin! [M. Pagnol]. Les vieilles souches
(de vigne0 sont pourries jusqu'au cÏur, et le fruit n'en vaut gu•re [P.-L. Courier]. Ces troncs d'arbre ŽchouŽs sur les plages
[É] et que le soleil et la mer ont dessŽchŽs jusqu'au cÏur [S. Schwartz-Bart]. Le cÏur du bouleau est malade. Un ver sortit
du cÏur de la pomme. Les deux pieds de laitue Žtaient aussi verts que la jeune herbe tendreÊ; leurs feuilles cachaient le cÏur
blanc et repliaient les unes sur les autres.
×
II.2
Ë cÏur [fromage fait ˆ cÏur ]
Au cÏur En plein cÏur de
Comme le cÏur de la cheminŽe [noir comme le cÏur de la cheminŽe ]
<
>
II.3. CÏur de X = Objet en mati•re X ayant la forme symbolique du cÏur I.1a.
RŽgime
1=X
1. en N
C
: un cÏur en carton
1
<papier, sucre, tissu ,É>
Exemples
Elle portait au cou un cÏur suspendu ˆ une cha”ne.
×
CÏur de Marie de Jeannette
CÏur-de-pigeon
<
>
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
185
II.4. pas de pl. Une des quatre couleurs 2 des cartes ˆ jouer dont les points ont la forme symbolique du cÏur
I.1a de couleur 1 rouge.
Exemples
As de cÏur. Il jouait
<choisit, prenait> du cÏur.
Il avait un beau jeu ˆ cÏur.
III. CÏur [de X ] = Organe imaginaire des nausŽes d'une personne X, per•u comme Žtant proche du cÏur I.1a
de X.
RŽgime
1=X
______
Fonctions lexicales
Real
: kavoir mal [au s]l 1; avoir [le s] ˆ l'envers
1
S Real
0
: mal [de s]
1
mouvement rŽflexe provoquŽ par S Real
0
1
avant que X vomisse : haut-le-s
A CausFact
: ŽcÏurant 1
1
Fact
0
: [Cl ] en monter ˆ la bouche
1
dat
CausFact
1
: kdonner
<faire> mal [au s ˆ N]l 1, klever <soulever, tourner, barbouiller>
[le s à N]l 1 // ŽcÏurer 1 [N]
•tre pr•s de vomir
: voir [le s ] sur le bord des l•vres
F = Žprouver la sensation de pesanteur au C. ˆ cause d'un
1
repas Y : avoir [N = Y sur ART s] [J'ai mon repas
Conv F
21 1
<g‰teau ,É> sur le cÏur ]
: N = Y [Cl ] rester, demeurer, peser [sur le s]
dat
Exemples
Quelque mal de cÏur que me caus‰t le balancement de la voitureÉ [J.-F. Marmontel]. Les sachets de naphtaline dont la
senteur poivrŽe lui tournait le cÏurÉ [M. du Gard].
×
k Mal au cÏurl 2
Par cÏur
186
Annexes
MƒPRIS, nom, masc.
I.
Attitude Žmotionnelle dŽfavorableÉ [le mŽpris pour ce corrupteur ]
II.
Opinion selon laquelle quelque chose n'a pas d'importanceÉ [le mŽpris du danger
convenances
>]
<des
I. MŽpris de X envers Y pour Z = Attitude Žmotionnelle dŽfavorable de X ˆ l'Žgard de Y causŽe par le fait suivant
: X croit que les actions, l'Žtat ou les propriŽtŽs Z de Y causent que Y n'a pas de valeur morale ou sociale; cette
attitude est celle qu'on a normalement dans de pareilles situations.
RŽgime
1=X
2=Y
1. de N
1. de N
2. A
3=Z
1. pour N
2. pour N
poss
3. envers N
3. A
4. ˆ l'Žgard de N
1)ÊC ÊsansÊC 
3
2

2)ÊC Ê+ÊC 
1.1
2.1
3)ÊC Ê+ÊC 

: impossible
4) C
+C
: impossible si C
5) C
+C
2.2
3.1
1.2
1.3
2.1
2.1
2.1
dŽsigne une personne
: non souhaitable
C
: le mŽpris de Paul, son mŽpris, le mŽpris populaire
C
: le mŽpris de
1
2
hypocrisieÊ
C +C +C
1
2
3
>
<pour, envers, ˆ l'Žgard de > ce coll•gue <son
<son mŽpris, le mŽpris populaire >envers <ˆ
l'Žgard de > ce ministre pour son hypocrisie <ses propos diffamatoires
>, son mŽpris de l'art pour son inefficacitŽ
: le mŽpris de Paul
Impossible
: *son mŽpris pour l'hypocrisie (1) [= son mŽpris envers ce ministre pour
son hypocrisie ; le syntagme son mŽpris pour l'hypocrisie a un autre
sens : hypocrisie correspond ˆ Y et non ˆ Z]
*le mŽpris de Paul de ce coll•gue (2) [= le mŽpris de Paul pour ce
coll•gue ]
*le mŽpris pour ce coll•gue pour son hypocrisie (3) [= le mŽpris pour
ce coll•gue ˆ cause de son hypocrisie ]
*son mŽpris de Pierre (4) [= son mŽpris envers Pierre ]
Non souhaitable
:
?
le mŽpris populaire de l'argent (5) [= le mŽpris populaire pour
l'argent]
Fonctions lexicales
i
Syn
: dŽdain, irrespect, condescendance, arrogance, hauteur II, morgue, litt
mŽsestime, litt superbe
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
p
Anti
i
: respect I
V
: mŽpriser I
A
: mŽprisant I.1 [attitude mŽprisante ]
Gener
S
: attitude, sentiment [de Ø /ART s ] [sentiment d'un profond mŽpris ]
: litt contempteur
Anti
: considŽration, Žgard; dŽfŽrence, estime
0
0
1
S
p
: objet [de Ø/ART s ] [Le prŽsident
grand mŽpris ]
: paria
2/3
Magn
187
quant,1
+S
2
: plein [de Ø/ART s ] | C
A
1
>
2
<Sa prise de positionÊ> est l'objet d'un
=,/ C2.1 [Il s'est montrŽ plein de mŽpris <d'un
mŽpris insultant pour ses confr•res ] // mŽprisant I.2 [Quand il voit tant
de malhonn•tetŽ, il devient mŽprisant ]
: couvert [de Ø/ART s ] | Y dŽsigne une personne
A
2
tel qu'il doit PredA
PredAble
PredAble
Qual
Qual
: digne [de Ø/ART s ] // mŽprisable [Paul
mŽprisableÊ]
2/3
<Sa malhonn•tetŽ > est
: enclin, portŽ [ˆ ART s ], fam avoir [le s ] facile | C = v
1
2
: mŽriter [ART s ]
2/3
: dŽdaigneux, hautain, snob, arrogant, condescendant
1
Magn
: abject, ignoble, infect, inf‰me, bas, misŽrable 2, sordide, dŽgožtant,
rŽpugnant, vil, indigne, odieux
: grand, profond, absolu, souverain, sans bornes; hautain, froid
PredMagn
: ne pas conna”tre
Magn
: collectif, public, gŽnŽral, universel
2
quant,1
IncepPredPlus
<avoir> de bornes
: s'accro”tre [Le mŽpris de l'argent s'acccro”t de plus en plus dans certains
groupes sociaux ]
: accro”tre [ART s ] [La cupiditŽ de leur sÏur n'a fait qu'accro”tre leur mŽpris
de l'argent ]
: diminuer, s'attŽnuer [Son mŽpris s'est beaucoup attŽnuŽ apr•s qu'il l'ežt
connu ]
: justifiŽ, (bien) fondŽ, lŽgitime, mŽritŽ
: injustifiŽ, mal fondŽ < non fondŽ
Caus PredPlus
(3)
IncepPredMinus
Ver
AntiVer
: dans [ART s ] | C =,/ v, et G = vivre, se dŽrouler [Jean vit dans un
2
profond mŽpris pour tous ceux qui ne sont pas de son rang social ]; avec
[ART s ] | C (G) = Y [Jean regarde ses coll•gues avec un mŽpris souverain ]
Adv
1
2
s ] [Il a refusŽ de rŽpondre par mŽpris des jugesÊ]
: avoir, Žprouver [ART s ] | C =,/ v
2
: •tre en butte [ˆ ART s ] | Y dŽsigne une personne, et C \o(=,/) v ou M.
1
ATTR
_____.
Magn
[Jean est en butte au mŽpris de tout le monde ], •tre victime
quant,1
[de ART s ], subir [ART s ]
: tomber, litt sombrer [dans les s ] [Le prŽsident <La scienceÊ>, ˆ la suite de
Propt
Oper
Oper
: par [
1
2
IncepOper
Magn
2
quant,1
FinFunc
0
+ CausOper
2
ces ŽvŽnements, tomba dans le mŽpris gŽnŽral ]
: // mettre, clouer [N = Y] au pilori | Y dŽsigne une personne
: dispara”tre [Son mŽpris des gens peu fortunŽs a disparu ]
188
Annexes
Caus Func
2
: encourir [ART s ] [Jean a encouru le mŽpris de tous ]; atttirer [ART s ] | Y
0
dŽsigne une personne, et C
1
ATTR
=,/ v, ou M._____.
Magn
[Paul s'est attirŽ le
quant,1
mŽpris gŽnŽral par son hypocrisie ]
Caus Func
3
: engendrer [ART s chez N] [La familiaritŽ engendre le mŽprisÊ]
1
Caus Func
(3)
: apprendre, inculquer [ART s ˆ N] [Jean inculque ˆ ses Žtudiants le mŽpris
1
de l'hypocrisie ; Son attitude partiale envers ses employŽs apprend ˆ ces
derniers le mŽpris de leur chefÊ]
Caus
(2/3)
Func
Caus Func
3
: inspirer [ART s ˆ N] [Cet ŽvŽnement inspire aux travailleurs le mŽpris de
leur patron ; L'argent inspirait ˆ ce philosophe un tel mŽpris qu'il a donnŽ
son hŽritage ˆ son fr•reÊ; L'hypocrisie de Jean leur inspirait un profond
mŽprisÊ]
1
: attirer, valoir [ART
2
ATTR
s ˆ N] | C1 =,/ v, ou M._____.
Magn
[Ses
quant,1
dŽclarations lui attir•rent
citoyens ]
Labor
<valurent > le mŽpris d'un bon nombre de
: tenir [N en s | M. sans dŽpendant/ dans ART s | M. a un dŽpendant] | Y
personne [Pierre tient Jean en mŽpris ]
12
dŽsigne une
: dŽnoter, montrer, traduire [ART s]
Conv Manif
21
malgrŽ X, Conv Manif
: trahir [ART s]
A Manif
: plein, empreint [de ART s ] | C
Caus Manif
: manifester, montrer, marquer, affecter, afficher, tŽmoigner [ART s], faire
21
2
2
1
=,/ C2.1 // mŽprisant I.1
preuve [de Ø /ART s]
: manifestation, signe, marque, preuve, geste 2 [de Ø/ART s]
SingS Caus Manif
0
1
(des paroles ou un comportement grossier en public)≤___
Caus Manif : // conspuer, huer, bafouer 2, litt vilipender, vieilli honnir [N]
3
1
(des paroles ou un comportement grossier envers Y)≤___
Caus Manif : [Cl ] cracher [A
s ] ˆ la figure [Je voudrais les Žcraser sous mes pieds et
3
1
dat
poss
leur cracher mon mŽpris ˆ la figure ]; couvrir [N de ART s ] [Elle le couvrit
de son mŽpris en le toisant des pieds ˆ la t•te ]
F = la personne pour laquelle le locuteur
1
Caus Manif : canaille, fam con, fam salaud, fam ordure, fam cochon, fam sale type,
1
pop couillon, pop salope, pop saligaud, pop fumier, É
Mult(F )
: engeance
1
Mult(personnes ou choses pour lesquelles le locuteur
Caus Manif) : ramassis [de N]
1
: avec [Ø/ART s] [Jamais personne ne me toisa avec mŽpris comme le fit
Charles ce jour-lˆ ]
Adv Caus Manif
1
1
Perm Manif
: dŽverser [ART s sur N]
nonPerm Manif
: refrŽner [ART s ]
1
1
un sourire spŽcifique Ñ
Sympt
23
: sourire [de s ]
23
: rictus [de s ]
S (sourire en grima0
•ant Ñ Sympt
ricaner Ñ Sympt
23
: ricanet [de s ]
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
regarder d'une fa•on
effrontŽ Ñ Sympt
2
: // toiser [N] (des pieds ˆ la t•te)
hausser les Žpaules Ñ
Sympt
23
189
: hausser les Žpaules [de
s]
Exemples
L'Anglaise reconnut sa rivale et fut glorieusement anglaise; elle nous enveloppa d'un regard plein de son mŽpris
anglais et disparut dans la bruy•re avec la rapiditŽ d'une fl•che [H. de Balzac]. Je vais peut-•tre vous para”tre
vieux jeu, mais j'ai un mŽpris sans bornes pour ces femmes qui vont d'amant en amant, le plus souvent sans
amour, pour des raisons de prestige ou de carri•re [A. Maurois]. Rien ne m'a plus donnŽ un absolu mŽpris du
succ•s que de considŽrer ˆ quel prix on l'obtient [G. Flaubert]. Le mŽpris ‰cre et froid des passants lui pŽnŽtrait
dans la chair et dans l'‰me comme une bise.
II. pas de pl. MŽpris par X de Y = S (mŽpriser II ).
0
RŽgime
1=X
2=Y
1. A
1. de N
poss
obligatoire
C
<de la libertŽ de presse, du danger >
son mŽpris de l'horaire <de la dŽcision de sa femme, des insultes >
: le mŽpris des lois
2
C +C
1
2
:
Fonctions lexicales
Magn
quant,1
, IncepPredPlus
i
Anti
p
Anti
i
Syn
:
^| MƒPRIS I
: dŽdain, indiffŽrence, dŽtachement
: respect II.1; respect II.2
: considŽration; attachement, intŽr•t; peur, crainte
V
: mŽpriser II
Magn
: grand, absolu, total; hautain
CausPredPlus
: accro”tre, augmenter [ART
] [L'attitude du tribunal accroissait son mŽpris
des menaces ]
: diminuer, s'attŽnuer [Le mŽpris de la vie s'attŽnue ]
: justifiŽ
: injustifiŽ, insensŽ
0
IncepPredMinus
Ver
AntiVer
s
s
v
: au [
], avec [ART
] | C =,/
[Au mŽpris du danger, il s'est lancŽ ˆ la
2
poursuite de l'agresseur ; Il a fait cette dŽclaration avec un mŽpris total des
insultes ]
Adv
1
Oper
s
CausOper
CausFunc
s ] [Le ministre a un mŽpris total de la libertŽ de presse ]
conduire, pousser [N ˆ ART s ] [Ses camarades le conduisent au mŽpris des
: avoir [ART
1
1
1
:
humiliations ]
: inspirer [ART
danger ]
s ˆ N] [Cet ŽvŽnement inspire aux citoyens le mŽpris du
190
Annexes
Conv Manif
21
: [N] montre, prouve [ART
montre
Caus Manif
1
s ], tŽmoigne [de ART s ] [Cette intervention
<prouve, tŽmoigne de > son mŽpris des lois ]
: manifester, montrer, dŽmontrer [ART
s], faire preuve [de Ø/ART s]
[Pendant l'interrogation, cette femme a manifestŽ
<dŽmontrŽ > un grand
mŽpris des humiliations ; Cet explorateur a fait preuve d'un mŽpris absolu
du danger ]
Exemples
É poussant le mŽpris des scrupules presque aussi loin que le respect de l'Žtiquette [M. Proust]. Ce dont je suis
sžr, c'est qu'on fait tuer les jeunes d'abord parce que les hommes tr•s jeunes ont, plus que les autres, le hautain
mŽpris de la vie [G. Duhamel]. Au mŽpris des rŽalitŽs techniques, cette expression [le petit Žcran ] assimile ˆ un
Žcran de cinŽma la partie du tube cathodique o• se forment les images de tŽlŽvision. Elle a dŽplorŽ leur mŽpris
Žvident des valeurs dŽmocratiques. Il avait toujours eu le mŽpris de son confort.
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
191
ENSEIGNER, verbe.
1.
X cause que Z apprenne III.1b É [X enseigne les mathŽmatiques aux Žtudiants ]
2a.
X Žnonce une affirmation qui fait partie de sa doctrineÉ [Socrate enseignait ˆ ses disciples queÉ ]
2b.
X contient une affirmation qui fait partie d'une doctrineÉ [La Bible enseigne queÉ ]
3a.
PropriŽtŽ ou action de X cause que Z apprenne Ia Y [L'histoire nous enseigne queÉ ]
3b.
PropriŽtŽ ou action de X cause que Z apprenne IIa Y [La servitude nous enseigne la ruse ]
1. X enseigne Y ˆ Z = X, censŽ avoir la qualification professionnelle dans le domaine Y, cause que Z apprenne
III.1b Y en transmettant, mŽthodiquement et dans un cadre officiel, ˆ Z des connaissances (portant sur) Y ou des
techniques (portant sur) Y [ CausConv (apprendre III.1bÊ)].
≠
21
RŽgime
1=X
2=Y
1. N
1. N
1. ˆ N
2. ˆ V
inf
1)ÊC ÊsansÊC 
2.2
3.1

2)ÊC +ÊC

: impossible
C +C
: Pierre enseigne la grammaire
2Ê
1
3.2
2
C +C +C
1
2
Impossible
3
3=Z
2. rare N
<la coutureÊ>/ ˆ faire cela
: Pierre enseigne la grammaire ˆ ses Žl•ves
: *Pierre enseigne ˆ danser (1) [= Pierre enseigne ˆ danser aux enfants]
*Pierre enseigne des enfants ˆ lire (2) [= Pierre enseigne des enfants ]
Fonctions lexicales
p
: apprendre III.2a, instruire 1a, vieilli professer 1
Syn
Conv
: s'enseigner [La chimie ne peut s'enseigner sans manipulationsÊ]
S
: enseignement 1a
231
S
S
S
0
: enseignant I; ma”tre II.2, instituteur, professeur; prŽcepteur
usual,1
: mati•re III
2
: Žl•ve, Žtudiant
3
livre-S
Able
2
instr
: manuel
: enseignable [Le tact est difficilement enseignable ]
Exemples
Il comprenait et retenait aisŽment tout ce qu'on lui enseignait [A. Lesage]. Ces diverses sciences sont enseignŽes
dans les Žcoles par des spŽcialistes. Quelle est ta profession? Ñ J'enseigne. Il m'a enseignŽ ˆ ne nŽgliger aucun
dŽtail. On comprend aisŽment que pour enseigner aux enfants ayant des aspirations et des niveaux intellectuels
si variŽs et surtout pour enseigner aux jeunes gens d'‰ge ingrat, il faut au ma”tre une habilitŽ pŽdagogique
particuli•re.
192
Annexes
2a. X enseigne Y ˆ Z = X Žnonce une affirmation Y , qui fait partie d'une doctrine Y proposŽe 4a par X, dans le
1
2
but de causer que Z sache I le contenu de Y.
RŽgime
1=X
2=Y
1. N
1. N
1. ˆ N
2. que PROP
2. rare N
1) C
: obligatoire s'il n'y a pas de C
2) C + C
: impossible
2
2
C +C
1
3.2
C +C +C
2
C +C
1
3.2
: Les philosophes enseignent l'ŽgalitŽ entre les hommes
2
sont Žgaux
1
3=Z
>
<que les hommes
: Socrate enseignait ˆ ses disciples que la connaissance de soi est
fondamentale
: Allez enseigner toutes les nationsÉ [Bible]
3.1
3.2
Fonctions lexicales
i
Syn
: pr•cher, professer 2
S
: ma”tre II.5, gourou
S
S
1
: enseignement 2
2
: disciple
3
Exemples
Darwin enseignait que les esp•ces sont issues les unes des autres selon les lois de la sŽlection naturelle. Il faut
toujours enseigner la vŽritŽ aux hommes. Pythagore enseignait qu'apr•s la mort nous renaissions dans la nature.
2b. X enseigne Y ˆ Z = X contient une affirmation Y qui fait partie d'une doctrine Y proposŽe 4a dans X
1
2
[comme si X enseignait 2a Y ˆ Z].
RŽgime
1=X
1. N
2=Y
1. N
3=Z
1. ˆ N
2. que PROP
obligatoire
C +C
1
: La Bible enseigne la transcendance de Dieu
2
transcendantÊ
C +C +C
1
2
3
>
: La Bible nous enseigne que Dieu est transcendant
Fonctions lexicales
S
2
<que Dieu est
: enseignement 2
Exemples d articles du Dictionnaire Explicatif et Combinatoire du Fran•ais Contemporain
193
Exemples
Le christianisme enseigne qu'il faut aimer son prochain comme soi-m•me.
3a. X enseigne Y ˆ Z = PropriŽtŽ ou action de X cause que Z apprenne I.a Y.
RŽgime
1=X
2=Y
1. N
2. que PROP
1. N
3=Z
1. ˆ N
obligatoire
C +C
1
: L'histoire enseigne le dŽclin de toutes les civilisations
2
civilisations sont appelŽes ˆ dispara”treÊ
C +C +C
1
2
>
<que toutes les
: L'expŽrience nous enseigne que la guerre n'a jamais rŽsolu les
3
probl•mes
Fonctions lexicales
Syn
S
: apprendre I.b
: enseignement 3
2
Exemples
Leur attitude au sage enseigne / Qu'il faut en ce monde qu'il craigne / Le tumulte et le mouvement [Ch.
Baudelaire]. L'exemple de mes parents m'a enseignŽ le courage bien plus que ne l'auraient fait des discours.
3b. X enseigne Y ˆ Z = PropriŽtŽ ou action de X cause que Z apprenne II.a Y.
RŽgime
1=X
1. N
2=Y
1. N
2. ˆ V
3=Z
1. ˆ N
inf
obligatoire
C +C
1
C +C +C
1
: La servitude enseigne la ruse
2
2
3
<ˆ ruser >
: Mon p•re m'a enseignŽ la prudence par son exemple
Fonctions lexicales
Syn
Syn
i
: apprendre II.b
: inculquer, Žduquer
Exemples
Un bon ma”tre a ce souci constant : enseigner ˆ se passer de lui [A. Gide]. Le feu du soleil [É] enseignait la
patience [J. Kessel]. C'est sa m•re qui lui a enseignŽ la coquetterie.
194
Annexes
ƒTONNANT, adj.
1.
X qui Žtonne 1 [
2.
É qui frappe par son caract•re remarquable [un film Žtonnant, ]
1. [X ] Žtonnant = X qui Žtonne 1 [= A (Žtonner 1 )].
1
Fonctions lexicales
p
Syn
: surprenant
Magn
: tr•s, fort, bien // stupŽfiant, ahurissant, Žbahissant, fam Žpostouflant
2. [X ] Žtonnant = [X] qui frappe par son caract•re remarquable [comme si X Žtait Žtonnant 1].
Fonctions lexicales
p
Syn
: remarquable 2
Anti
Magn
: ordinaire
: // formidable, extraordinaire 2, merveilleux
p
Exemples
Un film Žtonnant, une femme Žtonnante
ƒTONNƒ, adj.
1.
[X] qui s'Žtonne de Y [ƒtonnŽ devant ce spectacle inattendu, Jean s'est tž ]
2.
É tel que Z manifeste l'Žtonnement de X [des yeux ŽtonnŽs]
1. [X ] ŽtonnŽ de Y = [X] qui s'Žtonne de Y [= A (s'ŽtonnerÊ)].
1
RŽgime
2=Y
1. devant N
2. de V
inf
C
2
Syn
Magn
:ƒtonnŽ devant ce spectacle inattendu
Jean s'est tž
Fonctions lexicales
<de voir son ami dans un tel ŽtatÊ>
: surpris 1
: bien, fort, tr•s // stupŽfait, ahuri, Žbahi, sidŽrŽ, abasourdi, bouche bŽe, fam
soufflŽ, fam baba
Exemples
Une fille ŽtonnŽe. Il lui Žcrivit une lettre et fut tr•s ŽtonnŽ de recevoir une rŽponse. Tout le monde a ŽtŽ ŽtonnŽ
de son comportement. Fort ŽtonnŽ devant la tournure des ŽvŽnements, Pierre se demandait quoi faire.
2. [Z de X ] ŽtonnŽ = [Z de X] tel que Z manifeste l'Žtonnement de X [= A Manif(s'Žtonner )].
2
Fonctions lexicales
Syn
: surpris 2
Exemples
Les yeux ŽtonnŽs.
1/--страниц
Пожаловаться на содержимое документа