16
Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE NUCLEAIRE DE 13CPAR INTELLIGENCE ARTIFICIELLE: LE PROBLEME DE LA CODIFICATION JEAN P. GASTMANS*, JOSB C. ZURITA et JOAO SAHAO, JR. Znstituto de Quimica, Universidade Estadual Paulista, 14800Araraquara, 5’60 Paul0 (Brazil) VICENTE DE P. EMERENCIANO Znstituto de Quimica, Universidade de Sk Paul0 (Brazil) (Rep le 12 Octobre 1987) SUMMARY (Prediction of W-nuclear magnetic resonance spectra by artificial intelligence: the problem of coding structures. ) Possible errors in earlier methods of coding structures are discussed, particularly with regard to (Y- and &conformation and double bonds. The proposed method of coding is based on the absolute interatomic distances and the relative orientations of atoms. The coding system agrees with pre- vious theoretical equations, except for density matrices; the usual classification of (Y, /.l and 6 effects is obviously not included. An advantage of the method is that neighbouring atoms which have negligible effect are not included in the coding, so that the number of plausible structures is reduced. Another advantage is that similar structures can be tested, atom by atom, to a level at which complete structural equivalence no longer exists. The program developed on this basis is applicable with personal computers and provides options which enable the theoretical spectrum to be predicted, the signals to be interpreted if the experimental spectrum is known, and the influence of each neighbouring atom on the carbon signal to be studied. RESUMB Divers methodes anterieures de codification sont discutees. Nous proposons un nouveau code base sur les distances interatomiques absolues et sur les orientations relatives des atomes entr’eux. Ce code respecte les equations theoriques anterieurement developpees, sauf en ce qui concerne les matrices de densite. La classification habituelle des effets en CY, /3, 6, etc. n’est dvidemment plus respect&e. L’avantage de cette methode est que la majorite des atomes voisins dont l’influence est negligeable ne font pas partie du code, diminuant ainsi le nombre de structures necessaires. Un aut,re avantage est qu’il permet de rechercher des structures semblables, atome par atome a l’in- terieur dun niveau sans qu’il n’existe une equivalence complete de structures. Le programme per- met, suivant les options choisies, de prevoir le spectre theorique, d’attribuer les signaux si le spectre experimental est connu, et d’etudier l’influence que chaque atome voisin exerce sur le signal dun carbone. L’emploi des systemes d’intelligence artificielle en spectroscopic resonance magnetique nucleaire (RMN) de 13C a fait l’objet de nombreuses recherches ces dernieres an&es [l-8]. Les methodes de codification de Bremser [9], 0003-2670/89/$03.50 0 1989 Elsevier Science Publishers B.V.

PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands

85

PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE NUCLEAIRE DE 13C PAR INTELLIGENCE ARTIFICIELLE: LE PROBLEME DE LA CODIFICATION

JEAN P. GASTMANS*, JOSB C. ZURITA et JOAO SAHAO, JR.

Znstituto de Quimica, Universidade Estadual Paulista, 14800Araraquara, 5’60 Paul0 (Brazil)

VICENTE DE P. EMERENCIANO

Znstituto de Quimica, Universidade de Sk Paul0 (Brazil)

(Rep le 12 Octobre 1987)

SUMMARY

(Prediction of W-nuclear magnetic resonance spectra by artificial intelligence: the problem of coding structures. )

Possible errors in earlier methods of coding structures are discussed, particularly with regard to (Y- and &conformation and double bonds. The proposed method of coding is based on the absolute interatomic distances and the relative orientations of atoms. The coding system agrees with pre- vious theoretical equations, except for density matrices; the usual classification of (Y, /.l and 6 effects is obviously not included. An advantage of the method is that neighbouring atoms which have negligible effect are not included in the coding, so that the number of plausible structures is reduced. Another advantage is that similar structures can be tested, atom by atom, to a level at which complete structural equivalence no longer exists. The program developed on this basis is applicable with personal computers and provides options which enable the theoretical spectrum to be predicted, the signals to be interpreted if the experimental spectrum is known, and the influence of each neighbouring atom on the carbon signal to be studied.

RESUMB

Divers methodes anterieures de codification sont discutees. Nous proposons un nouveau code base sur les distances interatomiques absolues et sur les orientations relatives des atomes entr’eux. Ce code respecte les equations theoriques anterieurement developpees, sauf en ce qui concerne les matrices de densite. La classification habituelle des effets en CY, /3, 6, etc. n’est dvidemment plus respect&e. L’avantage de cette methode est que la majorite des atomes voisins dont l’influence est negligeable ne font pas partie du code, diminuant ainsi le nombre de structures necessaires. Un aut,re avantage est qu’il permet de rechercher des structures semblables, atome par atome a l’in- terieur dun niveau sans qu’il n’existe une equivalence complete de structures. Le programme per- met, suivant les options choisies, de prevoir le spectre theorique, d’attribuer les signaux si le spectre experimental est connu, et d’etudier l’influence que chaque atome voisin exerce sur le signal dun carbone.

L’emploi des systemes d’intelligence artificielle en spectroscopic resonance magnetique nucleaire (RMN) de 13C a fait l’objet de nombreuses recherches ces dernieres an&es [l-8]. Les methodes de codification de Bremser [9],

0003-2670/89/$03.50 0 1989 Elsevier Science Publishers B.V.

Page 2: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

86

Bremser et Fachinger [lo], le code DARC (description, acquisition, retrieval, computer-aided designs) [ 111 et celle du groupe de Stanford [ 121 sont prob- ablement les plus connues et employees. La recherche se base sur une banque de don&es dans laquelle l’ordinateur recherche des structures semblables a celles du compose etudie. Ces methodes different entr’elles par la man&e dont les substructures sont d&rites. Bremser [9], Bremser et Fachinger [lo] et le code DARC [ 111 codifient les substructures en de’crivant le voisinage topolo- gique de chaque atome. La codification du groupe de Stanford [ 121 est plus complete puisque le code contient des informations configurationnelles.

Nous avons tent6 d’elaborer une banque de don&es en accord avec le sys- tkmes de codification de Bremser et du groupe de Stanford et nous l’avons testee sur quelques monoterpenes et diterpenes. Les resultats que nous avons obtenus sont decevants. Dans le code de Bremser, nous avons observe des di- zaines de cas ou les codes sont identiques pour des carbones spectroscopique- ment differents; certains cas peuvent engendrer des erreurs importants, par exemple les substructures I et II (Fig. 1). Dans la substructure I, les deux methyles, qui ont le m6me code, absorbent differemment (C, aux environs de 25 ppm et C, aux environs de 17 ppm). Dans la substructure II, l’erreur est encore plus dvidente, entre les methyles axiaux et Qquatoriaux, on observe une difference de 12 ppm, bien que leurs codes soient identiques. La codification de Stanford Qlimine la plupart des grandes erreurs commises par celle de Brem- ser. Seules subsistent les erreurs dues a des differences conformationnelles, qui, en regie g&r&ale, ne sont pas t&s importantes. Le grand desavantage de la codification de Stanford, ne reside cependant pas dans la precision des prev-

:>=’ g :Q: A

I II. m nL

Fig. 1. Analyse des codes de Bremser et de Gray.

Page 3: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

87

isions, mais dans l’enorme quantite de substructures a Qtre definies, une bonne partie d’entr’elles, absolument inutiles.

Prenons le cas des mono&penes, par exemple le compose III (Fig. 1) . Les codes des atome marques (0 ) englobent tous les atomes de la molecule. Par consequent, ces code ne se repeteront jamais dans un autre compose et leur utilite en tant que prevision est nulle. 11 existe m&me des cas, et ils ne sont pas rares, ou les codes de tous les atomes dune molecule seront uniques, car chacun decrit la molecule entiere, par exemple la molecule IV. Pour d’autres raisons, le mQme fait, c’est-a-dire l’inutilite de nombreuses substructures, s’observe chez les diterpknes.

Prenons le cas de la molecule V. Les groupes en position 6 par rapport a C, pour lesquels il existe des don&es experimentales sont indiques par les lettres A, B, D et E. Le absorptions de C, en fonction de la nature de ces groupes sont reprises dans la Tableau 1. Dans la codification de Stanford, ces 9 substruc- tures sont differentes. Du point de vue pratique, 8 de ces 9 substructures sont parfaitement inutiles, car il est evident que l’influence de ces quatres groupes sur l’absorption de C, est ndgligeable. D’autre part, la codification sur quatre liaisons est essientielle, sinon les mQmes erreurs commises par le code de Brem- ser vont reapparaitre (comme, par exemple, les trois methyles du compose II).

Nous avions codifie 3576 carbones appartenant aux mono- et di-terpenes. Ces carbones Qtaient d&rites par 3024 substructures. Cette constation nous a fait abandonner cette methode. 11 devenait evident que les previsions se fer- aient principalement h des niveaux inferieurs au niveau 6. A ces niveaux, les erreurs deviennent importantes. 11 n’est pas rare qu’elles depassent 10 ppm, mQme au niveau y. Cette observation nous a conduit a ddvelopper une nouvelle methode de codification que nous prdsentons dans ce travail.

TABLEAU 1

Influence spectrale des atomes 6 (composb V)

A B D E C7 (ppm)

CH, CH, _C= CH, -CH, C& CH, -CH, CHz CH, CH, -CH, _C= CH, CH, CH, CH, CH,

CH, CH, CH, CHz -CH -CH

CH, CHz =c

=CH, =CH, =CH, =CH, =CH, =CH2 -0 =o -0

40.4 41.2 41.6 39.9 39.8 39.1 40.6 40.3 39.9

moyenne: 40.3

Page 4: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

METHODE

Codification La codification est faite automatiquement par l’ordinateur a partir des don-

&es suivantes: (1) la description du compose, reduite 21 un vecteur; (2) les coordonndes spatiales (x, y et z) de chaque atome.

Le vecteur reduit doit contenir toutes les informations necessaires pour que l’ordinateur puisse construir la matrice de connectivite correcte. Les regles qui regissent la construction du vecteur reduit sont done arbitraires et dependent du propre logiciel. Celles dont nous nous servons sont les suivantes. Apres avoir numerate tous les atomes, le vecteur est construit en indiquant: (1) les nu- meres initiaux et finaux de toutes les chaines; une chaine est la succession d’atomes lies chimiquement et de numerotations croissante (par exemple, une chaine l-10 signifie que l’atome 1 est lie Ir l’atome 2, celui-ce a son tour est lid a l’atome 3 etc.); (2) le signal - 1 suivi des numeros des atomes des liaisons qui ne sont pas reprises dans les chaines; (3) le signal -2 suivi du numero atomique de l’hdteroatome et les positions ou il se trouve; le processus peut Qtre rep&e s’il existe plusieurs heteroatomes; (4) le signal -3 suivi des numeros des atomes des liaisons doubles; (5 ) le signal - 4 suivi des numeros des atomes aromatiques; (6) le signal - 5 suivi des numeros des atomes des liaisons triples; (7) le signal - 9 pour clore le vecteur.

Par exemple, le vecteur du compose VIII sera: 0114151718202123 - 101140422042705140720081308151016132414231625 - 2082321 - 202526 - 321221926 - 9

Les coordonnees sont obtenues manuellement, c’est d’ailleurs la partie la plus laborieuse du systeme, a partir de la projection du modele moleculaire dans 58

(XII) au)

conformation la plus stable sur les plans xy et xz. Les distances de liaison sont padronisees a l’echelle de 4.1 cm/A. Les erreurs de coordonndes qui pourraient Qtre Qventuellement comises par l’operateur seront corrigdes automatiquement par l’ordinateur. Le fait de codifier les molecules dans leur conformation la plus stable nous permet, en principe d’etudier les signaux des carbones qui ne sont pas fixes dans une structure rigide. Ce raisonnement n’est Qvidemment valable que s’il n’existe qu’une conformation nettement plus stable, ce qui est souvent le cas. Par exemple, dans le compose VII, les signaux des 2 methyles sont differents, mais leurs codes le sont Qgalement. Celui de C!, tiendra compte

Page 5: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

89

de l’atome d’oxygene, tandis que celui de C, l’ignorera. De plus, si l’on effectue un mouvement de rotation autour de l’axe de la liaison “a”, le code de C, va se modifier par le biais de la distance entre C, et l’hydroxyle, comme, d’ailleurs le code de C, qui pourra contenir l’atome d’oxygene si l’angle de ;otation est tel que la distance entre C, et l’oxygene devient inferieur a 4.25 A [voir (d) ci- dessous] .

Les coordonndes pourraient Qtre obtenues par photographie, ce qui est un moyen beaucoup plus simple et rapide [ 131. Cependant, comme nos modeles moleculaires sont asset grands (certains depassent 70 cm), les problemes de parallaxe sont frequents et deviennent rapidement insolubles. C’est la raison pour laquelle nous avons opte pour la mesure manuelle bien qu’elle soit plus laborieuse.

A partir de ces deux don&es, l’ordinateur codifie chaque carbone de la man- i&e suivante.

(a) 11 attribue un numero-code a chacun de ses voisins. Actuellement, il peut reconnaitre et codifier 22 groupes differents qui sont repris dans la Tableau 2. Nous developpons actuellement une deuxieme version qui permettera de trai- ter Qgalement le soufre et les halogenes.

(b) 11 associe au code de chaque voisin, la distance a laquelle il se situe par rapport au carbone codifie.

(c ) 11 associe au carbone codifie, son propre numero-code et un chiffre (SS) qui est la somme des distances entre les premiers et seconds voisins non lies chimiquement. Ainsi, pour le carbone Cz du /?-methylcyclohexane (VI), on obtient: SS, EC&+&, ou & est la distance entre les atomes 1 et 6, et d14 est la distance entre les atomes 1 et 4, tandis que pour l’cu-methylcyclohexane, nous aurons: SS2=dlP6+d1,1. Dans la grande majorite des cas, les propres dis- tances interatomiques mention&es en (b) sont suffisantes pour distinguer des conformations differentes. Ainsi, le code de l’atome C6 sera different suivant que le mdthyle soit axial (1) ou equatorial (1’ ). La difference se notera au dernier niveau. Dans certains cas, cependant, les codes peuvent &tre Qgaux bien

TABLEAU 2

Code des groupes atomique”

Groupe Code Groupe Code Groupe Code Groupe Code

CH, 1 c= 7 o= 13 N 18 CH, 2 HC= 8 OH 14 NH= 19 CH 3 C= 9 0 15 N- 20 C 4 HC” 10 NH2 16 N- 21 H,C= 5 C” 11 NH 17 N? 22 HC= 6 =C= 12

“C? et N+ reprkentent lea carbones et azotes aromatiquee.

Page 6: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

90

TABLEAU 3

Influence des conformations differentes sur le code d’atomes structurellement equivalents

Groupe * Code de C, (numero-code, distance en A)

Methyle axial (C, ) C1(1,1.54); C3(2,1.54); C&(2,1.54); C&(2,2.44); C,(2,2.44); Ck(23.0) SS=11.7 A

Mkthyle equatorial (C, ’ ) C,,(1,1.54); C,(2,1.54); C&(2,1.54); C,(2,2.44); f&(2,2.44); c,(2,3.0) ss=13.5ii

Groupe Code de C3 (numero-code, distance en A)

Methyle axial (C 1 ) C,(2,1.54); C,(3,1.54); C,(2,2.44); &(1,2.44); C&(2,2.44);

C&(2,3.0) SS=8.9 A

Methyle equatorial (C,’ ) Cd(2J.54); C,(3,1.54); C,(2,2.44); &(1,2.44); C,(2,2.44); C&(2,3.0) ss=9.7ij

que les conformations soient differentes. C’est le cas pour les carbones 2,3 et 7 dont les codes sont repris dans la Tableau 3, les valeurs de SS permettent alors de distinguer les conformations differentes.

(d) Le code est tronqud a 4.25 A (17 cm), ce qui correspond a un peu plus que la distance entre le premier et le quatrieme carbone du butane en confor- mation alter&e.

A titre d’exemple, nous reprennons les codes de quelques carbones du kaur- ane (compose VIII) dans la Tableau 4. Pour des raisons de facilite, nous avons &pare le code de chaque carbone en trois niveaux. Le premier s’etend jusqu’a 1.73 A (7 cm), il correspond strictement au niveau alpha. Les deuxieme qui s’etend jusqu’a 2.86 A, et le troisieme ne correspondent pas aux niveaux p et y classifiques. Ainsi, dans le code de C1, le carbone C12, qui serait y,

apparait dans le second niveau; C,, et C&, apparaissent Bgalement dans le sec-

Page 7: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

91

TABLEAU 4

Exemple de codification de carbone: Ci (code, distance en A)

C, (code 2) SS= 19.65 A

C, (code 2) ss =17.15 A

C,, (code 2) SS=31.12 A

Cz2(code 7) ss=34.05 A

Niveau 1: Niveau 2: Niveau 3:

Niveau 1: Niveau 2: Niveau 3:

Niveau 1: Niveau 2:

Niveau 3:

Niveau 1: Niveau 2: Niveau 3:

C&(4,1.54); C,(2,1.54) C,,(15,2.44); C&(3,2.44); C,(2,2.56); C,,(4,2.56); C,,(2,2.75) C&(4,2.92); &(7,3.00); C,(4,3.53); C1,(2,3.58); C,,(1,3.75); C,(2,3.78); 021( 13,4.04)

C,(2,1.54); &(2,1.54) C,,(4,2.50); C,(4,2.50); C,,(7,2.65); 0,,(15,2.75) C,(3,2.92); 021 (13,3.34); C,,(4,3.85); (I&( 1,3.90)

C11W.54); C,,(4+54) &,(3,2.39); C,(4,2.44); C&(1,2.44); C,,(4,2.50); C&(2,2.53); &(4,2.70); &(2,2.75); C,(2,2.82) C17(1,2.82); 0*,(15,3.33); C,(3,3.78); C,(3,3.84)

0,,(13,1.23); 0,,(15,1.43); C4(4,1.54) &(4,2.29); C,(3,2.31); C,(2,2.37); C&(1,2.53); C,(2,2.7) C1(2,3.0); C,(2,3.1); &(4,3.51); C&(1,3.7)

ond niveau de C2, bien qu’il s’agisse d’atomes y. En regle generale, on peut constater que notre second niveau contient tous les atomes p, et quelques at- omes y.

Quand on compare notre code a celui du groupe de Stanford, on remarque que les groupes 6 apparaissent dans le troisieme niveau, mais ils n’y apparais- sent pas tous. Par exemple, dans le code de Ci, on n’y trouve que deux groupes S (C,, et Ozl), tous les autres (C&, CT, C9 et C,,) sont exclus du code parce qu’ils sont trop Qloignes de C,. Ce fait est trks important, car il permet de diminuer le nombre de substructures ndcessaires, sans rien perdre de la preci- sion des resultats. La meme exclusion des groupes y, dont les influences sont faibles, s’observe dans les codes des autres carbones. Par exemple, le code de C, ne retient qu’un seul groupe 6( Ozl); les autres (C,,, Cz4, Cs et C,) sont Qlimines.

L’ordinateur realise sa recherche par niveaux entiers, ce qui est plus rapide, mais il peut aussi, si l’usager le desire, continuer sa recherche a l’interieur d’un niveau par distances croissantes. Cette flexibilite n’est pas possible dans les autres methodes.

Le code que nous venons de decrire presente certains avantages, mais aussi un grand inconvenient: chaque molecule doit 8tre construite et les coordonnees atome doivent Qtre mesurees manuellement; ce qui represente un travail laborieux.

Comme avantages, nous pouvons titer le qualites suivantes. Sa flexibilite permet d’effectuer des types de recherche inaccessibles aux autres logiciels. 11 n’est pas necessaire de codifier tous les atomes. Les atomes dont l’influence est

Page 8: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

92

preponderante sont inclus dans le code et les autres sont elimines. La prepon- derance relative des atomes 6, est ddterminee par la distance a laquelle ils se trouvent. Le code &ant tronque a 4.25 A, les atomes qui se trouvent a des distances superieures sont Qliminds automatiquement. A l’heure actuelle, nous avons codifid 11725 signaux qui n’ont g&r&e que 6230 substructures. Ce code respecte les equations theoriques obtenues anterieurement par la mecanique quantique [ 14-171. Ces equations demontrent clairement que les signaux de- pendent du type de carbone et de ses voisins (repris dans les numeros-code ) des distances auxquelles ces noyaux se trouvent (reprises par les distances) et de l’angle entre l’axe de symetrie de chaque voisin et le vecteur que relie celui- ci au noyau du carbone (repris par SS) . Les codes de Bremser et de Dubois ne reprennent que le premier et, dune maniere approximative, le second facteur. Le code de Stanford n’inclut qu’imparfaitement le second facteur. 11 existe cependant une derniere variable qui intervient dans ces equations. Ce sont les matrices de densite qui font partie du terme paramagndtique. Aucun code ne reprend cette variable. 11 est done probable que les systemes d’intelligence ar- tificielle developpes jusqu’a present ne seront pas tres p&is quand ils seront appliques aux composes aromatiques tels que flavones, lignanes, etc., pour les- quels les effets mesomeres sont importants.

La banque de don&es est t&s compacte car l’ordinateur la construit par substructures et non par signal. Chaque substructure occupe 78 bytes distri- b&s comme suit: (1) 40 bytes pour numeros-code et les distances des atomes voisins; (2 ) 2 bytes pour la valeur de SS; (3) la valeur minimum (2 bytes), maximum (2 bytes), la somme de tous les signaux observes (3 bytes) et le nombre de cas (2 bytes) pour chaque niveau, soit un total de 27 bytes; et (4) les indices des prochains registres des niveaux 0, 1 et 2; soit 3 nombres de 3 bytes chacun. 11 est bien entendu que tous ces nombres sont transform& en base alfanumerique.

Lorsque l’ordinateur doit introduire un nouveau signal dans sa banque de don&es, il recherche d’abord si la substructure existe. Si elle n’est pas connue, il tree un nouveau registre; sinon, il modifie le registre de la substructure pour y inclure cette nouvelle don&e. 11 modifie ensuite les registres pour lesquels le code des niveaux inferieurs est Qgal a celui de la nouvelle substructure. Par exemple, si l’ordinateur reconnait une substructure au niveau 2, il c&era un nouveau registre, modifiera le registre du niveau 2 ainsi que tous les registres oh le code du niveau 1 est Qgal a celui de la nouvelle substructure. De meme, s’il reconnait une substructure au niveau 3, il va modifier le registre ou la sub- structure est d&rite ainsi que tous les registres dans lesquels les codes des niveaux 1 et 2 sont Qgaux a celui de la substructure pour y inclure cette nouvelle don&e.

En procedant de la sorte, la banque est t&s compacte; ainsi les 6230 sub- structures que comportent le systeme ne requierent que 500 kbytes. L’incon- venient de ce type d’architecture est que l’ordinateur ne parvient plus h calculer

Page 9: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

93

la deviation lors de la prevision. 11 est encore capable de la calculer globalement en comparant toutes les don&es experimentales ri la banque entiere, mais il n’en est plus capable cas par cas comme dans les autres systemes.

Nous estimons cependant que, pour le spectroscopiste, la deviation n’est pas une don&e essentielle. A quoi lui sert-il de savoir que telle prevision est en- tachee dune erreur statistique de 0.5 ppm, s’il sait par experience, que le seul effet de solvent peut s’elever 212 ppm? De plus, le nombre de cas observes n’est generalement pas suffisamment grand pour que la valeur de la deviation soit une don&e statistiquement valable. Pour le spectroscopiste, les valeurs ex- tr8mes entre lesquelles le signal devrait Qtre observe renferment des informa- tions beaucoup plus importantes.

Algorithme Le fluxogramme est represent6 dans la Fig. 2 et sera detail16 par la suite. Le

systeme offre trois options: soit simplement corriger les coordonnees (option 1 ), prevoir le spectre thdorique (option 2) et attribuer les signaux (option 3 ).

Correction. Apres la lecture des don&es, l’ordinateur corrige les coordonndes fournies de telle maniere que les valeurs des distances de liaison soient Qgales aux valeurs padronisees, avec une erreur tolerable de 0.035 A, et que les angles de valence soient Qgaux aux angles d’hybridation, avec une erreur de 5’.

L’ordinateur est programme pour reconnaitre les cycles tendus (Qpoxide, cyclopropane...) et les traitent en consequence. L’ordinateur ne parvient ce- pendant pas toujours a effectuer les corrections necessaires. S’il en est incap- able, il demande a ce que les don&es initiales soient corrigdes. En genera$ il parvient a corriger les erreurs de coordonnees inferieures ou &gales a 0.05 A.

Pre’uision. Lors de cette &ape, l’ordinateur commence sa recherche par ni- veaux, puis offre l’option du sub-menu. Pour l’instant, deux options ont 6th greffees au programme principal. Nous developpons d’autres options qui lui seront successivement ajoutees.

La premiere option est la “recherche precise”. S’il y a eu coincidence des codes a un niveau, l’ordinateur recherche dans le niveau suivant, la structure la plus semblable par distances croissantes. La seconde option est 1“‘exclusion”. S’il y a eu coincidence h un niveau, l’ordinateur recherche et presente toutes les structures du niveau suivant. Nous avons remarque que cette option est assez employee par les chimistes qui determinent la structure des produits na- turels. Lorsqu’il apparait des doutes au sujet de la structure correcte, cette option permet souvent deliminer ou de confirmer plusieurs possibilites. C’est d’ailleurs la raison pour laquelle nous avons appele cette option #“exclusion”.

Attribution. L’ordinateur Qtablit une matrice de correlation. Cette methode a deja 4th d&rite [ 81, mais nous y avons cependant apporte quelques modifi- cations. Les limites du spectre theorique sont Btablies de la man&e suivante: si le nombre de cas observes est Qgal ou supdrieur au nombre limite repris dans la Tableau 5, l’ordinateur se sert des valeurs de maximum et minimum obten-

Page 10: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

94

option -1 impokrible

possible

sortie 1 _‘I

sortie 2

sortie 3

Fig. 2. Fluxogramme du programme CTREZE.

ues lors de 1’6tape antdrieure. Si le nombre de cas est infe’rieur, les limites sont Qtablies respectivement en additionnant et en soustrayant du signal p&vu lors de l’etape anterieure, la plus grande erreur que l’ordinateur await pu com- mettre pour ce type de carbone. Ces valeurs, qui sont reprises dans la Tableau 5, sont recalculees par l’ordinateur a partir de la banque de don&es au fur et a mesure que de nouvelles molecules sont incorporees a cette banque. Ces va- leurs sont done provisoires et peuvent Btre modifiees par le propre ordinateur.

Si la tentative d’attribution nest pas courronne’e de succes, il essaie h nou- veau suivant la methode d&rite [a], mais uniquement au niveau oti les previ- sions ont Qtk obtenues.

Par exemple, les minima et maxima de C1 du compose X (voir cidessous) ne sont pas changes, mais ceux de C2 deviennent: minimum = 17.1 ppm et maxi- mum = 40.9 ppm.

Deux cas speciaux sont p&us: (a) si une colonne “j” et une ligne“? sont Qgalement nulles, l’ordinateur dmet un avis et demande si le signal “j” peut

Page 11: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

95

TABLEAU 5

Erreur maximum par numkro-code et par niveau

Code * Niveau 1 Niveau 2

Nombre limite: 35 Nombre limite: 12 Erreur max. (ppm) Erreur max. (ppm)

Niveau 3

Nombre limite: 5 Erreur max. (ppm )

1 2 3 4 5 6 7 8 9

10 11 12”

36.1 14.9 2.6 21.2 11.9 2.4 29.4 19.4 2.9 22.3 15.0 2.5 19.0 14.7 3.0 26.0 10.7 3.0 30.8 15.9 2.9 23.1 9.9 1.5 22.9 12.1 1.7 19.8 6.4 2.9 14.3 5.0 1.4

“I1 n’existe actuellement aucun allkne dans la banque de don&es.

Qtre attribue au carbonne ‘3”; (b) ’ 1 si e nombre de colonnes nulles est Qgal au nombre de lignes nulles, l’ordinateur Qmet un avis d’indecision. 11 solicite l’aide de l’operateur pour faire l’attribution des signaux de ces carbones.

Banque de don&es Comme dans tous les systemes d’intelligence artificielle, la confiance que

l’on peut deposer dans les resultats fournis, depend directement dune banque de don&es correcte. La banque de donndes est cr6Qe automatiquement a partir des coordonnees et des spectres dun certain nombre de composes. Actuelle- ment, notre banque a Qte c&e a partir de 576 terpenes et sterols.

Dans notre codification, nous pouvons detecter trois sources possibles d’er- reurs. Les coordonnees pourraient Qtre error&es. Comme l’ordinateur recalcule ces don&es, et Qvent,uellement les modifie, cette source d’erreurs est pratique- ment kliminee. Les coordonndes fournies proviennent dune analyse confor- mationnelle ma1 realisde. En &alit& cette source d’erreurs est possible, mais elle n’invaliderait pas la banque de donnees. On creerait simplement des sub- structures inutiles. Les donnkes experimentales sont fausses. Cette source d’erreurs est la plus pernicieuse, car elle est difficilement detectable.

Pour eviter au maximum les erreurs de ce type, nous avons pro&de de la man&e suivante. Nous n’avons choisi que des don&es provenant d’articles de revision. Pour commencer notre banque, nous avons choisi 95 spectres de monoterpenes. A partir de 94 de ces spectres, nous Qlaborions une banque de don&es contre laquelle nous comparisons le 958me terpene. Ce processus a

Page 12: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

96

et& rep&e pour chaque terpkne. A partir des resultats obtenus, nous avons dlimine deux terpenes et rectifie l’attribution de deux carbones du terpene IX pour lesquels les signaux Qtaient manifestement intervertis. Par la suite, toutes les autres molecules furent confrontees avec cette banque initiale et y Qtaient incorporees si aucune attribution abdrrante n’btait observee.

Malgre les precautions prises, il se peut cependant que l’une ou l’autre erreur se soit glissde dans la banque de don&es.

EXEMPLES

Evidemment, l’ordinateur ne fait que reproduire l’information qu’il a recu. 11 est done difficile de juger de la qualite d’un logiciel exclusivement sur la base d’exemples. Ceux que nous presentons par la suite ne servent que d’illustration des possibilites actuelles du systeme.

Chaque ligne de la Tableau 6 (compose VIII) reprend le numero du carbone, les valeurs minimum et maximum, la moyenne statistique de tous les signaux

TABLEAU 6

Exemple 1 (cornposh VIII)

C Min. Max. Prev. Nombre de cas Niveau Attribution Exp.

1 31.2 31.2 31.2 2 3 2 20.1 20.1 20.1 2 3 3 35.3 35.3 35.3 1 3 4 33.5 48.3 45.1 24 2 5 48.1 48.1 48.1 1 2 6 23.7 46.4 34.1 34 1 7 61.2 88.3 77.0 39 1 8 20.9 56.7 35.7 7 1 9 11.0 52.2 38.2 141 1

10 45.6 46.7 46.2 5 2 11 15.1 43.4 25.4 577 1 12 19.9 44.8 35.9 691 1 13 41.6 41.6 41.6 1 2 14 87.0 88.0 87.5 2 2 15 53.1 53.1 53.1 1 2 16 79.1 79.1 79.1 1 2 17 23.6 23.6 23.6 1 3 18 21.2 21.7 21.6 10 3 19 170.0 170.0 170.0 2 2 22 178.3 178.3 178.3 1 3 24 6.7 39.1 21.8 851 1 27 16.7 17.1 16.9 2 3

1,6,12 n

;,9,11 3,8,13 5,lO 6,9,11,12 7 8,13 13 6 9 11,12 f 9 9 t 5,lO 3,6,9,11,12 6,9,11,12 4,13 14,16 15 14,16 17 18 19 22 24 27

31.2 20.4 35.8 48.3 48.9 26.8 77.8 50.0 33.4 46.4 34.8 24.1 42.1 87.8 53.5 80.2 23.6 21.1

170.5 179.7

19.8 17.2

Page 13: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

97

qui font partie de sa banque de donnees, le nombre de cas observes, le niveau auquel la prevision est faite ainsi que les numdros des atomes auxquels

18 0 II ‘47

19

o*. a!? of” 4 O 8 I4 (lx) (Xl

le signal experimental pourrait Qtre attribue. Pour Qviter au maximum que les attributions ne soient erronees, l’ordinateur doit tenir compte du fait que ses previsions peuvent &re entachees d’erreurs parfois importantes (voir Tableau 5 ). En consequence, les attributions sont rarement uniques et le spectroscop- iste devra intervenir. Nous nous sommes principalement prdoccupes de ce que l’ordinateur ne se trompe que le moins souvent possible; ce qui est le cas ici. Aucune des attributions faites n’est fausse, mais seuls 9 signaux ont Qte attri- b&s indiscutablement.

11 peut paraitre curieux que le signal a 31.2 ppm ne soit pas attribud indis- cutablement a C, puisque le signal prdvu a exactement la m&me valeur. En r&alit& le signal a 33.4 ppm pourrait t&s bien lui Qtre attribue si l’on tient compte des espaces d’erreurs de la Tableau 5. Comme on peut le voir, les re- sultat ne sont p&is qu’au niveau 3, et a un degre moindre, au niveau 2. Pour 9 carbones, les previsions n’ont pas depasse le premier niveau. C’Qtait previ- sible car ce kaurane possede une structure toute particuliere, differente de celle des autres membres de la serie. Nous avons cependant choisi cet exemple a dessein pour illustrer les possibilites de la premiere option du sub-menu: l’op- tion “recherche precise”.

Les previsions des signaux des carbones pour lesquels il fut possible de se servir de l’option “recherche precise”, sont reprises dans la Tableau 7. Pour chaque carbone ayant fait l’objet de la recherche precise, nous presentons les atomes qui ont et6 successivement inclus au code du niveau antdrieur, les dis- tances auxquels ils se trouvent ainsi que les valeurs minimum, maximum, les moyennes statistiques ainsi que le nombre de cas existants dans la banque de don&es. Entre parentheses, nous reprenons la valeur experimentale.

On peut remarquer que dans la majoritd des cas, le recours 21 l’option “re- cherche precise” amdliore sensiblement les resultats. La deviation diminue de 0.85 a 0.70 et n’est pratiquement due qu’a un seul signal, celui de C,,. L’erreur commise sur le carbone 11 provient probablement du fait que l’ordinateur n’est pas parvenue 21 introduire 0z5 dans le code de recherche. La “recherche precise” represente Qgalement une aide precieuse pour le spectroscopiste. Par exemple, il n’existe maintenant plus de doute que le signal a 31.2 ppm ne peut Qtre at-

Page 14: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

98

TABLEAU 7

RBsultats de i’option “recherche precise” appliquke au compose VIII

C Inclusion de Distance (A) Min. Max. Prev. Nombre de cas

4 6

7

9

10 11

12

24

1 4 33.5 47.5 46.3(48.3) 10 20 2.47 22.3 38.4 29.8 15 14 2.52 22.3 27.6 24.9 6 8 2.55 22.3 27.6 24.7 5 4 2.65 22.3 24.8 24.0(26.8) 3

19 2.32 68.4 81.5 76.3 33 5 2.5 68.8 81.5 76.4 24 9 2.57 74.7 81.5 78.8 5

15 2.6 74.7 79.3 78.1(77.8) 4 13 2.37 30.1 47.2 39.8 23 24 2.45 30.1 47.2 40.1 11 16 2.47 32.7 39.1 35.9 2 15 2.5 32.7 32.7 32.7(33.4) 1 24 3.2 45.6 46.7 46.3 (46.4) 4

9 2.52 16.0 43.4 28.4 181 16 2.52 16.0 34.2 25.3 83 13 2.57 16.0 34.2 23.3 39 17 2.77 20.7 34.2 25.7 (34.8) 25 10 2.45 23.0 44.0 36.5 507

8 2.5 23.1 41.2 32.3 122 24 2.52 23.4 41.2 32.2 67 14 2.57 23.4 34.1 28.6 27 15 2.6 23.4 24.0 23.7(24.1) 3 9 2.45 11.2 39.0 22.3 305 8 2.45 11.4 28.1 18.0 48

12 2.52 19.7 20.8 20.3 (19.8) 2

tribue qu’a C,; que celui a 26.8 ppm ne peut Qtre attribue a C, etc., ce qui sim- plifie considerablement le tableau des attributions. Finalement, le recours a cette option permet de suivre l’evolution des signaux au fur et a mesure que le voisinage du carbone se precise. On peut ainsi accompagner l’influence que les differents atomes voisins peuvent avoir sur les signaux de 13C.

Dans la Tableau 8, nous presentons les resultats obtenus pour le compose X. On peut verifier a nouveau la grande importance de la recherche a l’interieur du niveau (option “recherche precise”). Cette importance est particulierement marquante pour les signaux des groupes methyles. Par exemple, la recherche initiale du signal de C1s n’a pas depasse la premier niveau. Comme le nombre de cas est tres grand, la recherche h l’interieur du niveau suivant est parvenue a augmenter dune maniere considerable la precision tout en conservant un nombre de cas statistiquement significatif. Ainsi, h la fin de l’option “recherche precise”, il restait 13 cas compris entre 11.4 et 15.3 ppm.

En plus, comme cette option permet d’accompagner l’inclusion, un par un,

Page 15: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

99

TABLEAU 8

Exemple 2 (composk X )

C Min.’ Max. Prev. Cas Recherche pdcise Niveau Exp.

1 25.9 41.4 37.6 23 37.2 2 32.2 2 29.0 29.0 29.0 2 - 3 29.0 3 63.8 71.8 66.5 10 66.5 2 66.5 4 38.3 38.3 38.3 1 - 2 36.3 5 39.0 46.3 34.1 3 43.4 2 39.2 6 28.8 29.0 28.9 3 - 3 28.3 7 19.7 33.2 31.0 25 31.0 2 30.9 8 31.7 50.2 37.7 34 36.1 1 35.1 9 46.4 56.7 54.3 25 55.0 2 54.5

10 35.6 36.9 36.3 14 35.6 2 35.8 11 20.3 21.7 21.0 15 21.1 2 20.1 12 34.1 43.4 37.7 17 - 2 31.7 13 47.7 54.9 51.3 2 - 2 47.8 14 51.6 54.6 52.7 3 - 2 51.5 15 21.7 31.3 29.1 12 21.7 2 21.8 16 35.1 35.7 35.4 2 - 3 35.8 17 220.4 220.4 220.4 1 - 3 221.0 18 6.7 39.1 21.8 851 14.1 1 13.8 19 11.4 21.7 14.9 10 11.8 2 11.2

des atomes voisins, l’operateur peut frdquemment juger d’avance, si l’ordina- teur reussira a prevoir correctement le signal theorique. Les resultats obtenus pour C!, et C,, (ou C,,) en sont l’illustration. L’hydroxyle attachee A C, est dune importance fondamentale pour la valeur du signal de C,. Comme la re- cherche precise n’est pas parvenue a introduire cette hydroxyle, les valeurs obtenues avant et apres la recherche sont sensiblement dgales et trks Qloignees du resultat experimental. Par contre, les recherches precises des signaux de C,, et C,, ont et6 couronnees de succes parce que l’ordinateur est parvenu a intro- duire la carbonyle dans le code de recherches. En consequence, la prevision s’est sensiblement modifiee et maintenant elle coincide pratiquement avec la don&e experimentale.

Conclusions Lorsque nous avons commence ce travail, notre but Btait d’implanter le sys-

t&me developpe par Gray sur microordinateur du type IBM-PC. Nous n’avons &labor6 ce nouveau code que lorsqu’il devint evidence pour nous que la codifi- cation de Gray Qtait trop detaillee.

Du fait que ce logiciel a 4th developpe pour des ordinateurs personnels, il est t&s lent compare aux autres. Chaque carbone demande en moyenne 20 seg. de recherche, et la recherche h l’intdrieur d’un niveau prend A peu pres 2 min. Ce

Page 16: PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE … · Analytica Chimica Acta, 217 (1989) 85-100 Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands 85 PREVISION

100

desavantage est cependant compense par la facilite d’implantation et d’acces. Le chimiste qui travaille en determination de structures n’a pas toujours un acces aise aux grands ordinateurs. Les PC par contre, sont amplement diffuses et dun emploi facile.

Statistiquement, les resultats que nous obtenons sont de qualite semblable 21 ceux du groupe de Stanford. Les deviations sont de m&me ordre de grandeur; 9.7 ppm au premier niveau, 3.0 ppm au second et 0.5 au troisieme. Le grand avantage de notre methode reside dans le fait que le nombre de substructures necessaires est moindre. C’est-a-dire que la probabilite d’obtenir des previsions 21 des niveaux Qleves est plus grande. Nous nous tenons a l’entikre disposition des chercheurs qui s’interesseraient 21 ce logiciel.

Nous tenons a remercier particulierement notre technicien, Mr. Mario Cil- ense Jr., pour l’aide precieuse qu’il nous a apportee. L’un de nous, J.C.Z., re- mercie la FAPESP pour l’octroi dune bourse d’etude.

REFERENCES

1 2 3 4 5 6 7 8 9

10 11 12

13

14 W. E. Lamb, Phys. Rev., 60 (1941) 817. 15 J. Masun, J. Chem. Sot. A, 1 (1971) 1038. 16 J. A. Pople, Proc. R. Sot. London, Ser. A, 239 (1957) 550. 17 G. A. Olah et G.D. Matesco, J. Am. Cheni. Sot., 92 (1970) 1430.

N. A. B. Gray, Progr. Nucl. Magn. Reson. Spectrosc., 15 (1982) 201. C. A. Shelley et M. E. Munk, Anal. Chem., 54 (1982) 516. C. W. Crandell, N. A. B. Gray et D. H. Smith, J. Chem. Inf. Comput. Sci., 22 (1982) 48. H. N. Cheng et S. J. Ellingsen, J. Chem. Inf. Comput. Sci., 23 (1983) 197. M. Novic et J. Zupan, Anal. Chim. Acta, 177 (1985) 23. R. Wolfgang, Monatsh. Chem., 114 (1983) 365. M. Zippel, J. Mowitz, I. Kohler et J. Opferkuch, Anal. Chim. Acta, 140 (1982) 123. H. Kalchhauser et W. Robien, J. Chem. Inf. Comput. Sci., 25 (1985) 103. W. Bremser, Anal. Chim. Acta, 103 (1978) 355. W. Bremser et W. Fachinger, Magn. Reson. Chem., 23 (1985) 1056. J. E. Dubois, M. Carabedian et I. Dagane, Anal. Chim. Acta, 158 (1984) 217. N. A. B. Gray, J. G. Nourse, C. W. Grandell, D. H. Smith et C. Djerassi, Org. Magn. Reson. 15 (1981) 375. M. Y. Kornilov, A. Tolstukhat, P. Kadziavskas et E. Butkus, Comput. Chem., 6(4) (1982) 193.