<!DOCTYPE HTML PUBLIC "-//SQ//DTD PRIMER//EN"
[
<!ENTITY biblio SYSTEM "biblio.sgm">
]>

<HTML>

<HEAD>

<TITLE>Article (démo)</TITLE>

</HEAD>


<BODY>

<DIV1>
<H1>La gestion et l'analyse des textes par ordinateur: leur spécificité dans le traitement de l'information</H1>

<H2><CLINK LINKEND="JGM">Jean-Guy Meunier</CLINK>, <CLINK LINKEND="SBG">Suzanne-Bertrand-Gastaldy</CLINK>, <CLINK LINKEND="LCP">Louis-Claude Paquin</CLINK></H2>
<BR>
<P>[ Article publié: <A HREF="biblio.htm#Meun">référence</A> - Biblio HTML ]</P>
<BR>

<NAMELOC ID="biblink">
<NMLIST NAMETYPE="element" DOCORSUB="biblio">
Meun
</NMLIST>
</NAMELOC>

<P>[ Article publié : <CLINK LINKEND="biblink">référence</CLINK> - Biblio SGML ]</P><BR>
<BR>

<!--
The next sample markup is a cross-document reference to an element with the ID eid in the
docref entity: 

  ...
  <nameloc id="locid">
  <nmlist nametype="element" docorsub="docref">
  eid
  </nmlist>
  </nameloc>
  ...
  See also the<clink linkend="locid">related section</clink>
  ...

The clink spanning "related section" points to the element with an ID attribute with the value eid in
the document corresponding to the docref entity.
-->


<HR>

<H3>RÉSUMÉ</H3>
<BLOCKQUOTE><P>Le traitement électronique des textes pose la question de la double nature 
du texte: objet à la fois matériel à manipuler physiquement et objet sémiotique à 
aborder sur le plan cognitif. Dans un système de traitement  informatique de 
textes, il convient de bien distinguer ces deux niveaux pour faire le partage entre 
les opérations portant sur la matérialité du texte et celles qui permettent d'accéder 
à son contenu. La gestion et l'analyse de texte sont des opérations qui toutes les 
deux doivent accéder tant à la structure matérielle  du document qu'au son 
contenu signfiant du texte. La lecture et l'interprétation des textes constituent un 
acte privé et social qu'il est impossible d'automatiser, mais qui peut être assisté 
informatiquement. D'ailleurs les opérations sur le contenu sont bien plus 
nombreuses que celles auxquelles les systèmes traditionnels ont confiné leurs 
utilisateurs. Une chaîne de traitement sensible au contenu inclura les opérations 
liées à la production, celles de description, puis d'extraction  de l'information et 
enfin de configuration des connaissances. Les logiciels disponibles sur le marché 
commencent seulement à s'intéresser à ces quatre phases du flux de traitement, 
mais leur intégration est loin d'être réalisée.</P></BLOCKQUOTE>
<BR>

<H3>ABSTRACT</H3>
<BLOCKQUOTE><P>Computer text processing encounters the double nature of a text that is: as 
a material object that can be  manipulated physically and as a semiotic object tant 
can be manipulated cognitively. In designing a computer system for text 
processing, one must distinguish between operations related to the material 
dimension of a text and the ones allowing access to its content. Text management 
and text analysis are operations that must access both to the material stucture of a 
document and to the significant content of the text. Reading and interpreting text 
are private and social acts for which there does not exist automatas. This does not 
mean that they cannot be computer assisted. In fact, operations related to the 
content of text are much more numerous than the ones to which traditionnal 
systems have confined users. A work flow sensitive to the content of text will 
include operations relating to the production and the description of the text, the 
extraction and configuration of knowledge content. The software available on the 
market are only beginning to touch upon these four work flow operations, but 
their integration is not reached yet.</P></BLOCKQUOTE>

<HR><BR>
<DIV2>
<H2>1. Introduction</H2>
<DIV3>
<H3>1.1 La modification du rapport au texte</H3>

<P>Un des résultats inattendus de l'introduction de l'ordinateur dans 
l'environnement de travail, tant des individus que des institutions, est la 
modification de leur rapport à l'information textuelle. En effet, la possession de 
plus en plus répandue de micro-ordinateurs a certes bouleversé le mode 
traditionnel de production et d'archivage de l'information textuelle, mais elle en a 
surtout profondément modifié la gestion et l'analyse. Il est, par exemple, de plus 
en plus fréquent de voir des conseillers techniques d'une entreprise fouiller des 
documents archivés dans une base de données électronique non seulement pour 
récupérer de l'information contenant des politiques, des normes, etc., mais aussi 
pour analyser les textes afin de prendre des décisions, orienter des politiques, 
cerner des tendances, etc.</P>

<P>Cependant, la nature électronique du support, surtout lorsque le corpus est 
grand, engendre des problèmes de traitement tout à fait nouveaux. En effet, 
contrairement à un classeur ou à une bibliothèque qui permettent à une personne 
de fureter, lire, et analyser les fichiers ou les livres, un texte sur support 
électronique n'est pas accessible directement. Le document doit être atteint et 
parcouru via des intermédiaires, c'est-à-dire via des programmes spécialisés dans 
la gestion et l'analyse des textes. Or, ces programmes rencontrent de graves 
difficultés de traitement en raison de la nature originale d'un texte électronique. 
Celui-ci se trouve maintenant sur un support physique qui ne présente plus 
nécessairement un texte de manière linéaire comme cela était le cas sur du papier. 
De plus, contrairement à ce qui se passe lors de la lecture humaine, le contenu 
n'est absolument pas transparent aux programmes qui le parcourent.</P>
</DIV3>

<DIV3>
<BR>
<H3>1.2 La double nature d'un texte</H3>

<P>Un texte est un objet de nature originale. Il est certes un objet matériel que 
l'on doit <STRONG>manipuler</STRONG> physiquement. Un texte est quelque chose que l'on transcrit, 
copie, repère, transmet, imprime, archive, etc. Mais un texte est plus qu'un objet 
matériel. Il est aussi un objet <STRONG>sémiotique</STRONG> qui doit être <STRONG>manipulé</STRONG> cognitivement 
c'est-à-dire <STRONG>lu</STRONG> et <STRONG>parcouru</STRONG> pour que l'on puisse en extraire les idées, les concepts, 
les propositions ou les thèses; pour que l'on puisse en vérifier les démonstrations 
ou les preuves; en comprendre la narration, l'argumentation, etc. Bref, un texte 
présente toujours une double dimension, matérielle et sémiotique. Et c'est cette 
double dimension qui pose, pour son traitement informatique, des problèmes 
particuliers de design. Bien qu'en apparence seulement rien ne semble plus facile 
que cette question du traitement des textes par ordinateur, il faut constater que la 
problématique est extrêmement complexe. En effet, on ne comprend pas toujours 
la même chose sous ce concept de <STRONG>traitement de l'information textuelle</STRONG>. Aussi, 
pour clarifier le débat, nous distinguerons deux grands types de traitements que 
l'on peut effectuer sur l'objet textuel. L'un touche le support materiel  de 
l'information et l'autre aborde son contenu signifiant. Bien que les deux opérations 
portent sur l'information, elles n'ont pas les mêmes caractéristiques et ne relèvent 
pas non plus de la même modélisation formelle.</P>

<P>Une précision s'impose ici: le support physique d'un texte ne détermine 
ni son statut de texte ni son statut de document. Un texte, tout comme un dessin, 
peut avoir divers supports physiques: une pierre gravée au stylet, du papier 
supportant des signes écrits à l'encre, une disquette digitalisée. Mais ce qui donne 
à ce support physique son statut de texte est la forme particulière d'organisation 
du code linguistique (différente de la phrase par exemple) et son rôle dans 
l'univers de la communication humaine:  &#171; ce que l'on appelle "texte" c'est ...
d'habitude un discours censé faire l'objet d'un choix unique, et dont la fin, par 
exemple, est déjà prévue par l'auteur au moment où il rédige le début. &#187; (<CLINK LINKEND="Duc">Ducrot, 
1980</CLINK>: 176).  Ainsi un texte occupe une fonction sémiotique et implique des 
propriétés qui appartiennent au système sémio-linguistique. Il est constitué des 
niveaux représentationnels variés: syntaxique, sémantique, pragmatique, entre 
autres. Il contient des inférences, des narrations, des preuves, des discours. Mais 
le texte n'est pas le seul mode de communication sémiotique utilisé par les 
humains. Pensons par exemple aux tableaux, aux cartes, à la danse, à la musique, 
etc. Toutefois, chacun de ces modes sémiotiques possède des propriétés 
sémiotiques particulières qui les différencient d'un texte.</P>

<P>Texte et document ne sont pas assimilables: le générique d'un film peut 
être un texte mais ne pas être considéré comme un document et un télécopieur 
transmet des codes, aussi bien du texte que des graphiques, mais il ignore le statut 
de document. La notion de <STRONG>document</STRONG> relève avant tout d'un modèle de 
l'organisation de l'information. Elle désigne habituellement une propriété 
fonctionnelle donnée à l'information dans un régime de transfert et d'organisation. 
Ce qui fait d'un ex-voto, d'une photo, d'un film, d'une facture des documents, 
c'est leur position dans ce système qui implique des opérations de gestion:</P>
<BLOCKQUOTE><P>&#171; [...] a text is an abstract theoretical construct of a grammar (or other 
theory of discourse), making explicit the structure of a discourse. [...] the 
term <STRONG>document</STRONG>, as usual, will denote a concrete object 'containing' or 
'carrying' one or more discourses, and having a specific processing 
function (storage, analysis, abstracting, retrieval, etc.). Thus we can <STRONG>read</STRONG> a 
document, but only <STRONG>understand</STRONG> one of the discourses, whereas the 
understanding of a discourse takes place by the cognitive or theoretical 
assignment of text structure to that discourse. &#187; (<CLINK LINKEND="VanD">Van Dijk, 1977</CLINK>: 129-130)</P></BLOCKQUOTE>

<P>C'est pourquoi, dans ce qui suit, nous ferons une distinction non pas entre 
le texte et le document, mais entre le traitement matériel et le traitement cognitif 
et linguistique d'un texte.</P>

<DIV4>
<H4>a) Les opérations sur la matérialité de l'information</H4>
<P>Le premier type d'opération sur les documents textuels consiste à les 
traiter en regard de leur dimension matérielle. Quel que soit le  &#171; texte &#187;, il doit se 
trouver sur un support physique quelconque. Celui-ci peut être de l'encre sur du 
papier ou encore des impulsions électriques gravées sur un disque magnétisé. 
Mais peu importe ce support, il n'affectera pas le contenu qui est exprimé. Que le 
texte <EM>Roméo et Juliette</EM> de Shakespeare soit inscrit sur un support papier ou sur un 
support électronique, on dira toujours, du point de vue du contenu, qu'il s'agit du 
même  &#171; texte &#187;.</P>

<P>Du point de vue physique cependant, il ne s'agit pas du même  &#171; texte &#187;. Le 
texte électronique présente des propriétés et des caractéristiques tout à fait 
différentes de celles du support papier. Et son traitement ne ressemble en rien à la 
manipulation d'une feuille de papier. De fait, un texte électronique n'est pas 
constitué d'une séquence de marques chimiques (encre) ou mécaniques (traces, 
gravures, etc.) mais d'une séquence de signaux électriques souvent distribués à 
travers tout le support magnétique de l'ordinateur. L'approche traditionnelle pour 
modéliser le traitement de ces signaux s'inspire de la théorie classique dite de 
<STRONG>l'information</STRONG> pour laquelle un texte est une séquence de signaux informationnels 
qui présentent une <STRONG>structure linéaire, une fréquence, un degré de probabilité, 
d'entropie, de taux de redondance, etc.</STRONG> Ces concepts et leurs variantes se 
retrouveront à la base d'algorithmes pour la manipulation informatique des 
séquences de ces signaux. Ceux-ci se verront ainsi <STRONG>encodés, décodés, compilés, 
transmis, filtrés, stockés, compressés, appariés, etc.</STRONG></P>

<P>Ces modèles ont permis de construire une technologie informatique 
importante. Pensons par exemple à la télécopie, à la télématique, à la saisie 
électronique des documents, à l'impression laser, etc. Plus spectaculaires encore 
sont les systèmes de traitement de textes dont les fonctions les plus appréciées 
sont la transcription, la copie, la mise en page, etc.</P>

<P>Bref, un texte peut être manipulé informatiquement en tant que séquence 
de signaux électriques. Cette technologie est essentiellement orientée vers le 
traitement du support physique du texte. Mais bien que cette technologie modifie 
grandement notre rapport au texte, il faut voir qu'elle n'atteint jamais le contenu 
du texte, même de la façon la plus superficielle. On ne peut pas dire sans 
anthropomorphisme qu'un système de traitement de texte non plus qu'une 
imprimante <STRONG>lisent et analysent</STRONG> un texte. Un télécopieur opère aussi bien sur une 
lettre française que sur une lettre chinoise! Il ne saisit aucunement la différence 
entre une fiche documentaire, une lettre de félicitations ou une facture de vente! 
La critique du modèle classique de la théorie de l'information a clairement montré 
qu'elle avait, dès le point de départ, éliminé l'aspect <STRONG>contenu signifiant</STRONG> de 
l'information (<CLINK LINKEND="BarH">Bar Hillel, 1955</CLINK>). Les signaux y sont toujours manipulés sans égard 
à leur signification.</P>

<P>De plus en plus, les utilisateurs réclament non seulement que l'on 
manipule avec aisance le support physique d'un texte mais aussi qu'on accède à 
son contenu véritable.</P>
</DIV4>

<DIV4>
<H4>b) Les opérations sur le contenu du texte</H4>
<P>Le véritable lieu de l'intérêt d'un texte - à moins que l'on ne soit un 
collectionneur, un imprimeur ou un agent d'un service de télécommunication - 
réside dans son contenu informationnel signifiant c'est-à-dire dans son <STRONG>propos</STRONG>  
que les sciences littéraires et linguistiques appellent <STRONG>les énoncés et le discours</STRONG>. 
Mais parce que la question du contenu du texte apparaît dans un horizon 
informatique, la question paraît simple, du moins à première vue. La lecture d'un 
texte semble tellement transparente à l'être humain qu'on en vient à penser que 
l'ordinateur peut aisément faire la même chose. Il s'agit évidemment d'une 
illusion.</P>

<P>Un texte n'est pas quelque chose que l'on parcourt d'un seul trait. Pour le 
lire, il faut traverser différents niveaux et structures. Par exemple, il faut 
identifier, au-delà de la segmentation en pages, sa structure éditoriale composée 
du titre et de sous-titres, de chapitres, de sections, etc. Le texte n'est 
compréhensible que si les normes de la langue sont respectées, si ses phrases sont 
signifiantes, si ses paragraphes sont bien campés, etc. Il faut être en mesure de 
suivre l'articulation de ses propositions, de son argumentation, de sa 
démonstration, de sa narration, etc. Bref, le contenu d'un texte touche à plusieurs 
niveaux d'organisation qui vont de la structure éditoriale à la langue et au discours 
qui y est exprimé.</P>

<P>Un système de traitement électronique de l'information textuelle devra 
toujours distinguer entre les opérations qui s'appliquent au texte comme objet 
physique et les opérations qui s'appliquent à sa nature sémio-cognitive. Les 
premières permettront la manipulation du texte en tant qu'objet physique, les 
secondes permettront sa gestion et son analyse. Si on ne distingue pas ces deux 
dimensions, on confondra les questions du traitement matériel du texte et celles de 
l'analyse du texte. Or, il faut maintenir une différence radicale entre ces deux 
dimensions. En effet, si toute analyse de texte nécessite une manipulation 
matérielle, l'inverse n'est pas vrai. Les deux types d'opérations se complètent mais 
ne sont pas identiques.</P>

<P>Dans l'étude qui suivra nous tenterons de préciser davantage la nature des 
opérations sémio-cognitives impliquées dans le traitement électronique de la 
documentation textuelle. Nous étudierons la complexité de la tâche en jeu - la 
gestion et l'analyse des textes par ordinateur - et proposerons un modèle 
fonctionnel du flux de traitement. Enfin, nous étudierons les solutions logicielles 
existantes pour réaliser ces tâches.</P>
</DIV4>
</DIV3>
</DIV2>

<DIV2>
<HR><BR>
<H2>2. Nature de la problématique</H2>
<P>Il arrive souvent que la problématique du traitement électronique de la 
documentation textuelle soit présentée uniquement sous l'angle de la grande masse 
de documents à stocker et à repérer. Or, il faut bien voir qu'il s'agit là d'une 
question parmi plusieurs autres. Une étude approfondie des tâches reliées au 
traitement de la documentation textuelle révèle que la gestion et l'analyse de texte 
sont confrontées à deux grands types de problèmes. Un premier type vient de la 
complexité de la documentation à traiter, alors que le second est inhérent au 
processus cognitif de l'accès au contenu de l'information textuelle.</P>

<DIV3>
<BR>
<H3>2.1 La complexité de la documentation textuelle</H3>
<P>Le premier problème auquel est confronté tout système de gestion et 
d'analyse de texte par ordinateur est celui de la complexité de la documentation 
textuelle. D'ailleurs, la littérature a régulièrement mis en évidence plusieurs 
dimensions de cette complexité. Bertrand-Gastaldy (<CLINK LINKEND="BG90">1990</CLINK>) pour sa part, retient les six dimensions suivantes :</P>

<OL>
<LI>La première dimension, et la plus évidente, est son <STRONG>volume</STRONG>. On mesure 
maintenant au kilomètre et même au poids le volume de la documentation 
textuelle à traiter. Des statistiques crédibles montrent que les entreprises, comme 
l'administration française, génèrent annuellement quelque trois à quatre cents 
milliards de pages! On dit que la production d'un Boeing nécessite l'équivalent de 
son poids en documents nécessaires à son entretien. Un utilisateur, individuel ou 
collectif, n'est souvent confronté qu'à une fraction de ce volume, mais celui-ci 
demeure imposant.

<LI>La seconde dimension relève de la <STRONG>diversité</STRONG> des types de documents et ce, 
même au sein d'une seule organisation. Se côtoient souvent pour un même 
domaine des textes légaux, administratifs, des décrets, des procès-verbaux, de la 
correspondance, des manuels techniques, de la documentation afférente, etc.

<LI>La troisième dimension touche le caractère <STRONG>dynamique</STRONG> du texte. Tous les 
documents n'ont pas le même cycle de vie. Certains sont stables, presque éternels 
(une constitution) alors que d'autres ne durent que le temps de la communication 
(les mémos). Enfin, certains documents sont en constante évolution; ils peuvent 
être modifiés quotidiennement.

<LI>Une quatrième dimension, corollaire aux précédentes, est 
l'<STRONG>interdépendance</STRONG> des types de documents. En effet, non seulement les documents 
sont divers, mais un grand nombre d'entre eux sont interreliés. Ainsi, par exemple, 
les griefs découlent d'un texte de convention collective.

<LI>Une cinquième dimension résulte du processus de la production textuelle 
elle-même. S'il arrive quelquefois qu'un texte soit produit d'un bout à l'autre par 
une seule personne, il est très souvent le résultat d'un <STRONG>travail collectif</STRONG>. Par 
exemple, le spécialiste, le technicien, le gestionnaire, l'utilisateur éventuel, etc. 
participent à l'écriture d'un manuel de référence pour un nouveau système. Les 
uns le rédigent alors que les autres l'annotent, le commentent, le corrigent, le 
révisent, le traduisent, etc. Une telle dynamique de production entraîne 
évidemment de nouveaux besoins en termes d'homogénéité de vocabulaire et de 
style, de validation du contenu, etc.

<LI>Enfin, la dernière dimension de la complexité des documents textuels 
concerne leur nature potentiellement composite. Non seulement le corpus peut-il 
contenir du texte, mais, de plus en plus, il en vient à marier le langage naturel à 
d'autres formes sémiotiques. On trouvera ainsi à côté de données linguistiques, 
des données numériques, des images fixes, des graphiques et des plans, et même 
des images dynamiques (vidéo) ou encore du son. Le corpus devient alors <STRONG>multi-
sémiotique</STRONG> ou multi-modal.
</OL>

<P>Bref, les données à traiter sont complexes. <STRONG>Elles sont souvent 
volumineuses, hétérogènes, dynamiques, interdépendantes, collectivement 
produites et multimodales.</STRONG> Les systèmes informatiques qui sont confrontés à ce 
type de corpus ne peuvent laisser de côté cette complexité car celle-ci est 
inhérente à la nature même des documents. Aussi, les systèmes de gestion et 
d'analyse des documents devraient-ils, entre autres, être en mesure :</P>
<UL>
<LI>de  traiter de grandes quantités de documents, tant textuels que 
multisémiotiques; 
<LI>d'offrir des stratégies différenciées d'analyse adaptées à la diversité des 
documents; 
<LI>de permettre une mise à jour en temps réel et une gestion du cycle de 
production; 
<LI>de supporter des liens intertextuels, hypermédia et multimodaux;
<LI>d'assister la rédaction et la validation du contenu;
<LI>de contrôler la diffusion et la confidentialité;
<LI>d'offrir une interface conviviale permettant un accès ergonomique.
</UL>

<P>Bref, les systèmes doivent être polyvalents et souples; ils doivent mettre 
les utilisateurs en relation directe avec la complexité même du corpus textuel, au 
moyen d'une interface commune et conviviale (<CLINK LINKEND="Belk">Belkin <EM>et al.</EM>, 1991</CLINK>). Un système 
trop spécialisé dont l'application serait restreinte à certains types de documents et 
qui n'effectuerait qu'un nombre réduit de fonctions sera peut-être 
informatiquement efficace, mais il deviendra vite inadéquat et source de 
frustration pour un utilisateur. Il sera vite incapable de soutenir un cheminement 
<STRONG>de gestion et d'analyse</STRONG> de la documentation telle qu'elle se présente en réalité.</P>
</DIV3>

<DIV3>
<BR>
<H3>2.2 La complexité du processus cognitif d'accès à l'information 
textuelle</H3>
<P>Non seulement un système de traitement électronique des textes doit-il 
s'ajuster à la nature complexe du corpus textuel, mais il est aussi confronté à la 
complexité du processus d'accès à l'information textuelle. En effet, le but ultime 
d'un traitement électronique de textes est de permettre à un utilisateur d'extraire 
du corpus de l'information pertinente. Pour ce faire, les textes doivent être lus et 
interprétés. Il ne faut jamais oublier que ce n'est que par métonymie que l'on dit 
que l'ordinateur traite l'information textuelle. Seul l'humain, en dernière instance, 
peut lire et interpréter un texte. Ce processus est d'ordre cognitif et présente des 
caractéristiques propres.</P>

<P>La première caractéristique de ce processus est que de la part du lecteur il 
s'agit toujours d'un acte privé. Les théories classiques sur le processus cognitif de 
l'accès au contenu d'un texte ont toujours soutenu que cette activité dépend 
toujours des objectifs et des projets que se donne le lecteur:</P>
<BLOCKQUOTE><P>&#171; Quiconque veut comprendre un texte a toujours un projet. Dès qu'il se 
dessine un premier sens dans le texte, l'interprète anticipe un sens pour le 
tout. À son tour, ce premier sens ne se dessine que parce qu'on lit déjà le 
texte, guidé par l'attente d'un sens déterminé. C'est dans l'élaboration d'un 
tel projet anticipant, constamment révisé, il est vrai, sur la base de ce qui 
ressort de la pénétration ultérieure dans le sens du texte, que consiste la 
compréhension de ce qui s'offre à lire [...]. Ce processus est donc le 
renouvellement incessant du projet qui entretient le mouvement de la 
compréhension et de l'interprétation. &#187; (<CLINK LINKEND="Gad">Gadamer, 1976</CLINK>: 196)</P></BLOCKQUOTE>

<P>Autrement dit, il faut toujours situer l'accès au contenu d'un texte ou ce 
que traditionnellement on appelle l'<STRONG>interprétation</STRONG> dans un horizon d'action. C'est 
le projet qui permet l'avènement ultime du sens du texte.</P>

<P>Cela signifie, en conséquence, que la lecture variera presque 
nécessairement d'une personne à une autre, d'un moment à un autre. C'est en ce 
sens qu'on dira qu'elle est un <STRONG>acte privé</STRONG>. Un avocat ne  &#171;  lira &#187; pas un texte comme 
le ferait un administrateur parce que chacun possède son propre projet de lecture. 
Il s'ensuit que même si un texte se présente dans une langue spécifique, par 
exemple, le français, et même si l'ensemble des expressions linguistiques qui le 
constituent sont relativement stables et susceptibles d'être partagées socialement, 
son contenu présentera toujours une part d'indétermination:</P>
<BLOCKQUOTE><P>&#171; Le texte contient une composante d'indétermination. Ce n'est pas un 
défaut, mais bien une condition fondamentale de la communication du 
texte; elle permet la participation du lecteur à l'intention du texte. &#187; (<CLINK LINKEND="Iser">Iser, 
1985</CLINK>: 15).</P></BLOCKQUOTE>

<P>La deuxième caractéristique de ce processus est qu'il est <STRONG>social</STRONG>. L'accès au 
contenu d'un texte est non seulement marqué par la subjectivité d'un lecteur, il 
l'est aussi par le milieu social dans lequel cette lecture s'effectue et pour lequel un 
texte sert de médium de communication.</P>

<P>La recherche contemporaine dans le 
domaine de l'analyse du discours et des textes a amplement montré que le texte se 
construit en regard du tissu social dans lequel il s'insère. Un texte n'est jamais 
isolé des autres discours auquel il renvoie (<CLINK LINKEND="Fouc">Foucault, 1969</CLINK>). Il sert à consolider les 
normes d'action (<CLINK LINKEND="Bren">Brenner, 1990</CLINK>), à étayer le savoir et à consolider la mémoire 
(<CLINK LINKEND="Kin">Kinstch, 1977</CLINK>). Dans une organisation sociale, un texte remplit donc plusieurs 
fonctions importantes, non seulement pour assurer la transmission de 
l'information mais aussi pour consolider l'existence même de l'organisation.</P>

<P>Il s'ensuit alors que le texte subira un ensemble extrêmement diversifié de 
parcours interprétatifs. La  &#171; lecture &#187; des textes changera en fonction de l'évolution 
des besoins et de l'état des connaissances de l'organisation sociale:</P>
<BLOCKQUOTE><P>&#171; [...] different persons, in different occupations may possess different 
world views and make different demands upon sources of knowledge as a 
consequence. For example, some occupations may require no more than 
'recipe knowlege' for their effective performance; others, falling short of a 
need for 'expert' knowledge, may demand more in the nature of 'reasoned 
opinion' and, hence, a greater need for access to sources of information. &#187; 
(<CLINK LINKEND="Wil">Wilson, 1984</CLINK>: 200)</P></BLOCKQUOTE>

<P>Ces deux dimensions de l'accès au contenu du texte, à savoir son caractère 
privé et en même temps social, nous amènent à une conclusion théorique 
importante: il est impossible de construire un système de lecture et d'analyse 
automatiques des textes.</P>

<P>Certaines thèses issues des recherches en intelligence 
artificielle (<CLINK LINKEND="SchaAb">Schank et Abelson, 1977</CLINK>), de la linguistique computationnelle 
(<CLINK LINKEND="Pech">Pêcheux, 1972</CLINK>) et même du repérage de l'information (<CLINK LINKEND="SMcG">Salton et Mc Gill, 1983</CLINK>) 
ont donné à croire qu'il était possible de construire des systèmes d'analyse du 
contenu d'un texte qui soient automatiques <FN><P>Des arguments semblables ont été invoqués dans la critique des projets de traduction automatique. On parle plutôt maintenant de projets en traduction assistée 
par ordinateur (TAO).</P></FN>.</P>

<P>Selon nous,  &#171; la lecture automatique 
du discours ou du texte &#187; sont, dans cette perspective, des contradictions dans les 
termes. Lire et comprendre un texte est idiosyncratique à l'activité d'intégration et 
d'adaptation des <STRONG>humains</STRONG> à leur environnement. Autrement dit, la lecture et 
l'interprétation de textes sont des activités cognitives humaines qui, à ce titre, ne 
peuvent être automatisées.</P>

<P>Cependant, si on ne peut construire des systèmes qui simulent la lecture et 
la compréhension humaines, il ne s'ensuit pas que l'ordinateur ne peut en rien être 
utile dans ce processus.</P>

<P>Au contraire, on peut penser outiller les utilisateurs pour 
faciliter ce processus, plutôt que de les en déposséder au profit d'un automate qui 
ne pourra de toute façon que construire des représentations rudimentaires, 
stéréotypées et insensibles au projet de l'utilisateur. Autrement dit, s'il est 
impossible de doter un ordinateur de toutes les connaissances et habiletés 
nécessaires pour  &#171; comprendre &#187; un texte, il est cependant réaliste de concevoir des 
outils informatiques capables d'assister l'utilisateur dans la transformation des 
données textuelles en éléments structurés, significatifs et porteurs de 
connaissances.</P>

<P>Il sera alors plus aisé pour ce dernier de manipuler, de classifier, 
de relier et d'interpréter de tels éléments. Pour ce faire, il faut donc 
abandonner la voie des systèmes informatiques 
qui se donnent comme des robots-lecteurs au profit de celle de systèmes 
 &#171; adjuvants &#187; dans l'activité cognitive de la lecture humaine (<CLINK LINKEND="Meun">Meunier, 1992</CLINK>) qui 
laissent la maîtrise ultime du traitement de l'information entre les mains de 
l'expert humain. Ce n'est que dans cette perspective qu'on peut garantir une 
amélioration de la qualité du travail de gestion et d'analyse, tant en termes de 
volume, de rigueur et de systématicité (<CLINK LINKEND="PaqBeau">Paquin et Beauchemin, 1988</CLINK>).</P>

<P>Par conséquent, un système informatique de gestion et d'analyse des textes 
ne peut être clos et autonome; il doit au contraire être ouvert et offrir une grande 
polyvalence de fonctions. Un peu à la façon d'une boîte à outils, le système doit 
mettre à la disposition de l'utilisateur - lecteur et interprète - un éventail de 
modules et de fonctions avec lesquelles il pourra gérer et analyser son corpus. 
Seul l'humain doit ultimement contrôler ce processus de gestion et d'analyse. Sur 
le plan de la gestion, des modules devront être en mesure d'assister l'utilisateur 
dans tout le processus de production, de transmission et de classification de 
l'information, c'est-à-dire sa chaîne de traitement. Et sur le plan de l'analyse, des 
modules devront lui permettre de pénétrer le contenu du texte c'est-à-dire de 
participer à la dynamique de sa construction, de sa description et d'en extraire des 
connaissances.</P>
</DIV3>
</DIV2>

<DIV2>
<HR><BR>
<H2>3. Une approche sensible au contenu</H2>

<DIV3>
<H3>3.1 Les opérations dans les systèmes de traitement électronique de 
l'information</H3>
	
<P>La conception de la problématique du traitement électronique des textes 
que nous avons brièvement esquissée nous oblige donc à mieux préciser ce que 
nous entendons par la gestion et l'analyse des textes. Pour expliciter ces concepts, 
nous proposerons un modèle comportant les principales tâches ou fonctions 
opératoires qui sont en jeu dans une chaîne de traitement, de gestion et d'analyse 
de textes par ordinateur. Il nous faut cependant faire quelques remarques 
préliminaires.</P>

<P>Premièrement, il faut constater que les systèmes traditionnels de traitement 
électronique des documents mettent habituellement à la disposition d'un utilisateur 
un vaste échantillon d'opérations à effectuer sur le corpus. Voici, à titre 
d'exemple, une liste non exhaustive de celles-ci: <STRONG>création, sélection, acquisition, 
description, indexation, évaluation, synthèse, stockage, organisation, 
conservation, repérage,  diffusion, mise à jour, etc.</STRONG></P>

<P>Les modèles provenant des sciences documentaires et de l'information 
préciseraient assurément davantage cette liste. On pourrait même y ajouter des 
opérations plus simples comme <STRONG>paginer, souligner, ordonner, segmenter</STRONG>, etc. 
Notre souci n'est pas ici d'en faire la liste exhaustive mais d'en comprendre la 
nature plus formelle.</P>

<P>Sauf pour certaines, comme <STRONG>le stockage, la diffusion, la conservation</STRONG>, il 
faut voir que ces opérations ne portent pas sur la matérialité de l'information, mais 
sur son contenu. En effet, malgré les apparences, ces opérations sont d'ordre 
sémio-cognitives c'est-à-dire qu'elles participent à l'interprétation par un humain 
du donné informationnel. Même une opération aussi simple que de <STRONG>paginer un 
document</STRONG> est une opération cognitive complexe. Que ce soit au moment de la 
création de l'édition ou de l'utilisation, il s'agit d'une interprétation appliquée à une 
réalité physique (un segment de signaux). L'association d'un nombre et d'un ordre 
aux segments est toujours assujettie à un projet de manipulation humaine. Paginer 
est une opération descriptive d'ordonnancement qui est certes plus simple que 
celle de reconnaître une catégorie syntaxique comme le syntagme nominal, mais 
qui n'en demeure pas moins une opération cognitive de haut niveau.</P>

<P>Deuxièmement, il faut constater que cette liste d'opérations a été établie 
surtout en fonction de systèmes de gestion de l'information pour des documents de 
type notices bibliographiques plutôt que pour des documents de type plein texte. 
En effet, ces opérations ont été surtout utilisées dans des approches traditionnelles 
de gestion documentaire pour des documents bibliographiques ou des dossiers 
d'archives et ce à des fins de repérage d'information ("information retrieval") dont 
les performances sont habituellement évaluées en termes de <STRONG>taux de rappel</STRONG> et de 
<STRONG>taux de précision</STRONG>.</P>

<P>Si, dans une perspective de <STRONG>repérage d'information</STRONG>, des stratégies 
numériques non sensibles aux dimensions linguistiques ou discursives des 
documents se sont avérées efficaces, il faut voir que l'<STRONG>accès au contenu</STRONG> d'un texte 
ne peut aucunement se réduire à ce type de stratégies. Repérer un document n'est 
qu'une activité - importante dans un contexte de recherche documentaire - parmi 
plusieurs autres qu'un humain peut vouloir effectuer sur un texte. On imagine 
l'absurde d'une situation où l'apprentissage de l'usage d'un texte n'aurait pour seul 
but que de montrer comment repérer de l'information. Lire Shakespeare 
consisterait alors à trouver où la phase  &#171; to be or not to be &#187; est imprimée!</P>

<P>Ces constatations entraînent un ajustement de la précédente liste 
d'opérations. En effet, des difficultés surgissent lorsqu'on veut étendre leur 
domaine d'application au texte intégral et ce à des fins d'analyse. Rappelons que 
l'analyse des documents textuels vise leur contenu et, pour ce faire, doit tenir 
compte de leurs aspects linguistiques, discursifs, conceptuels, argumentatifs, etc. 
C'est ainsi que certaines opérations ne s'appliqueront pas aussi facilement au plein 
texte, alors que dans certains cas d'autres opérations se transformeront en de 
véritables stratégies d'analyse. Voici, à titre d'exemple quelques-unes de ces 
opérations:</P>

<PRE>
<STRONG>Liste partielle des opérations de traitement/gestion/analyse<BR> d'un texte</STRONG>
<DL>
	<DT>Ordonnancement
		<DD>Par ex.: <EM>établir une pagination.</EM>
	<DT>Segmentation
		<DD>Par ex.: <EM>diviser le texte en chapitres.</EM>
	<DT>Sélection
		<DD>Par ex.: <EM>le choix de textes selon divers critères (coût, 
		durée de vie, pertinence technique).</EM>
	<DT>Catégorisation éditique
		<DD>Par ex.: <EM>les divers éléments d'un texte comme le titre, 
		les sous-titres, le références citées selon des normes 
		internationales (comme SGML).</EM>
	<DT>Classification
		<DD>Par ex.: <EM>regroupement de textes ou de segments selon 
		différents domaines de la connaissance dans une base 
		de données.</EM>
	<DT>Liaison
		<DD>Par ex.: <EM>relier des parties de textes entre elles et les 
		textes à d'autres textes (liens hypertextuels).</EM>
	<DT>Indexation 
		<DD>Par ex.: <EM>assigner des mots-clés et fabriquer un index 
		pour accéder aux textes ou aux passages de textes.</EM>
	<DT>Contrôle du vocabulaire 
		<DD>Par ex.: <EM>identifier, contrôler et structurer le vocabulaire 
		technique d'un domaine, (aéronautique, biologie, éducation).</EM>
	<DT>Condensation pour la diffusion
		<DD>Par ex.: <EM>faire le résumé d'un article de périodique.</EM>
	<DT>Identification des synonymes ou paraphrases
		<DD>Par ex.: <EM>recherche d'expressions similaires dans des 
		documents, tels pollution sonore et problème de bruit.</EM>
	<DT>Étude de la détermination d'un terme générique
		<DD>Par ex.: <EM>congé sans solde, congé sans salaire, congé 
		de maternité.</EM>
	<DT>Description des relations conceptuelles d'un terme avec d'autres
		<DD>Par ex.: <EM>ascenseur, monte-charge, élévateur.</EM>
	<DT>Lisibilité
		<DD>Par ex.: <EM>indice de la complexité lexicale, syntaxique, etc. 
		des textes produits par une entreprise.</EM>
	<DT>Construction d'une thématique conceptuelle
		<DD>Par ex.: <EM>interprétation légale de concepts aux frontières 
		floues, tels: meurtre au premier degré et contrat de bonne foi.</EM>
	<DT>Comparaison de la thématique des propositions
		<DD>Par ex.: <EM>les normes dans les conventions collectives.</EM>
	<DT>Repérage des arguments pour ou contre une décision
		<DD>Par ex.: <EM>dans les transcriptions d'audience publique sur 
		l'établissement d'un site d'enfouissement de déchets 
		dangereux.</EM>
	<DT>Regroupement des arguments pour une décision stratégique
		<DD>Par ex.: <EM>investir ou ne pas investir dans l'amiante.</EM>
	<DT>Regroupement de réponses dans une enquête à questions ouvertes
		<DD>Par ex.: <EM>arguments pour ou contre l'euthanasie.</EM>
	<DT>Identification des défendeurs d'une idée, d'un mouvement, etc.
		<DD>Par ex.: <EM>qui soutient le développement d'un barrage 
                        dans un territoire amérindien?</EM>
<!--	<DT>Description de l'évolution d'une argumentation pour ou contre une politique
		<DD>Par ex.: <EM>les positions du gouvernement relativement à 
		l'avortement depuis 1940.</EM>
	<DT>Mise à jour et comparaison des politiques et des règlements d'une institution
		<DD>Par ex.: <EM>une politique d'hypothèque dans une banque.</EM> -->
</DL></PRE>

<P>Comme on le voit, les opérations que l'on peut effectuer sur un texte sont 
nombreuses et diversifiées. Certaines recoupent les opérations que l'on peut faire 
sur une description bibliographique, mais la majorité cherchent véritablement à 
atteindre le contenu informationnel. En ce sens, elles sont toutes d'ordre sémio-
cognitives c'est-à-dire qu'elles participent aux activités de lecture et 
d'interprétation du matériau textuel. Certaines sont plus orientées vers la gestion 
alors que d'autres sont orientées vers de l'analyse.</P>
</DIV3>

<DIV3>
<BR>
<H3>3.2 La chaîne de traitement dans la gestion et l'analyse de texte par 
ordinateur</H3>
<P>Nous avons dit que les opérations énumérées ci-haut portent sur diverses 
dimensions de la gestion et de l'analyse textuelle. Cependant, présentées sous la 
forme d'une liste, on ne voit pas clairement le principe de leur distinction. Pour 
rendre ce point plus clair, on peut les regrouper dans une perpective de chaîne de 
traitement ("work flow"). Le terme chaîne de traitement recouvre ici l'ensemble 
des opérations de base, séquentielles et récursives, que l'on peut appliquer dans la 
gestion et l'analyse électroniques des textes. On distinguera alors les opérations 
qui sont liées à: a) la <STRONG>production</STRONG> du texte, b) sa <STRONG>description</STRONG>, c) l'<STRONG>extraction</STRONG> 
d'information et d) la <STRONG>représentation</STRONG>  des connaissances.
Chacune des étapes se décompose elle-même en plusieurs autres 
opérations. Nous ne pouvons ici les décrire de manière exhaustive, mais nous 
pouvons en faire une présentation schématique.</P>

<DIV4>
<H4>a) Les opérations liées à la production du texte</H4>
<P>L'entrée des textes dans l'ordinateur ne s'effectue jamais directement; 
plusieurs opérations parallèles et séquentielles sont toujours requises. Un système 
informatique intégré devra offrir de l'assistance pour certaines d'entre elles.</P>

<P>Le cas le plus simple de la production d'un texte est celui où l'on a 
directement recours à un système classique de traitement de texte, comme 
MSWord, Word Perfect, etc. L'écrivain, unique ou collectif, pourra tirer un grand 
bénéfice d'une interaction avec des dictionnaires électroniques, etc., avec des 
correcteurs, avec un gestionnaire de références bibliographiques ou encore avec 
des versions antérieures du texte, des traductions ou d'autres textes. Par ailleurs, 
dans certaines organisations, l'écriture sera collective et passera par plusieurs 
instances pour la révision, la validation, l'approbation, la mise en page, etc. La 
progression des documents dans un tel circuit pourrait avec avantage être 
supportée par une base de données. De plus, la génération même du texte peut être 
assistée (<CLINK LINKEND="Rada">Rada, 1991</CLINK>).</P>

<P>D'autres textes proviennent d'archives. Si les textes sont sur support 
papier, il faudra effectuer une transformation du texte original en une 
représentation informatique. Si leur état le permet, ils peuvent être saisis par 
balayage optique et les images obtenues transformées en caractères ASCII. Si les 
textes sont sur support magnétique, il faut s'assurer de la conformité de leur 
représentation informatique avec les formats électroniques contemporains. Le cas 
échéant, les formats devront être interprétés et convertis de façon à n'encourir 
aucune perte d'information.</P>

<P>Par la suite, dans les deux cas, il faudra réviser le 
résultat obtenu pour s'assurer de la conformité avec l'original. Cette révision 
pourra être effectuée avec profit à l'aide d'un correcteur orthographique. 
Toutes ces opérations ne sont que des portes d'entrée pour accéder au 
contenu des textes mais il ne l'atteignent pas encore.</P>
</DIV4>

<DIV4>
<H4>b) Les opérations descriptives sur un texte</H4>
<P>Le contenu d'un texte n'est pas transparent pour un ordinateur. Et les 
multiples travaux de l'intelligence artificielle nous ont démontré que tout système 
intelligent de traitement de l'information devait disposer au préalable des 
 &#171; connaissances &#187; qui servent de point de départ pour les analyses. Cette hypothèse 
rejoint la longue tradition philologique qui dit que la lecture analytique d'un texte 
est une opération de commentaire, c'est-à-dire d'ajout descriptif et explicatif.</P> 

<P>Dans le cas d'un traitement informatique, ceci signifiera qu'il faut lui ajouter des 
informations qui rendent explicites les multiples niveaux de sa structure 
signifiante. Or ces niveaux sont multiples (<CLINK LINKEND="Meun87">Meunier <EM>et al.</EM>, 1987</CLINK>; <CLINK LINKEND="Duch">Duchastel 1991</CLINK>: 
601). Cet ajout d'information touchera les structures éditique, linguistique, 
discursive, argumentative, etc. Autrement dit, pour qu'une suite de signaux 
électroniques soit considérée comme un phénomène textuel, il faut que des 
analyseurs aient ajouté au texte des informations décrivant les différents niveaux 
de sa structure sémiotique.</P>

<P>Par exemple, pour qu'une suite de caractères comme <EM>Je pense donc je suis</EM> 
soit considérée comme une unité textuelle éventuellement analysable, il faut 
préciser plusieurs choses. On doit par exemple indiquer son statut éditique c'est-à-
dire décider si elle appartient à un titre ou au corps d'un paragraphe, etc. : <EM>Je 
pense donc je suis</EM> (titre). On peut aussi identifier ses constituants syntaxiques : <EM>je</EM> (pronom) <EM>pense</EM> (verbe) <EM>donc</EM> (conjonction) <EM>je</EM> (pronom) <EM>suis</EM> (verbe). On peut 
vouloir préciser la signification de certaines expressions : <EM>Je</EM> (personne) <EM>pense</EM> (action) <EM>donc je</EM> (personne) <EM>suis</EM> (état). Dans certains cas on pourra ajouter des 
informations sur le locuteur, l'allocutaire, la situation, le contexte, le temps, le 
statut illocutoire, etc.</P>

<P>Bref, le texte doit être soumis à des analyseurs qui en décrivent les 
constituants sémiotiques. Il est important de noter que le texte qui est alors l'objet 
de l'analyse n'est plus le texte de départ mais le texte amplifié de ces multiples 
niveaux de description. Ces descriptions qualifiant les unités d'information d'un 
document textuel, obtenues manuellement ou par des analyseurs spécialisés, sont 
ajoutées au texte lui-même par le biais d'une catégorisation. Celle-ci consiste en 
l'ajout d'étiquettes qui décrivent le statut sémiotique (éditique, linguistique, 
logique, etc.) des constituants du texte auxquels elles sont adjointes. En ce sens, il 
s'agit d'un mode d'opérationnalisation formel de l'une des étapes du processus 
d'interprétation du texte.</P>

<P>Aucun système informatique n'est actuellement en mesure d'interpeller 
des modules qui permettent de réaliser une catégorisation automatique, complète 
et fiable sur tous les niveaux en jeu. Aussi, devant l'étroitesse de la couverture des 
analyseurs disponibles et surtout devant la complexité des descriptions à effectuer, 
l'opération de catégorisation est souvent effectuée partiellement ou entièrement à 
la main. Mais comme la qualité d'une analyse dépend de cette catégorisation, il 
faut malgré tout tenter d'y recourir le plus systématiquement possible. 
Un bon système informatique devra alors être un adjuvant souple pour la 
réalisation de ces opérations descriptives. La transparence et l'interactivité seront 
plus importantes que le niveau d'automatisation.</P>
</DIV4>

<DIV4>
<H4>c) Les opérations liées à l'extraction de l'information</H4>
<P>Un texte catégorisé n'est intéressant que dans la mesure où il permet 
l'extraction d'information. Tout ce qui est dit ou énoncé dans un texte n'est pas 
pertinent en soi. Il ne le devient, avons-nous dit, que relativement à un projet de 
lecture.</P> 

<P>Un même texte peut être utilisé par de nombreuses personnes et toujours 
être vu sous un angle nouveau. Dans une entreprise, les conventions collectives 
seront lues différemment par un avocat, un représentant syndical, un directeur du 
personnel, un arbitre, etc. Pour certains analystes, la dimension lexicale d'un texte peut constituer 
son centre de son intérêt. Pour un autre, on veut rejoindre les concepts alors que 
pour un troisième, le repérage d'information peut être l'aspect important. 
L'utilisateur focalise toujours son attention selon une perspective particulière. Le 
même texte permettra donc d'extraire autant d'informations différentes que de 
projets de lecture différents pourront être formulés.</P>

<P>En termes métaphoriques, nous pourrions comparer le processus 
d'extraction de l'information à une opération de production de précipités qui 
permet sur des composés chimiques d'isoler certains constituants. Dans le cas du 
texte, cette extraction peut être effectuée par des procédures 
complexes appelées &#171; patrons de fouille &#187; qui sont formulés tant à partir des mots 
du texte original qu'à partir des catégories ajoutées lors de la description. Les 
résultats obtenus peuvent être présentés sous différentes formes. Certains peuvent 
prendre une forme structurale, telles une liste, un lexique, une concordance, un 
index, etc. D'autres peuvent prendre une allure numérique ou statistique et être 
représentés sous forme de tableaux, d'histogrammes, de courbe, etc.</P>
</DIV4>

<DIV4>
<H4>d) Les opérations liées à la configuration des connaissances</H4>
<P>L'extraction de l'information d'un texte est souvent complexe et livre des 
résultats dont la manipulation n'est pas toujours facile. Un bon analyste de texte 
tentera de reconfigurer les informations obtenues de manière à les rendre le plus 
lisibles et compréhensibles possible. Il procédera habituellement à une 
configuration quelconque de ces résultats. Il constituera ainsi des réseaux 
lexicaux, des réseaux sémantiques, des hiérarchies de concepts, des thésaurus, des 
suites d'arguments, etc. Si une exploitation informatique est prévue, les résultats 
seront configurés puis déposés dans une plate-forme particulière. Ainsi, par 
exemple, si le résultat de l'extraction est un thésaurus a posteriori, il peut être 
versé dans une base de données plein texte pour l'interrogation du corpus. 
L'information extraite, lorsque configurée par l'analyse, prend le statut de 
 &#171; connaissance &#187;. Pour continuer sur le mode métaphorique, on déversera le résultat des 
multiples analyses dans des moules adaptés à l'assimilation et la compréhension 
efficace.</P>
 
<P>Ces quatre grands types d'opérations se retrouvent dans tout processus de 
traitement de textes par ordinateur qui veut atteindre le contenu. Qui plus est, on 
peut aussi imaginer une méta-fonction qui gère l'ensemble de ces opérations et 
soutient l'utilisateur dans les dédales de sa chaîne de traitement. On créera ainsi un 
genre de station de travail ou d'atelier cognitif de traitement analytique des textes. 
C'est en cela que nous dirons qu'il s'agit de systèmes informatiques de gestion et 
d'analyse intelligemment assistées de textes.</P>
</DIV4>
</DIV3>
</DIV2>

<DIV2>
<HR><BR>
<H2>4. Les solutions informatiques actuelles <FN><P>Cette section reprend en partie l'argumentation exposée dans le texte suivant: S. Bertrand-Gastaldy, J.-G. Meunier et L.-C. Paquin,  &#171; De la nécessité de repenser la gestion et l'analyse de l'information 
textuelle dans les organisations &#187;, <EM>ICO93; Actes du Colloque international en informatique 
cognitive des organisations/ International Conference on Cognitive and Computer Sciences 
for Organizations, 4-7 mai 1993, Montréal</EM>: 229-237.</P></FN></H2> 
<P>On observe actuellement sur le marché, un foisonnement de systèmes et 
programmes consacrés au traitement électronique des documents. Ceux-ci 
peuvent être regroupés autour de quatre grands types : des logiciels 
documentaires, des logiciels de gestion de documents saisis en mode image, des 
logiciels de repérage de plein texte et enfin des logiciels d'analyse de texte. Nous 
allons brièvement passer chacun de ces types en revue en nous attardant à la façon 
dont ils attaquent la problématique que nous avons esquissée plus haut.</P>

<DIV3>
<BR>
<H3>4.1 Les logiciels documentaires spécialisés</H3>
<P>Un premier type de logiciels a été conçu pour le repérage de documents 
d'archives ou de bibliothèques via l'interrogation de bases de données 
bibliographiques. Ces systèmes assurent généralement des fonctions de gestion 
des collections: l'acquisition, le classement, le prêt, la conservation, la 
préservation de la confidentialité, etc. La plupart de ces logiciels ont été 
développés il y a plusieurs années pour remplir des besoins bien spécifiques sans 
souci d'intégration des différents services d'information. À cette époque, pas si 
lointaine, l'accès au plein texte relevait encore de l'utopie (<CLINK LINKEND="Kar">Karivalo, 1989</CLINK>).</P>

<P>Sur le plan logiciel, la structure interne des données de chacun des 
systèmes empêche le partage de l'information; les stratégies d'interfaces sont 
variées et, la plupart du temps, cryptiques de sorte que la manipulation des 
systèmes requiert souvent une période d'entraînement longue et intensive. Sur le 
plan conceptuel, chacun de ces systèmes a déterminé sa propre grille d'analyse et 
ses propres catégories d'accès (<CLINK LINKEND="BG90">Bertrand-Gastaldy, 1990</CLINK>: 74). Tout ceci constitue 
un obstacle à la collecte exhaustive de renseignements. Or, la gestion 
d'information ne constitue pas la spécialisation des professionnels des 
organisations. Ces derniers ont un problème à résoudre, une décision à prendre, 
un dossier à évaluer, etc. Toutefois, les enjeux qui sont reliés à l'accomplissement 
de ces tâches exigent un accès rapide et précis à plusieurs types d'informations 
situées sur des systèmes différents et ce par la personne elle-même sans que celle-
ci ait préalablement subi un entraînement intensif.</P>
</DIV3>

<DIV3>
<BR>
<H3>4.2 Les logiciels de gestion des documents saisis en mode image</H3>
<P>Le succès des systèmes de gestion électronique des documents (GED) en 
mode image <FN><P>Des logiciels comme Desktop Document Manager, Inspire VisionQuest, Optix, etc. 
sur le marché nord-américain et Taurus en France. Ces logiciels sont aussi appelés DIP 
(Document Image Processing).</P></FN> s'explique par le fait qu'ils résolvent 
la plupart des problèmes liés à 
la manipulation du support papier, à la préservation de leur confidentialité et à 
leur mise à jour. Ils réunissent sur un même support les documents composites 
autrefois dispersés dans plusieurs systèmes de stockage. Tout en préservant la 
présentation visuelle des documents originaux, ces systèmes réduisent 
considérablement les coûts de stockage. Les coûts et les délais de manipulation 
connaissent également une diminution importante. De plus, l'ergonomie de la 
consultation ne change pas trop les habitudes par rapport au support papier. On 
peut agrandir ou rétrécir les documents sur l'écran, les faire pivoter, les envoyer à 
un télécopieur, etc. Enfin, il est souvent possible de leur ajouter des annotations 
ou même des messages vocaux (<CLINK LINKEND="BenP">Benmergui-Perez, 1989</CLINK>; <CLINK LINKEND="ChK">Chevreau et Kelly, 1989</CLINK>).</P>

<P>Cependant, ces logiciels automatisent surtout les tâches effectuées sur le 
document textuel en tant que porteur physique d'information. L'accès au contenu 
qui mobilise une grande partie du temps des professionnels dont il a été question 
plus haut pose les mêmes problèmes que lorsque l'information est sur support 
papier. Il faut soi-même fournir des mots-clés pour décrire le ou les thèmes 
principaux traités dans les documents et renoncer à repérer directement 
l'information spécifique selon de multiples points de vue. On voit cependant 
apparaître des logiciels de GED interfacés avec des systèmes de repérage en plein 
texte <FN><P>Des logiciels comme BRS, BasisPlus, MicroQuestel, etc.</P></FN> qui eux travaillent sur les textes codés en ASCII après reconnaissance optique des caractères (ROC).</P>
</DIV3>

<DIV3>
<BR>
<H3>4.3 Les logiciels de repérage en plein texte</H3>
<P>Aux États-Unis, le marché du repérage de l'information textuelle a presque 
atteint un stade de maturité, d'après Delphi Consulting Group (1992) qui a 
dénombré 107 000 sites où sont installés des logiciels. La croissance de ce marché 
est considérable si l'on en juge par l'analyse que ce groupe en a faite <FN><P>"Text retrieval was a $118+ million market in 1990. Both the PC and mini/mainframe 
markets are growing at an impressive rate. The PC market revenue is growing at a 45% CAGR. 
The mini/mainframe market revenue is growing at a 35% CAGR. The market is expected to reach the critical 300+ million mark in approximately 2-3 years". (<CLINK LINKEND="Delphi">Delphi Consulting Group, 1992</CLINK>:TR-12)</P></FN>. Conçus à l'origine d'après les logiciels de repérage des données bibliographiques, il ont 
évolué vers un niveau plus élevé d'interactivité, des capacités de sélectivité plus 
étendues et vers une convivialité plus grande. Dans certains cas, le repérage 
s'appuie sur des analyses statistiques et permet de réinjecter une réponse 
pertinente à titre de nouvelle question. Différents opérateurs sont fournis pour 
travailler sur les chaînes de caractères (masque, troncature, etc.) et sur leur 
position dans la phrase. Quelques logiciels offrent de plus des possibilités de 
navigation hypertextuelle : l'utilisateur peut alors, comme avec le support papier, 
s'appuyer sur l'organisation éditique des documents en sections, chapitres, 
paragraphes, illustrations, tableaux, etc. Mais, pour être exploitable 
électroniquement, cette organisation éditique doit avoir été préalablement décrite 
et cette description nécessite l'accès au contenu des documents.</P>

<P>Cependant, la plupart de ces logiciels de repérage en plein texte <FN><P>Des logiciels comme Book Manager, Basis +, Open TEXT, TOPICS, ConQuest, Elexir, Isys, Zyindex, etc., et plus près de nous : CEDROM, Édibase, Seconde, etc.</P></FN> n'offrent pas d'autres possibilités d'accès à l'information que les chaînes de caractères qui 
forment les mots du texte. Comme aucune catégorisation n'est supportée, la mise à 
disposition brute de très nombreux textes, à la limite, accroît les problèmes 
d'accès à l'information plus qu'elle ne les résidu. En effet, l'ambiguïté inhérente au 
langage naturel empêche la formulation de requêtes précises et un repérage 
vraiment efficace avec pour conséquence que les utilisateurs sont inondés de 
textes non pertinents. De plus, des phénomènes courants comme l'anaphore, 
l'ellipse, la paraphrase, etc. nuisent au repérage de tous les textes pertinents. La 
segmentation des textes en paragraphes et en phrases réduit l'abondance, mais ne 
constitue pas une solution suffisante aux problèmes de bruit et de silence.</P>

<P>Certes, il existe des logiciels qui tiennent davantage compte de la nature 
linguistique du matériau à traiter. Ils tentent de retrouver par delà les chaînes de 
caractères de véritables unités conceptuelles. Les meilleurs résultats s'arrêtent 
cependant à la reconnaissance de termes complexes susceptibles de dénoter des 
notions importantes dans le domaine de référence à condition que celles-ci soient 
 &#171; bien formées &#187; <FN><P>Des logiciels comme 
ALETH de la firme GSI-ERLI et SPIRIT de la compagnie SYSTEX.</P></FN>. Mais 
la possibilité d'explorer les textes dans une perspective autre que terminologique et 
de les analyser en fonction d'objectifs divers est 
quasiment absente. En dernière analyse, la plupart des logiciels constituent une 
 &#171; boîte noire &#187; qui a pour fonction unique de mettre les utilisateurs en relation avec 
les textes ou passages de textes contenant telle ou telle expression ou traitant de 
tel ou tel sujet.</P>
</DIV3>

<DIV3>
<BR>
<H3>4.4 Les logiciels d'analyse de texte</H3>
<P>Un dernier type de logiciel ou plutôt de plate-forme informatique 
commence à voir le jour, de sorte que le traitement électronique des documents 
textuels se modifie lentement. D'une part, les modalités classiques de 
l'organisation et du repérage de l'information sont de plus en plus ajustées en 
fonction de la diversité des données à consulter. D'autre part, des stratégies 
cherchent de plus en plus à atteindre le contenu même de l'information afin 
d'adapter les opérations aux tâches que les utilisateurs effectuent sur leur 
documentation textuelle. On voit ainsi apparaître des logiciels qui contribuent de 
plus en plus aux quatre phases du flux de traitement que nous avons présentées 
plus haut.</P>

<P>Par exemple, certains logiciels s'insèrent dans la <STRONG>phase de production</STRONG> des 
textes. Ils permettent l'interaction simultanée ou parallèle de plusieurs auteurs. 
Mais leurs fonctionnalités semblent relativement limitées; les cycles de 
consultation, de traduction, de révision, d'approbation, etc. ne sont pas couvertes. 
De même, la validation des éléments autres que le contenu est laissée pour 
compte : aucun automatisme ne permet de vérifier l'uniformité de la terminologie 
employée, la lisibilité en fonction du public visé, la conformité à une politique 
éditoriale. L'insertion de modules n'est pas prévue pour assister la création de 
thésaurus ou de bases de connaissances pourtant de plus en plus nécessaires dans 
les systèmes dits  &#171; intelligents &#187;, malgré l'intérêt qui émerge pour ce genre 
d'applications dans des publications récentes (<CLINK LINKEND="SchmE">Schmitz-Esser, 1990</CLINK>; <CLINK LINKEND="RIAO">RIAO 
Conference Proceedings, 1991</CLINK>). Les documentalistes, terminologues et 
cogniticiens sont contraints d'attendre <EM> &#171; que les outils informatiques d'analyse de 
contenu des textes soient à la portée de tous &#187;</EM> (<CLINK LINKEND="Ranj">Ranjard, 1991</CLINK>).</P>

<P>Quant à la <STRONG>phase de description</STRONG>, des analyseurs linguistiques robustes et 
dotés d'une grande couverture sont en cours de construction. Les uns touchent la 
catégorisation morphologique et grammaticale alors que d'autres s'attaquent à la 
sémantique lexicale. Des dictionnaires riches et complexes sont produits et des 
normes pour leur rédaction sont en cours d'élaboration; citons à cet effet le projet 
GENELEX. Malheureusement, la plupart des ces produits n'ont pas été élaborés 
dans la perspective d'une tâche d'analyse textuelle assistée par ordinateur. Un bon 
nombre de ces analyseurs ont vu le jour dans une perspective de traduction 
automatique. Ils sont souvent réalisés sur des plates-formes incompatibles et dotés 
de structures de données particulières. Dans leur forme actuelle, il est donc 
difficile de les interpeller au sein d'un flux intégré de traitements. On trouve 
encore moins de logiciels d'analyse de texte qui entrent en interaction avec des 
modules de description. Et même lorsqu'ils le font, on ne retrouve pas la 
description organisée de manière à ce qu'elle soit utilisable dans un processus 
d'analyse textuelle tel que nous l'avons décrit dans le flux de traitement.</P>

<P>La <STRONG>phase d'extraction</STRONG> a reçu cependant une plus grande attention. Elle s'est 
développée notamment dans les contextes de repérage d'information et dans le 
contexte des travaux d'analyse de texte effectués par les chercheurs en sciences 
humaines ou en linguistique. Les trois premières approches, exposées 
précédemment, n'ont malheureusement produit qu'une vision assez réductrice de 
l'analyse de texte: le repérage de passages en fonction d'une question thématique. 
Qui plus est, cette tradition théorique n'a pas cru toujours nécessaire de passer par 
les strates de l'organisation de la signification des textes soit les niveaux éditique, 
syntaxique, sémantique et encore moins pragmatique. Les stratégies numériques 
de types statistiques (indice de discrimination, pondération différentielle, etc.) se 
sont avérées amplement satisfaisantes. Ces stratégies ont ainsi permis de 
construire des modèles d'indexation et de classification assez performants. Mais 
elles ne donnent que des résultats limités si l'on veut atteindre le contenu discursif 
du texte.</P>

<P>La tradition linguistique et celle d'analyse du discours ont elles aussi offert 
des stratégies intéressantes d'extraction d'information. Du lexique à la 
concordance, de l'analyse stylistique à l'analyse thématique, elle a, à travers les 
années, produit un éventail important de stratégies d'extraction. Malheureusement, 
ces diverses stratégies sont demeurées relativement isolées dans le milieu de la 
recherche universitaire et n'ont que très peu été intégrées dans des plates-formes 
accessibles au grand public. Il y a cependant quelques exceptions, au Centre 
ATO•CI un système d'analyse de textes par ordinateur (SATO) (<CLINK LINKEND="Meun76">Meunier <EM>et al.</EM>, 
1976</CLINK>) a été développé dès les années 1970. Ce système produit une représentation 
matricielle du texte qui supporte les annotations (<CLINK LINKEND="Dao">Daoust, 1992</CLINK>). Cette 
représentation permet une fouille efficace, autant à partir des unités du texte que 
des descriptions qui ont pu leur être adjointes. Les résultats obtenus peuvent être 
soumis à des analyseurs statistiques pour déterminer la co-occurrence lexicale, la 
distance entre des segments, etc. De plus, depuis peu, un générateur de systèmes à 
base de connaissances a été intégré à SATO pour constituer un atelier cognitif et 
textuel (ACTE) (<CLINK LINKEND="PaqD">Paquin et Daoust, 1993</CLINK>). ACTE permet à des non-informaticiens 
de mettre au point des analyseurs spécifiques à leurs besoins incorporant des 
stratégies de contrôle sensibles au contexte. De plus, la prise en compte 
d'informations incertaines permet de dépasser le cadre strict de la logique 
booléenne pour déboucher sur la modélisation de l'interprétation de descriptions 
plurielles, différenciées par leur plausibilité. D'autres recherches sont en cours 
afin <EM> &#171; d'enrichir et de faire évoluer les méthodes d'analyse et de traitement 
d'informations composites associant données quantitatives et qualitatives &#187;</EM> en 
associant l'analyse statistique à l'analyse de contenu (<CLINK LINKEND="Mos">Moscarola, 1992</CLINK>).</P>

<P>Enfin, la <STRONG>phase de configuration des connaissances</STRONG> demeure à l'horizon de 
la recherche. Certes il existe de nombreuses plates-formes qui peuvent représenter 
des connaissances : les systèmes experts, les bases de données relationnelles, les 
bases de données orientées objet, les réseaux sémantiques, etc. Toutefois, ces 
plates-formes n'ont pas été conçues comme dépositaires des informations issues 
d'un texte, mais comme des matrices pour gérer des opérations ou modéliser un 
savoir. Elles peuvent être utilisées avec profit en relation avec l'analyse et la 
gestion textuelle mais elles doivent être réunies par des passerelles. Et dans ce 
secteur rien n'est automatique.</P>
</DIV3>
</DIV2>

<DIV2>
<HR><BR>
<H2>5. Conclusion</H2>
<P>Ainsi donc la question du traitement électronique des documents textuels 
est complexe. Elle ne peut être ramenée au simple traitement du support matériel 
du texte. Par ailleurs, lorsqu'on touche au coeur du problème qui est l'accès 
cognitif au contenu des textes, on découvre que l'analyse et la gestion ne peuvent 
être encapsulées dans des processus automatiques. Ces opérations doivent plutôt 
être supportées par des systèmes informatiques sophistiqués qui assurent 
flexibilité et polyvalence pour respecter les projets de lecture. Malheureusement, 
il existe encore une barrière entre les divers systèmes de gestion et d'analyse 
électronique des documents. Cette étanchéité regrettable des logiciels les uns par 
rapport aux autres a d'ailleurs été soulignée à propos des tâches complexes de 
lecture et d'écriture qui  &#171; nécessitent la mise en oeuvre d'un grand nombre de nos 
facultés &#187;:</P>
<BLOCKQUOTE><P>Cette multiplicité se reflète dans le profusion des solutions informatiques 
proposées (traitements de textes, correcteurs, dictionnaires, analyseurs). 
Cependant, ces progiciels sont rarement pensés dans un cadre 
d'intégration. Tant que l'usager ne cherche qu'une aide ponctuelle pour 
effectuer une tâche spécialisée, il trouve généralement des systèmes 
adaptés à cette demande. C'est dans la mesure où un même usager requiert 
une aide globale pour effectuer un ensemble de tâches complexes de 
lecture et d'écriture que devient urgente leur intégration dans un cadre 
méthodologique complet. (<CLINK LINKEND="Duch">Duchastel, 1991</CLINK>: 601)</P></BLOCKQUOTE>

<P>La solution à ces questions réside essentiellement selon nous dans une 
vision intégrée de la chaîne de traitement et non pas uniquement dans l'intégration 
modulaire des logiciels. Seule une telle vision permettra de construire une plate-
forme qui apporte assistance aux véritables opérations cognitives que les humains 
effectuent sur les textes.</P>
</DIV2>

<DIV2>
<HR><BR>
<H2>Références et bibliographie</H2>

<P><A NAME="BarH">BAR HILLEL, Y.</A> (1955). An examination of Information Theory. <EM>Philosophy of 
Science</EM>, 22; 1955: 86-105.</P>

<P><A NAME="Bar">BARRETT, E.</A> (1985). <EM>The Society of Text. Hypertext, Hypermedia, and the Social 
Construction of Information</EM>. Cambridge, Mass.: MIT Press.</P>

<P><A NAME="Belk">BELKIN, N.J.</A>; MARCHETTI, P.G.; ALBRECHT, M.; FUSCO, L.; Skogvold, S.; Stokke, H.; 
Troina, G. (1991). User interfaces for information systems. <EM>Journal of 
Information Science</EM>; 17; 1991: 327-344.</P>

<P><A NAME="BenP">BENMERGUI-PEREZ, M.</A> (1988). Charting the uncharted. <EM>Office Equipments & 
Methods</EM>; November 1988: 26-29.</P>

<P><A NAME="BG90">Bertrand-Gastaldy, S.</A> (1990). L'indexation assistée par ordinateur: un moyen de 
satisfaire les besoins collectifs et individuels des utilisateurs de bases de 
données textuelles dans les organisations. <EM>ICO Québec; intelligence 
artificielle et sciences cognitives au Québec</EM>; vol. 2, no. 3; septembre 1990: 
71-91.</P>

<P><A NAME="BG93">Bertrand-Gastaldy, S.</A>; Meunier, J.-G.; Paquin, L.-C. (1993). De la nécessité de 
repenser la gestion et l'analyse de l'information textuelle. <EM>ICO93; Actes du 
Colloque international en informatique cognitive des organisations/ 
International Conference on Cognitive and Computer Sciences for 
Organizations, 4-7 mai 1993, Montréal</EM>: 229-237.</P>

<P><A NAME="Bren">Brenner, J. S.</A> (1990). <EM>Acts of Meaning</EM>. Cambridge, Mass. Harvard University 
Press.</P>

<P><A NAME="ChK">Chevreau, J.; Kelly, T.</A> (1989). Paperless report. <EM>Office Equipments & Methods</EM>; 
January-February 1989: 42-46.</P>

<P><A NAME="Dao">Daoust, F.</A> (1992). <EM>Système d'Analyse de Texte par Ordinateur version 3.6, 
Manuel de référence</EM>, Centre ATO•CI, Université du Québec à Montréal.</P>

<P><A NAME="Delphi">Delphi Consulting Group</A> (1992). <EM>Information Management: The Next Generation; 
Conferences and Seminars on Electronic Management Systems</EM>; 1992.</P>

<P><A NAME="Duch">Duchastel, J.</A> (1991). Pour une méthodologie d'aide à la lecture et à l'écriture. 
<EM>Actes du colloque "Les industries de la langue: perspectives des années 
1990</EM>, Montréal, 21-24 novembre 1990. [s.l.]: Office de la langue française / 
Société des traducteurs du Québec, 1991: 583- 601.</P>

<P><A NAME="Duc">Ducrot, O.</A> (1980). <EM>Les mots du discours</EM>. Paris: Les Éditions de Minuit; 1980.</P>

<P><A NAME="Eco">Eco, U.</A> (1985). <EM>Lector in fabula ou la Coopération interprétative dans les textes 
narratifs</EM>. Paris: Grasset.</P>

<P><A NAME="Fouc">Foucault, M.</A> (1969). <EM>L'Archéologie du savoir</EM>. Paris: Gallimard.</P>

<P><A NAME="Gad">Gadamer, H. G.</A> (1976). <EM>Vérité et méthode</EM>. Paris: Seuil.</P>

<P><A NAME="Iser">Iser, W.</A> (1985). <EM>The Art of Reading;  A Theory of Esthetic response</EM>. Baltimore: 
John Hopkins University.</P>

<P><A NAME="Kar">Karivalo, M.</A> (1989). Training for information management in a company. 
<EM>Information Services & Use</EM>; 9; 1989: 341-346.</P>

<P><A NAME="Kin">Kinstch, W.</A> (1977). <EM>Memory and Technicians</EM>; New-York, Wily Edition.</P>

<P><A NAME="Meun">Meunier, J.-G.</A> (1992). SATO: un philologue électronique. <EM>Documentation et 
bibliothèques</EM>; 38(2); avril-juin 1992: 65-69.</P>

<P><A NAME="Meun87">Meunier, J.-G.</A>, Bertrand-Gastaldy, S. et Lebel, H. (1987). A call for enhanced 
representation of content as a means of improving on-line full-text 
retrieval. <EM>International Classification</EM>, 14(1), 1987: 2-10.</P>

<P><A NAME="Meun76">Meunier, J.-G.</A>, Daoust, F., Rolland, S. (1976). SATO: A System for Automatic 
Content Analysis of Text. <EM>Computer and the Humanities</EM>; 10(5): 281-287.</P>

<P><A NAME="Mos">Moscarola, J.</A> (1992). <EM>L'Analyse de contenu et analyse de données assistés par 
ordinateur. Nouveaux outils et nouvelles pistes. Le projet ISIS</EM>. Document 
fourni par l'auteur.</P>

<P><A NAME="PaqD">Paquin, L.-C. et Daoust, F.</A> (1993). <EM>ACTE Atelier cognitif et textuel, version 1.0, 
Manuel de référence</EM>, Centre ATO•CI, Université du Québec à Montréal.</P>

<P><A NAME="Paqu">Paquin, L.-C.</A> (1992). La lecture experte. <EM>Technologie, idéologie et pratique</EM>, 
numéro spécial consacré au colloque "Intelligence artificielle et sciences 
sociales"; 10 (2-4): 209-222.</P>

<P><A NAME="PaqBeau">Paquin, L.-C.; Beauchemin, J.</A> (1988). Apport de l'ordinateur à l'analyse des 
données textuelles. In: <EM>RELAI: Recherche en linguistique aappliquée à 
l'informatique. Actes du colloque "La description des langues naturelles en 
vue d'applications informatiques"</EM>. Université Laval, 7-9 décembre 1988. 
Québec: Centre international de recherche sur le bilinguisme; 1989: 197-
210.</P>

<P><A NAME="Pech">Pêcheux, M.</A> (1972). <EM>L'analyse autamatique du discours</EM>. Paris: Maspéro.</P>

<P><A NAME="Rada">Rada, R.</A> (1991). <EM>From Text to Expert text</EM>. New York: Mc Graw Hill.</P>

<P><A NAME="Ranj">Ranjard, S.</A> (1991). L'indexation manuelle: une valeur ajoutée. <EM>Archimag</EM>. Hors 
série; novembre 1991.</P>

<P><EM><A NAME="RIAO">RIAO 91 Conference Proceedings</A> (1991). Intelligent Text and Image Handling</EM>, 
Universitat Autonòma de Barcelona, Barcelona, Spain, April 2-5, 1991. 2 vol.</P>

<P><A NAME="SMcG">Salton G., & Mc Gill, M.</A> (1983). <EM>Introduction to models of Information Retrieval</EM>.  
New York: Mc Graw Hill.</P>

<P><A NAME="SchaAb">Schank R., & Abelson A. R.</A> (1977). <EM>Scripts, Plans Goals and Understanding</EM>.  
Hillsdale. N.J: Laurence Erlbaum Associates.</P>

<P><A NAME="SchmE">Schmitz-Esser, W.</A> (1990). Thesauri facing new challenges. <EM>International 
Classification</EM>; 17 (3/4); 1990: 129-132.</P>

<P><A NAME="VanD">Van Dijk, Teun A.</A> (1977). Perspective paper: complex semantic information 
processing. In: Walker, D.E.; Karlgren, H.; Kay, M. <EM>Natural Language in 
Information Science; Perspectives and Directions for Research</EM>. Stockholm: 
Skriptor, 1977: 127-163.</P>

<P><A NAME="Wil">Wilson, T.D</A> (1984). The cognitive approach to information-seeking behaviour 
and information use. <EM>Social Science Information Studies</EM>; 4; 1984: 197-204.</P>
</DIV2>

<DIV2>
<HR><BR>
<H2>Notices biographiques</H2>

<P><A NAME="JGM"><STRONG>Jean Guy MEUNIER</STRONG></A>, Ph.D, est professeur au département 
de philosophie et directeur du Centre de Recherche en Cogniton et Information 
ATO•CI à l'université du Québec à Montréal. Il est spécialisé dans le domaine de la 
philosophie du langage.Il poursuit des recherches dans le domaine de l'analyse de 
texte par ordinateur depuis 1970.</P>

<P><A NAME="SBG"><STRONG>Suzanne BERTRAND-GASTALDY</STRONG></A> est professeure agrégée à l'École de bibliothéconomie et des sciences de l'information (EBSI) de l'Université de Montréal. Elle 
est également chercheure au Centre de Recherche en Cogniton et Information 
ATO•CI à l'université du Québec à Montréal. Ses recherches portent sur les méthodes d'indexation et d'élaboration de vocabulaires de domaine assistées par ordinateur ainsi que sur l'évaluation des thésaurus à la lumière des théories sémio-cognitives.</P>

<P><A NAME="LCP"><STRONG>Louis-Claude PAQUIN</STRONG></A> est 
docteur en philologie médiévale. 
Professeur associé au département de philosophie de l'UQAM, il est chercheur 
au Centre d'ATO•CI de l'UQAM depuis juin 1986. Il s'intéresse particulièrement au 
dépistage, à la compréhension et à la représentation de la connaissance dans les 
documents. À ce titre, il travaille à la modélisation et à la formalisation des opérations 
cognitives de catégorisation et d'interprétation à l'aide de la technologie des systèmes 
à base de connaissances. Il aborde les technologies informatiques en tant que 
moyens de communication en privilégiant leurs aspects d'ergonomie, de lisibilié, 
d'accessibilité et de navigabilité. Il oeuvre autant dans le milieu de la recherche 
subventionnée que dans celui des organisations; sa principale contribution est 
d'ordre méthodologique. Il a développé un générateur de systèmes experts, 
le D_expert et il a participé à la conception de ACTE, l'Atelier cognitif et textuel. 
Il s'intéresse aussi à l'analyse du discours par ordinateur.</P>
</DIV2>

<HR><BR>


</DIV1>

</BODY>

</HTML>