Blog

L’analyse sémantique automatique ou comment entendre la voix du client dans des millions de messages

30 juin 2016

-

Après l’article d’Olivier Franchesquin sur les verbatims clients, easi a eu envie d’en savoir plus sur l’analyse sémantique automatique appliquée à la relation client. Olivier Doussot, directeur du développement d’ERDIL, s’est prêté avec bonne humeur au petit jeu des questions-réponses. Vous allez enfin comprendre ce qu’est/n’est pas l’analyse sémantique et ce qu’elle peut vous apporter !

-

Depuis quand les entreprises ont-elle recours à l’analyse sémantique automatique des verbatims clients ?

Olivier Doussot -- C’est récent. Sur le marché de la relation client en France, aucun acteur de l’analyse sémantique appliquée à la relation client n’a plus de 15 ans. La demande n’a émergé qu’à partir du moment où il a été techniquement possible d’automatiser l’analyse du langage à grande échelle. ERDIL, par exemple, a vu le jour parce que, il y a un peu moins de dix ans, Nestlé cherchait sur le marché international un outil capable d’analyser ses messages clients. Ne le trouvant pas, il s’est tourné vers les laboratoires universitaires. Nestlé suisse a contacté le labo de traitement automatique des langues de l’université de Franche-Comté où travaillait Séverine Vienney. C’est à la suite de ce projet qu’elle a créé ERDIL.

espace

Qu’est-ce que les entreprises cherchent à savoir à travers l’analyse sémantique automatique ?

Olivier Doussot -- Elles veulent identifier ce qui marche moins bien chez elles et ce qui marche le mieux du point de vue de leurs clients – sachant que, dans les grandes entreprises, plus vous être décisionnaire, plus vous êtes éloigné de la voix du client. Depuis une dizaine d’années, elles ont compris qu’elles avaient énormément perdu à ne pas écouter leurs clients. Très bien, mais comment je fais ? Je fais des enquêtes de satisfaction et je me retrouve avec des milliers et des milliers de messages par jour. Comment en tirer quelque chose d'utile et d'exploitable ? Le seul moyen est de classer, de catégoriser, de réduire cette masse de verbatims de manière à dégager un seul message représentatif. Comment je sais qu’il est représentatif ? Parce que j’ai tout classés dans des catégories, ce qui me permet de savoir que mes clients s’expriment sur tel, tel et tel sujets. Une fois que j’ai tous mes sujets, je vois par le volume quel est le sujet les plus abordé. Je vois aussi s’il est abordé en positif ou en négatif et dans quelle proportion. Et je peux suivre comment tout cela évolue dans le temps.

Nos clients souhaitent aussi être alertés. Si vous faites de l’analyse en continu et en temps réel, vous pouvez être alerté sur des risques d’attrition, des risques juridiques ou des risques rédhibitoires dans votre métier – par exemple, la perte de bagage pour une compagnie aérienne ou la fraîcheur de la viande dans une enseigne de grande distribution.

espace

En quoi consiste exactement un outil d’analyse sémantique ?

Olivier Doussot -- Très schématiquement, c’est deux choses : d’une part, un corpus – ou thésaurus – composé d’une multitude d’expressions, de morceaux de phrases, de règles grammaticales et sémantiques modélisés informatiquement ; d’autre part, un moteur d’analyse, c’est-à-dire un logiciel qui, à partir des éléments du thésaurus, va reconnaître les expressions similaires et les classer dans des catégories préalablement définies. Par exemple, la phrase « j’ai attendu 5 minutes en caisse, c’est inadmissible » sera classée par le moteur dans la catégorie « attente en caisse » ou « caisse » et « tonalisée » en négatif.

espace

Jusqu’où va cette qualification du ton des messages ? Par exemple, le moteur comprend-il l’humour et l’ironie ?

Olivier Doussot -- Beaucoup d’acteurs du marché prétendent qualifier automatiquement le ton des messages et, au-delà du sens, détecter l’émotion contenue dans un message écrit. L’analyse sémantique automatique ne permet pas du tout cela, ni de près ni de loin. Prenons l’ironie, qui est sans doute la chose la plus difficile à modéliser. Face au message « j’ai attendu une demi-heure en caisse, j’ai adoré, merci ! », un individu comprend immédiatement que c’est ironique. Le moteur d’analyse, lui, prend le message au pied de la lettre : pour lui « adorer » est connoté positivement, il classera donc ce message dans la case des messages « caisse » positifs. Mais comme il trie en fonction de ce qu’il a déjà vu, il va plutôt prendre en compte « j’ai attendu en caisse » et le catégoriser en négatif. Un moteur ne comprend pas : il repère et classe, en fonction de ce qu’on lui a dit de faire. Il ne peut classer que ce qui a été préalablement repéré. En d’autres termes, il n’y a pas d’intelligence artificielle, il y a juste une reconnaissance, d’où l’importance de la constitution du thésaurus.

espace

Constituez-vous un thésaurus pour chacun de vos clients ?

Olivier Doussot -- Oui et non. On part d’une classification par marché parce que ce qui est pertinent en termes de voix du client dans le transport aérien ne l’est pas dans la grande distribution. Ensuite on resserre par marque parce que toutes les marques ne veulent pas suivre exactement les mêmes sujets. On adapte donc la classification à chaque client. Cela ne peut être fait qu’humainement : chez ERDIL ce sont des humains, en l’occurrence des linguistes, qui lisent des milliers de verbatims pour recenser tous les sujets abordés par les clients et créer une classification. Pour chaque nouveau projet, il y a donc un travail humain important qui vise 1/ à repérer les catégories et 2/ à reprendre toutes les expressions qui n’auront pas été repérées préalablement. Plus le secteur a déjà été  travaillé, moins il y a de choses à découvrir.

espace

Qu’est-ce qui permet d’affirmer que le moteur classe de manière objective et pertinente ?

Olivier Doussot -- Ce qui caractérise un outil informatique, c’est sa constance et son objectivité. Le moteur d’analyse sémantique ne fait certes que reconnaître ce qu’il a déjà vu, mais il ne dévie pas, il n’interprète pas. Si on lui dit que telle expression est à classer ici, il le fera infatigablement, il n’y aura pas de distorsion. L’autre supériorité de l’outil sur l’humain est qu’il sait repérer tous les sujets présents dans un verbatim, dès lors que le thésaurus a été bien construit. Si 10 sujets sont abordés dans un verbatim, l’outil va tous les repérer. L’humain, lui, catégorise et priorise inconsciemment. La plupart du temps, un verbatims contient 3 ou 4 sujets. Si vous demandez à des humains de lire les verbatims, ils ne repèrent généralement qu’un sujet : celui qui apparaît en premier. La catégorisation par des humains ne va pas sans distorsions et se révèle moins efficace et moins exhaustive du fait de la subjectivité de chacun.

espace

Que se passe-t-il quand apparaît une expression qui n’a jamais été vue ?

Olivier Doussot -- Si le moteur rencontre un mot, une expression ou une forme grammaticale qui n’a pas été repérée auparavant, il ne peut pas la reconnaître. Le message atterri dans la case des verbatims non classés. Tous ces messages sont examinés humainement afin d’identifier pourquoi le moteur n’a pas su les classer. Certains ne sont pas classables. C’est le cas des messages disant simplement « R.A.S. ». D’autres ne le sont pas parce que l’orthographe ou la syntaxe est à tellement différente de la norme que cette expression n’a jamais été repérée en tant que telle. Dans ce cas, décision est prise ou pas de répertorier cette expression précise dans le thésaurus. Par exemple, « Mon pas aux faire un cafe pendant l attente » ne le sera pas parce que la probabilité de retrouver cette formulation exacte est tout simplement nulle.

espace

Le thésaurus s’enrichit donc continuellement ? Peut-il être exhaustif ?

Olivier Doussot -- Il y a une infinité d’expressions possibles pour un sens identique, sans compter les variantes orthographiques et grammaticales plus ou moins fantaisistes. Il est illusoire de croire qu’on pourrait être exhaustif et, à un moment donné, on cesse de vouloir progresser au niveau du pourcentage de verbatims que l’on va pouvoir classer. Arriver à 90 % de verbatims classés est déjà un score excellent. Au-delà, on tombe sur des expressions et des formes uniques qu’on ne retrouvera jamais plus.

espace

Si je suis client d’ERDIL, sous quelle forme est-ce que je reçois les résultats ? Qu’est-ce qu’ils peuvent m’apprendre ?

Olivier Doussot -- Vous recevez des tableaux de bord dynamiques avec des indicateurs de volumétrie, de catégorisation, de priorisation. Vous pouvez zoomer sur chaque sujet et voir tous les verbatims qui ont nourri cet indicateur. Les indicateurs de priorisation sont souvent très éclairants. Comment ça marche ? Dans les enquêtes de satisfaction, les verbatims sont attachés à des métadonnées, notamment à des notes de type NPS. Si vous associez la tonalité d’un verbatim à sa volumétrie et à la note moyenne attribuée au sujet quand les clients en parlent, vous pouvez découvrir ou affirmer des chantiers prioritaires ou secondaires. Par exemple, vous découvrez que 15% de la volumétrie concerne l’attente en caisse mais que 98% de ces 15% sont négatifs. Vous prenez la note donnée par les clients qui ont parlé de l’attente en caisse et vous voyez qu’il n’y a que 2 clients qui vous recommanderaient. Vous avez là votre chantier prioritaire.

Dans le domaine des assurances,  beaucoup de clients parlent des tarifs et en parlent évidemment en négatif. Pour autant, la note moyenne associée à ces verbatims négatifs est au-dessus de 5. Ce n’est pas bon, bien sûr, mais on est très loin des notes catastrophiques de 2 ou 2,5 qu’on peut observer sur des items comme la clarté de la facture ou le respect des engagements. Qu’est-ce que cela dit à l’assureur ? Simplement que ce dont parlent ses clients parlent beaucoup en volume n’est pas ce qui va les faire partir. Autre exemple : prenons une catégorie qui est très regardée, le risque d’attrition/perte de client. Les clients qui en parlent abordent plusieurs sujets dans leurs verbatims. Si vous regardez les autres sujets abordés en même temps, vous découvrez que le 1er sujet est l’amabilité ou la compétence ou le manque d’écoute. Sans croiser les données comme permet de le faire un outil d’analyse sémantique automatique, vous ne l’auriez sans doute pas découvert et vous auriez fait porter vos efforts sur des domaines moins prioritaires…

Ce contenu vous a plu ?

Inscrivez-vous à notre newsletter