Le traitement de la parole client

La parole client : un trésor à exploiter 

L’axe principal de développement voté en Comité Scientifique de la chaire D-CC pour sa nouvelle saison porte sur l’analyse de verbatim clients. L’enjeu est de savoir identifier et décrypter ce que disent les clients lors de leurs interactions avec les services clients des entreprises (Site Web, SAV,Call Center…).

Pour ce faire, il est nécessaire de faire appel à des algorithmes d’analyse automatique du langage naturel (NLP, pour Natural Language Processing) et déterminer les thématiques exprimées par les clients (type de réclamations, demande d’informations ou d’assistance) et de savoir établir une typologie des verbatim aux fins d’apporter des réponses différenciées et pertinentes.

Les méthodes utilisées dans nos travaux sont non supervisées, et ne nécessitent donc pas un étiquetage préalable d’un jeu de données.

Le secret de la réussite ? Une bonne préparation des données !

L’étape indispensable à tout traitement automatique du langage ? La préparation des données. Tokenisation (séparation du texte en unités de sens), suppression des stops-words (déterminants, pronoms…), racinisation (détermination de la forme la plus simple du mot) : ces traitements sont garants de la qualité de la modélisation.

Du texte au chiffre…

Les algorithmes de machine learning ont besoin d’éléments chiffrés pour fonctionner. Il faut donc transformer nos données textuelles en chiffres.

Deux grands types de méthodes sont utilisées dans nos travaux :

  • des représentations de type Bag of Words (sac de mots), correspondant à des matrices termes / documents :
  • des représentations Word2Vec basées sur des réseaux neuronaux entraînés :

La détection automatique de thèmes

La modélisation LDA (pour Latent Dirichlet Allocation) permet de déterminer automatiquement les grands thèmes composant un corpus textuel. Cette méthode probabiliste est parfaitement générative, et est basée sur les hypothèses suivantes :

  • le corpus global est composé de k thèmes ;
  • chaque document du corpus est composé d’une distribution de thèmes parmi les k ;
  • chaque thème est composé d’une distribution de mots.

La méthode, itérative, permet de déterminer les distributions de thèmes et de mots qui ont généré le corpus avec la plus grande probabilité. 

 

Ce contenu a été publié dans Innovations. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *