top of page
Rechercher
  • Photo du rédacteurLe Sphinx Mea

Analyse textuelle,Data visualisation et Data storytelling

Dernière mise à jour : 2 déc. 2019



Comment faire parler des données non structurées ?


Les commentaires libres, articles de presse, tweets et autres discours, sont riches d’une matière qu’il est difficile à appréhender autrement que par la lecture et la compréhension du sujet. Les marques et les organisations sont pourtant amenés, avec l’explosion du web social notamment, à s’y intéresser pour parvenir à maîtriser les sujets abordés et idées émises au sein de ces contenus, afin de tenter à terme de les réguler, voire de les orienter.

Comment alors passer d’une matière riche et déstructurée, sujet à interprétation et à polémique à des indicateurs clairs et lisibles, capables de rationnaliser la lecture, sans pour autant perdre l’expérience de l’immersion au sein de matière brute, c’est-à-dire le texte d’origine ?

Pour répondre à cette problématique, nous avons développé des méthodes permettant de mixer l’analyse textuelle et sémantique, qui permet de comprendre le sens du texte et de réduire le niveau d’information, à la data visualisation et au data story telling pour restituer et interagir avec les données et engager le lecteur dans un processus immersif.

L’analyse sémantique, pour catégoriser les contenus

Grâce à l’utilisation de thésaurus (arbre de connaissance regroupant les contenus selon leur champ lexicaux), nous sommes capables d’identifier automatiquement les thématiques abordées dans les commentaires des individus et de les regrouper dans des concepts. Cette première approche offre l’avantage de limiter les a priori liés à l’expérience et la sensibilité du lecteur, en se basant sur une approche rationnelle pilotée par les univers lexicaux. Ainsi dans une étude sur les posts émis par les étudiants de Science Po sur les réseaux sociaux, nous pouvons remarquer que la grande majorité des éléments sont communiqués via des photos, portent sur l’intimité (corps nu et vie de couple) et la vie festive étudiante (soirées, amis, drogues, …). Cliquez ici pour voir l'exemple

La classification pour définir des typologies de discours

En mobilisant les méthodes de classification, nous cherchons à regrouper les individus les plus proches, selon les proximités lexicales de leurs contenus. Cela nous permet de réduire fortement le volume d’informations et d’identifier des personae, représentatifs de comportements types. Ainsi, dans l’étude portant sur les motivations des Gilets jaunes à soutenir leur mouvement, 4 classes émergent, portées par les éléments liés à la Crise du politique, le Pouvoir vivre (dignement), la Soif de justice et Le mouvement populaire. Cette réduction à 4 classes pourra être ensuite associée à des éléments de contexte (situation géographique, catégorie socio-professionnelle, revenus, …) pour mieux les expliquer et les illustrer. www.enquetegiletsjaunes.fr

Les nuages d’expressions pour s’immerger dans les contenus

La classification ou l’analyse sémantique a le mérite de réduire le niveau d’information pour gagner en lisibilité, mais elle peut être parfois trop éloignée du mode d’expression pour permettre de s’imprégner pleinement de « l’ambiance » et du climat des commentaires. Les regroupements lexicaux, lorsqu’ils sont effectués au niveau des expressions (suite de mots consécutifs) offrent un concentré du mode de communication des individus s’exprimant, tout en donnant un premier niveau de synthèse. Représentés sous forme de nuages de mots interactifs, ces verbatim « réduits » se présentent alors comme un moyen de voyager et de s’immerger dans les commentaires en offrant une alternative efficace à la lecture exhaustive des verbatim.

De la data visualisation au data story telling

La multiplication des indicateurs et représentations graphiques est très tentante dès lors que les contenus textuels ont été structurés. L’usage de l’interactivité permet de vivre une véritable expérience de lecture et de navigation. Cliquer, filtrer, illustrer, qu’il est bon de jouer avec les données ! Toutefois, sans histoire, la visualisation peut-être perçue comme une BD pleine de bulles vides. Difficile dès lors de s’accrocher à un scénario pour garder le fil de l’histoire. Voilà pourquoi nous évoluons naturellement de la data visualisation vers le data story telling : construire des scénarios de lecture avec une intrigue, des acteurs et des décors. L’analyse des 32 000 tweets de Trump, par sa variété et son abondance nous a poussé à cet exercice : mobiliser texte, image et scénarisation pour raconter au lecteur l’histoire des 140 caractères du petit oiseau. Cliquez ici pour voir l'exemple


bottom of page