Je trouve souvent que certains articles ont tendance à donner l’impression que pour réussir un bon test d’utilisabilité, tout est une question d’usagers: le bon nombre (quantité), les bons usagers (segments cibles), etc. Cela obstrue souvent l’immense travail d’analyse et le rôle crucial des analystes…et ce, que l’on parle d’approche quantitative ou qualitative.
Ce billet fait suite à la lecture de deux articles parus cette semaine par Jakob Nielsen du NN/g et Rachel Hinman d’Adaptive Path sur les tests d’utilisabilité et l’analyse des données ou encore tout le data qui provient de ces tests. J’aimerais insister ici sur la réalité derrière cet “écran usagers”…j’utilise ici le terme “écran” dans le double sens de ce qui se passe derrière le moniteur, mais aussi au sens de la “façade usagers” que l’on expose le plus souvent concernant les tests d’utilisabilité (en reléguant un peu trop à l’arrière boutique tout le “back-end” des analystes sur lesquels ces tests reposent également beaucoup pour produire des résultats de tests informatifs…).
Oui ce sont des tests avec des usagers, certes, mais ne nous laissons pas leurrer, derrière l’écran ce n’est pas tant une question de nombre d’usagers que de nombre d’alanystes (lire : de temps d’analyse peu importe le nombre d’analystes sur la job)…pour pouvoir traiter tout le data qui est extrait des tests – et dieu sait s’il y en a…des heures de vidéos et de verbatim, des milliers de lignes de notes, etc. Ceux qui sont passés par là devant ou derrière l’écran ou comme client à lire les gros rapports s’en souviennent j’en suis sûre!!!
Le premier article est l’Alertbox de Nielsen de cette semaine (15 octobre 2007). Cela présentait les tests d’utilisabilité simultanés auprès de plusieurs usagers (MUST: Multiple-User Simultaneous Testing). L’essentiel de son texte décrit cette approche moins courante pour des raisons de coûts évidentes, ainsi que les conditions de réalisation de ces tests (ex.: avoir plusieurs facilitateurs formés et on vous propose une formation de facilitateurs en passant!), et il met l’emphase sur les cas où il est préférable d’avoir de nombreux usagers comme pour les jeux vidéos (venant de lui: on comprend qu’il veut dire au moins plus que 5!
.
Il est clair que pour des résultats dits statistiques, chaque condition testée nécessite au moins 20 cas pour que le niveau de signification des résultats soient valides, au sens de généralisables à l’ensemble de la population. Tout ça c’était déjà bien clair pour nous tous. Aucun problème. Ce qui m’a surpris cependant, c’est qu’aucune mention n’est faite de l’armée d’analystes en arrière nécessairement nécessaires pour processer tout cela, car permettez-moi le jeu de mots facile mais: analyser le data est un must, c’est le cas de le dire…
Donc tester selon la méthode MUST – terme que Nielsen dit avoir emprunté à Dennis Wixon qui entretient en passant d’intéressants propos sur les critères d’évaluation de l’efficacité des différentes méthodes d’utilisabilité – (N.B.: obtenir le texte intégral nécessite un accès à la ACM Digital Library), ne prend pas seulement beaucoup d’usagers mais aussi beaucoup d’analystes ou de temps d’analystes…il ne faudrait pas l’oublier! C’est mon point ici et je vais l’appuyer avec le second article vu cette semaine dont je vous parlais.
Dans la newsletter d’Adaptive Path d’aujourd’hui le 17 octobre, dans son essai sur les “A-HA moments” Rachel Hinman nous rapporte très bien cette tendance à vouloir “faire oublier” la réalité du temps d’analyse, soit la vraie réalité derrière “l’écran” des tests usagers, la réalité de matière grise et de temps de réflexion qui donne des résultats concrets d’évaluation des interfaces et par conséquence, de pistes de (re)conception. Je vous avoue que je suis particulièrement sensible à cette réalité car je la vis doublement en recherche au doctorat où pour fins d’apprentissage et de rigueur, la dimension méthodologique n’est pas en option…mais pour plus de clarté, je vais citer les propos de Hinman ici:
“I always get a little miffed when I hear user-experience folk describe their data analysis process as looking for “a-ha moments.” It seems like an evasive answer to a simple process question. But more importantly, it leaves one with the impression that coming up with research insights is an experience of epiphany, like Newton sitting under the apple tree discovering gravity.
In a recent talk about his current book, The Myths of Innovation, Scott Berkun emphasized that humans love stories of epiphanies because they diminish the sweat-effort, failure, and plain old hard work that goes into coming up with something that is truly innovative. He explained how the story of Newton sitting under the apple tree conveniently de-emphasizes his 15 years of dedication and study to the subject.“
[capture de l'image de l'article de Hinman - site d'Adaptive Path]
Pour compléter mon point, je vous recommande également une autre approche de test d’utilisabilité. Il s’agit d’une approche qui ne mise pas sur la quantité d’usagers mais plutôt sur la qualité via la complémentarité des méthodes. De MUST on passe cette fois à CUT, pour Cooperative Usability Testing. Cette approche combinatoire est proposée par Frokjaer et Hornsbaek de l’Université de Copenhague au Danemark qui tentent de répondre à certains biais du test U classique. Voici le résumé de l’article pour vous mettre en appétit: “Cooperative usability testing: Complementing Usability Tests with User-Supported Interpretation Sessions” (N.B.: l’accès à l’article intégral nécessite un compte à la Digital ACM library):
“Recent criticism of think-aloud testing (TA) discusses discrepancies between theory and practice, the artificiality of the test situation, and inconsistencies in the evaluators’ interpretation of the process. Rather than enforcing a more strict TA procedure, we describe Cooperative Usability Testing (CUT), where test users and evaluators join expertise to understand the usability problems of the application evaluated. CUT consists of two sessions. In the interaction session, the test user tries out the application to uncover potential usability problems while the evaluators mainly observe, e.g. as in TA or contextual inquiry. In the interpretation session, evaluators and test users discuss what they consider the most important usability problems, supported by a video of the interaction session. In an exploratory study comparing CUT to TA, seven evaluators find that interpretation sessions contribute important usability information compared to TA. Also test users found participation in the interpretation session interesting.“
Je dois vous dire que l’an dernier, dans le cadre d’un de mes cours portant sur l’approche interprétative, j’ai expérimenté une variante de cette méthode en réutilisant/réanalysant les verbatims des usagers à des fins de séance d’interprétation sur des thèmes spécifiques que nous avons laissé émerger du data. C’était proche donc mais ce n’était pas de l’interprétation par les usagers eux-mêmes – pour des raisons d’efficacité/de temps car il aurait fallu ensuite par dessus tout le data d’observation, analyser leur réinterprétation de la séance, ce que nous ne pouvions nous permettre dans le cadre d’un exercice de fin de session…Une chose est sûre, c’est qu’ici il ne s’agit pas d’une approche quantitative des tests U mais plus d’une approche qualitative avec moins d’usagers, cependant dans ce cas également, la quantité d’analyse à faire des interprétations est tout aussi importante…et prend autant de temps d’analyse…on ne peut la contourner pour obtenir de la qualité!
Pour la petite info, je peux vous dire que les résultats combinés du test usager avec l’approche interprétative furent surprenamment riches et très concluants! Cela permettait de dégager le lien entre les tâches effectuées sur un site par un usager et la symbolique de ce que représente cette activité pour l’usager et surtout par rapport à l’imbrication de l’activité et du contexte concret dans lequel elle se déroule (type d’industrie, type de site, type de compagnie, type de pages, type de comparables online – et offline! -, types de préférences, etc.). Donc par exemple, je suis usager et je navigue sur un site de nouvelles pour un test, je le fais comme tâche mais dans la vraie vie, je le fais surtout pour me tenir informé-e et pour cela je clique sur le gros titre ou dans la section “Sports” ou “Culture”, etc., mais au delà de cela, “qu’est-ce que cela représente/veut dire pour moi comme usager de consommer de l’information en général?” Et y a-t-il une représentation différente de l’activité quand elle est effectuée dans sa version papier vs dans sa version en ligne?
Car pour comprendre ce que représente une tâche sur un site par exemple, en fait il faut la comprendre aussi globalement que cela, dans la représentation mentale que s’en fait l’usager de façon générale (offline et online) et spécifique (dans les interfaces concrètement testées).
Pour moi, dans la même perspective que soulignée par Hinman dans son essai en rapport à l’innovation, cet exemple “expérimental” est une combinaison de méthodes que je vais désormais retenir absolument pour tout ce qui est nouveaux produits interactifs ou sites qui nécessitent de comprendre comment l’usager s’approprie la nouveauté et s’adapte symboliquement à elle…
Avec la vague de nouvelles interfaces AJAX et multimodales qui déferlent de plus en plus un peu partout, les produits actuels “brisent” de plus en plus le moule/pattern classique des interfaces Web traditionnelles que nous avons largement testées – ou fait testées- depuis une dizaine d’années, il va donc bien falloir que les méthodes d’évaluation de ces interfaces/produits/services évoluent en conséquence! Le test d’utilisabilité n’y fera pas exception!
Comme lien complémentaire en rapport avec ce propos méthodologique, je vous mentionne que dans la conférence intitulée “L’ergonomie a-t-elle toujours la cote?” donnée dans le cadre des conférences des midis-express de l’API en novembre 2006, Camille et moi avions recensé différentes évolutions méthodologiques actuelles et parfois encore expérimentales. Pour ceux que cela intéresse, voici le billet écrit à l’époque de l’événement sur ErgonomiA et où vous pouvez télécharger la présentation (le recensement figure dans les dernières diapos du ppt).