Quand on présente Fluera à des observateurs sceptiques, l’idée unique qui travaille le plus, ce sont les difficultés désirables de Robert Bjork [Bjork, 1994] View in bibliography → . Une fois que les gens absorbent l’idée que les conditions d’étude les plus faciles produisent presque toujours les pires résultats, le reste de nos décisions de design cesse de paraître étrange et commence à paraître inévitable.
Mais “inévitable” fait beaucoup de travail dans cette phrase. Transformer un résultat de recherche en une interface produit implique des arbitrages qui n’apparaissent pas dans les méta-analyses. Voici un bilan partiel.
Le canvas blanc
L’app d’étude par défaut a un template. Tu l’ouvres et il y a une structure suggérée — un squelette de mind-map, une liste de sujets, un layout Cornell. Le template baisse l’énergie d’activation. Ça paraît utile.
Ça ne l’est pas. Un template te laisse sauter l’étape de génération — l’acte cognitif de décider ce qui appartient où, ce qui se connecte à quoi, quel est le concept central. L’étape de génération est l’apprentissage. La sauter, c’est sauter la raison d’avoir le cahier.
Le canvas de Fluera est blanc. Infini, vide, non intimidant. Le coût, c’est que les nouveaux utilisateurs sentent la friction tout de suite. Certains s’en vont. On l’accepte. L’alternative est un outil qui attire plus d’utilisateurs et en éduque moins.
L’IA qui interroge, qui ne répond pas
Chaque session de user research que nous avons menée incluait au moins une personne disant “ce serait utile si l’IA pouvait m’écrire un résumé”. Toutes les sessions, sans exception.
Ils ont raison sur le fait que ce serait utile. Ils se trompent en pensant que l’utilité est l’objectif. Une IA qui te résume le cours est une IA qui prend en charge la part de l’apprentissage qui était ton travail. Tu obtiens un résumé. Tu as la sensation d’avoir étudié. Tu ne te souviens de rien.
Le Socratic Mode existe précisément pour ne pas faire la chose que les utilisateurs demandent. Il interroge le canvas au lieu de le résumer. Sur l’axe de la satisfaction immédiate, à la première interaction, il perd face à une IA qui explique. Sur l’axe de la rétention plusieurs semaines après [Roediger et Karpicke, 2006] View in bibliography → , il gagne par des marges qui rendent la préférence à court terme insignifiante.
L’arbitrage est réel. Certains utilisateurs ne franchissent jamais le seuil. Pour ceux qui le franchissent, la différence est le produit.
Le slider de confiance
Tu viens de finir d’écrire une réponse. Tu touches “révéler la solution”. Fluera te demande une dernière chose avant : évalue ta confiance, de 1 à 5.
C’est une petite interruption. À chaque essai, ça ajoute deux ou trois secondes. Sur l’ensemble d’une session, ces secondes s’accumulent. Les utilisateurs demandent à le désactiver.
Le slider est structurel. L’effet d’hypercorrection de Butterfield et Metcalfe [Butterfield et Metcalfe, 2001] View in bibliography → — les erreurs commises avec une forte confiance, une fois corrigées, se fixent davantage que les erreurs avec une faible confiance — exige que tu aies nommé ta confiance avant l’arrivée de la correction. Sans le slider, tu corriges dans le brouillard et la correction se délave. Avec le slider, le contraste devient explicite et la correction se pose.
On garde le slider. La gêne est le mécanisme.
Fog of War pour la préparation aux examens
La manière évidente de se préparer à un examen, c’est de relire ses notes. La fluidité augmente. La préparation perçue augmente. Le jour de l’examen, la performance s’effondre — parce que la reconnaissance n’est pas la récupération, et que l’examen demande de la récupération.
Fog of War inverse l’interaction. En mode examen, Fluera cache ton canvas — il masque les régions que tu as déjà couvertes et te demande de les récupérer de mémoire avant de révéler. La première session est terrible. Tu te retrouves face à un canvas embrumé et tu découvres à quel point ce que tu pensais savoir, tu n’arrives pas à le produire.
Les utilisateurs détestent la première session. Ils adorent les résultats à l’examen. La friction de la première session est ce qui rend ces résultats possibles.
Ce que nous ne faisons pas (et nous nous excusons de ne pas faire)
Les preuves soutiennent aussi quelques interventions que nous n’avons pas construites. L’entrelacement — randomiser l’ordre des sujets pendant la pratique au lieu de pratiquer en blocs [Rohrer et Taylor, 2007] — est solidement démontré pour améliorer le transfert. Nous voulons construire des fonctions d’entrelacement plus profondes. L’obstacle, c’est que la sensation produit d’un ordre de sujets aléatoire, sans design soigné, peut être profondément désorientante. L’expérience utilisateur s’effondre avant que le bénéfice cognitif n’entre en jeu.
Gérer cet arbitrage — préserver le flow tout en introduisant de la friction désirable — est le problème de design le plus dur que nous ayons.
Le pattern
Le pattern qui traverse toutes ces décisions est : la préférence immédiate de l’utilisateur est un signal systématiquement trompeur. Les utilisateurs préfèrent la version facile. La version facile est pire. Construire la version plus difficile est souvent récompensé après — par la rétention, par les résultats d’examen, par le rare utilisateur qui revient et dit “je vous trouvais fous, maintenant je comprends”. Mais c’est presque toujours puni avant — par le churn, par les mauvaises évaluations, par la tentation de sortir la version plus facile à la prochaine itération.
Nous essayons de résister à cette tentation. Parfois nous échouons. Nous lançons, reculons et relançons.
Le pari, c’est que dans un domaine — l’ed-tech — où chaque concurrent s’est rendu à la préférence utilisateur et a construit des outils qui font sentir bien et apprennent peu, il y a de la place pour un outil moins bon en sensation et meilleur en enseignement.
Si tu veux nous aider à le découvrir, la beta est ouverte.