Wenn wir Fluera skeptischen Beobachtern vorstellen, ist die einzelne Idee, die am meisten arbeitet, Robert Bjorks erwünschte Schwierigkeiten [Bjork, 1994] View in bibliography → . Sobald die Leute aufgenommen haben, dass die einfachsten Lernbedingungen fast immer die schlechtesten Ergebnisse liefern, hört der Rest unserer Designentscheidungen auf, seltsam zu wirken, und beginnt, unausweichlich zu wirken.
Aber “unausweichlich” leistet hier viel Arbeit. Einen Forschungsbefund in eine Produktoberfläche zu übersetzen, bringt Trade-offs mit sich, die in keiner Meta-Analyse auftauchen. Hier eine Teilbilanz.
Das leere Canvas
Die Standard-Lern-App hat ein Template. Du öffnest sie, und da ist eine vorgeschlagene Struktur — ein Mindmap-Skelett, eine Themenliste, ein Cornell-Layout. Das Template senkt die Aktivierungsenergie. Es wirkt nützlich.
Ist es nicht. Ein Template lässt dich den Generierungsschritt überspringen — den kognitiven Akt, zu entscheiden, was wohin gehört, was womit verbunden ist, was das zentrale Konzept ist. Der Generierungsschritt ist das Lernen. Ihn zu überspringen heißt, den Grund für das Notizbuch zu überspringen.
Das Canvas von Fluera ist leer. Unendlich, leer, nicht einschüchternd. Der Preis ist, dass neue Nutzer die Reibung sofort spüren. Manche gehen wieder. Wir akzeptieren das. Die Alternative ist ein Werkzeug, das mehr Nutzer anzieht und weniger lehrt.
Die KI, die fragt, statt zu antworten
Jede einzelne User-Research-Sitzung, die wir gemacht haben, enthielt mindestens eine Person, die sagte: “Wäre nützlich, wenn die KI mir eine Zusammenfassung schreiben könnte.” Jede Sitzung, ohne Ausnahme.
Sie haben recht damit, dass es nützlich wäre. Sie irren sich darin, Nützlichkeit für das Ziel zu halten. Eine KI, die dir die Vorlesung zusammenfasst, ist eine KI, die den Teil des Lernens übernimmt, der deine Arbeit war. Du bekommst eine Zusammenfassung. Du fühlst dich, als hättest du gelernt. Du erinnerst dich an nichts.
Socratic Mode existiert genau deshalb, um nicht das zu tun, was die Nutzer verlangen. Er befragt das Canvas, statt es zusammenzufassen. Auf der Achse der unmittelbaren Zufriedenheit, in der ersten Interaktion, verliert er gegen eine KI, die erklärt. Auf der Achse der Behaltensleistung Wochen später [Roediger und Karpicke, 2006] View in bibliography → gewinnt er mit Abständen, neben denen die Kurzfristpräferenz unbedeutend wirkt.
Der Trade-off ist real. Manche Nutzer überschreiten die Schwelle nie. Für die, die sie überschreiten, ist der Unterschied das Produkt.
Der Confidence-Slider
Du hast eine Antwort fertig geschrieben. Du tippst auf “Lösung anzeigen”. Fluera bittet dich vorher um eine letzte Sache: bewerte deine Confidence, von 1 bis 5.
Es ist eine kleine Unterbrechung. Pro Trial kommen zwei oder drei Sekunden dazu. Über eine ganze Sitzung summieren sich diese Sekunden. Die Nutzer bitten darum, das auszuschalten.
Der Slider ist strukturell. Der Hyperkorrektureffekt von Butterfield und Metcalfe [Butterfield und Metcalfe, 2001] View in bibliography → — Fehler, die mit hoher Confidence gemacht und dann korrigiert werden, sitzen besser als Fehler mit niedriger Confidence — verlangt, dass du deine Confidence benannt hast, bevor die Korrektur eintrifft. Ohne Slider korrigierst du im Nebel und die Korrektur verblasst. Mit Slider wird der Kontrast explizit und die Korrektur landet.
Wir behalten den Slider. Die Reibung ist der Mechanismus.
Fog of War für die Prüfungsvorbereitung
Der naheliegende Weg, sich auf eine Prüfung vorzubereiten, ist, die Notizen erneut zu lesen. Die Flüssigkeit steigt. Die wahrgenommene Vorbereitung steigt. Am Prüfungstag bricht die Leistung ein — denn Wiedererkennung ist nicht Abruf, und die Prüfung verlangt Abruf.
Fog of War kehrt die Interaktion um. Im Prüfungsmodus verbirgt Fluera dein Canvas — es maskiert die Regionen, die du bereits abgedeckt hast, und bittet dich, sie aus dem Gedächtnis abzurufen, bevor sie wieder freigegeben werden. Die erste Sitzung ist furchtbar. Du sitzt vor einem vernebelten Canvas und entdeckst, wie viel von dem, was du zu wissen glaubtest, du nicht produzieren kannst.
Die Nutzer hassen die erste Sitzung. Sie lieben die Prüfungsergebnisse. Die Reibung der ersten Sitzung ist es, was diese Ergebnisse möglich macht.
Was wir nicht tun (und wofür wir uns entschuldigen)
Die Evidenz stützt auch einige Interventionen, die wir nicht gebaut haben. Interleaving — die Themenfolge während der Übung zu randomisieren, statt in Blöcken zu üben [Rohrer und Taylor, 2007] — ist robust dafür belegt, den Transfer zu verbessern. Wir wollen tiefere Interleaving-Funktionen bauen. Das Hindernis ist, dass das Produktgefühl einer zufälligen Themenfolge ohne sorgfältiges Design tief desorientierend wirken kann. Die User Experience bricht ein, bevor der kognitive Vorteil greift.
Diesen Trade-off zu managen — den Flow zu wahren, während man erwünschte Reibung einführt — ist das härteste Designproblem, das wir haben.
Das Muster
Das Muster, das alle diese Entscheidungen durchzieht, lautet: die unmittelbare Nutzerpräferenz ist ein systematisch irreführendes Signal. Nutzer bevorzugen die einfache Version. Die einfache Version ist schlechter. Die schwerere Version zu bauen wird oft im Nachhinein belohnt — durch Behaltensleistung, durch Prüfungsergebnisse, durch den seltenen Nutzer, der zurückkommt und sagt: “Ich hielt euch für verrückt, jetzt verstehe ich es.” Aber sie wird fast immer im Vorhinein bestraft — durch Churn, durch schlechte Bewertungen, durch die Versuchung, beim nächsten Mal die einfachere Version auszuliefern.
Wir versuchen, dieser Versuchung zu widerstehen. Manchmal scheitern wir. Wir liefern aus, ziehen zurück, liefern wieder aus.
Die Wette ist, dass es in einem Feld — Ed-Tech — in dem jeder Konkurrent der Nutzerpräferenz nachgegeben und Werkzeuge gebaut hat, die sich gut anfühlen und wenig lehren, Platz gibt für ein Werkzeug, das sich schlechter anfühlt und besser lehrt.
Wenn du uns helfen willst, das herauszufinden, die Beta ist offen.