Come appaiono le 'difficoltà desiderabili' dentro un'app

Quando presentiamo Fluera a osservatori scettici, l’idea singola che fa più lavoro è le difficoltà desiderabili di Robert Bjork ^{[Bjork, 1994]
Bjork (1994) View in bibliography →} . Una volta che le persone assorbono che le condizioni di studio più facili quasi sempre producono esiti peggiori, il resto delle nostre decisioni di design smette di sembrare bizzarro e inizia a sembrare inevitabile.

Ma “inevitabile” sta facendo molto lavoro lì. Trasformare un risultato di ricerca in un’interfaccia di prodotto coinvolge trade-off che non compaiono nelle meta-analisi. Ecco un bilancio parziale.

Il canvas vuoto

L’app di studio di default ha un template. Lo apri e c’è una struttura suggerita — uno scheletro di mind-map, una lista puntata, un layout Cornell. Il template abbassa l’energia di attivazione. Sembra utile.

Non lo è. Un template ti lascia saltare il passo di generazione — l’atto cognitivo di decidere cosa appartiene dove, cosa si connette a cosa, qual è il concetto centrale. Il passo di generazione è l’apprendimento. Saltarlo è saltare il motivo stesso di avere il quaderno.

Il canvas di Fluera è vuoto. Infinito, vuoto, non intimidatorio. Il costo è che i nuovi utenti sentono l’attrito immediatamente. Alcuni se ne vanno. Lo accettiamo. L’alternativa è uno strumento che attira più utenti e ne insegna a meno.

L’IA che chiede, non risponde

Ogni sessione di user research che abbiamo fatto ha incluso almeno una persona che diceva “sarebbe utile se l’IA potesse scrivermi un riassunto.” Ogni singola sessione.

Hanno ragione che sarebbe utile. Sbagliano sul fatto che l’utilità sia l’obiettivo. Un’IA che ti riassume la lezione è un’IA che si occupa della parte di apprendimento che era supposto fosse tuo lavoro. Ottieni un riassunto. Ti senti di aver studiato. Non ricordi nulla.

Socratic Mode esiste specificamente per non fare la cosa che gli utenti chiedono. Interroga il canvas invece di riassumerlo. Sull’asse della soddisfazione utente, alla prima interazione, ottiene meno di un’IA che spiega. Sull’asse della ritenzione settimane dopo ^{[Roediger e Karpicke, 2006]
Roediger e Karpicke (2006) View in bibliography →} , vince di margini che fanno sembrare insignificante la preferenza di breve termine.

Il trade-off è reale. Alcuni utenti non superano mai la soglia. Per quelli che la superano, la differenza è il prodotto.

Lo slider di confidenza

Hai finito di scrivere una risposta. Tocchi “rivela la soluzione”. Fluera ti chiede un’ultima cosa prima: valuta la tua confidenza, da 1 a 5.

È una piccola interruzione. A ogni trial aggiunge due o tre secondi. Nel corso di una sessione, quei secondi si sommano. Gli utenti chiedono di spegnerla.

Lo slider è portante. L’effetto ipercorrezione di Butterfield e Metcalfe ^{[Butterfield e Metcalfe, 2001]
Butterfield e Metcalfe (2001) View in bibliography →} — gli errori fatti con alta confidenza, una volta corretti, si fissano di più degli errori fatti con bassa confidenza — richiede che tu abbia nominato la tua confidenza prima che arrivi la correzione. Senza lo slider correggi nella nebbia e la correzione sbiadisce. Con lo slider il contrasto è esplicito e la correzione atterra.

Teniamo lo slider. La seccatura è il meccanismo.

Fog of War per la preparazione all’esame

Il modo ovvio di prepararsi a un esame è rileggere gli appunti. La fluenza aumenta. La preparazione percepita aumenta. Il giorno dell’esame, la prestazione crolla — perché il riconoscimento non è recupero, e l’esame chiede recupero.

Fog of War inverte l’interazione. In modalità esame, Fluera nasconde il tuo canvas — maschera le regioni che hai già coperto e ti chiede di recuperarle dalla memoria prima di rivelare. La prima sessione è terribile. Stai davanti a un canvas nebbioso e scopri quanto di ciò che pensavi di sapere non riesci a produrre.

Gli utenti odiano la prima sessione. Adorano i risultati dell’esame. L’attrito della prima sessione è ciò che rende possibili quei risultati.

Cosa non facciamo (e ci dispiace di non fare)

L’evidenza supporta anche alcuni interventi che non abbiamo costruito. L’interleaving — randomizzare l’ordine degli argomenti durante la pratica invece di fare blocchi ^{[Rohrer e Taylor, 2007]
Rohrer e Taylor (2007)} — è robustamente dimostrato per migliorare il transfer. Vogliamo costruire funzioni di interleaving più profonde. L’ostacolo è che la sensazione di prodotto di un ordine di argomenti casuale, senza design attento, può essere profondamente disorientante. L’esperienza utente crolla prima che il beneficio cognitivo entri in gioco.

Gestire quel trade-off — preservare il flow mentre si introduce attrito desiderabile — è il problema di design più duro che abbiamo.

Lo schema

Lo schema che attraversa tutte queste decisioni è: la preferenza utente di breve termine è un segnale sistematicamente fuorviante. Gli utenti preferiscono la versione facile. La versione facile è peggiore. Costruire la versione più difficile viene spesso premiato dopo — dalla ritenzione, dai risultati d’esame, dal raro utente che torna e dice “pensavo foste pazzi, ora capisco.” Ma viene quasi sempre punito prima — dal churn, dalle recensioni cattive, dalla tentazione di rilasciare la versione più facile la volta dopo.

Proviamo a resistere a quella tentazione. A volte falliamo. Rilasciamo e ritiriamo e rilasciamo di nuovo.

La scommessa è che, in un campo — l’ed-tech — dove ogni concorrente si è arreso alla preferenza utente e ha costruito strumenti che fanno sentire bene e insegnano poco, c’è spazio per uno strumento peggiore nella sensazione e migliore nell’insegnamento.

Se vuoi aiutarci a scoprirlo, la beta è aperta.