𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔 𝗧𝗿𝗮𝗻𝘀𝗽𝗮𝗿𝗲𝗻𝘁 𝗗𝗶𝗴𝗶𝘁𝗮𝗹 𝗦𝗔𝗧 𝗦𝗰𝗼𝗿𝗲 𝗘𝘀𝘁𝗶𝗺𝗮𝘁𝗼𝗿

Translated for your language. Leggi l'originale.

AI-assisted draft.

GyaanSetu Editorial2 settimane fa2min di lettura

Costruire un estimatore trasparente del punteggio Digital SAT

La maggior parte dei calcolatori di punteggio utilizza un metodo semplice. Inserisci le risposte corrette, applichi una tabella e visualizzi un punteggio.

Questo metodo non funziona per il Digital SAT.

Il test è adattivo. Il modello di punteggio è privato. College Board non rilascia una tabella di conversione universale.

Quando ho costruito un estimatore di punteggio gratuito, avevo due opzioni:

Presentare una falsa precisione.
Rendere l'incertezza parte del prodotto.

Ho scelto la seconda opzione.

Il mio strumento non pretende di fornire un punteggio esatto. Non pretende di conoscere il percorso adattivo specifico di uno studente. Non pretende di corrispondere a un report ufficiale del punteggio.

Inveve, risponde a una sola domanda: Qual è l'intervallo di punteggio ampio che è utile per la pianificazione dello studio?

Questo approccio cambia il modo in cui funziona lo strumento. Il Digital SAT ha due moduli per sezione. La performance nel primo modulo cambia la difficoltà del secondo.

L'interfaccia richiede quattro input specifici:

Risposte corrette nel Modulo 1 di Matematica.
Risposte corrette nel Modulo 2 di Matematica.
Risposte corrette nel Modulo 1 di Lettura e Scrittura.
Risposte corrette nel Modulo 2 di Lettura e Scrittura.

Il codice utilizza questi totali per selezionare ampie fasce di pianificazione. Un risultato come 700-770 comunica fiducia meglio di un numero falso come 742.

Ho utilizzato una semplice logica di soglia per l'estimatore di Matematica:

if (total >= 41) return "760-800"; if (total >= 36) return "700-770"; if (total >= 31) return "640-710";

Questo approccio è onesto. Evita di nascondere formule speculative dietro i decimali.

Ho inoltre posizionato le limitazioni vicino al risultato invece di nasconderle in un piè di pagina. Gli utenti devono sapere che:

L'intervallo utilizza i totali delle risposte corrette.
Non riproduce il modello di punteggio ufficiale.
Diverse versioni del test producono punteggi diversi.
I punteggi ufficiali di Bluebook hanno la priorità.

Aggiungere più cifre fa sembrare la risposta precisa. Non rende il modello accurato. Un intervallo è un prodotto più onesto quando i dati sono incompleti.

Il mio obiettivo non è fare l'ingegneria inversa di un sistema privato. È costruire uno strumento di pianificazione trasparente.

Hai mai costruito strumenti utilizzando dati incompleti? In che modo comunichi l'incertezza ai tuoi utenti?

Fonte: https://dev.to/_258cd27a94f80dc3fcdac/building-a-transparent-digital-sat-score-estimator-without-pretending-it-is-exact-c8e

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔 𝗧𝗿𝗮𝗻𝘀𝗽𝗮𝗿𝗲𝗻𝘁 𝗗𝗶𝗴𝗶𝘁𝗮𝗹 𝗦𝗔𝗧 𝗦𝗰𝗼𝗿𝗲 𝗘𝘀𝘁𝗶𝗺𝗮𝘁𝗼𝗿

Continua a leggere

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

Come faccio A/B testing ai prompt degli LLM senza ingannarmi

Cosa mi ha detto GPT del mio paper