Locale o Cloud: il carico di lavoro deve meritarselo
Il machine learning è spesso caotico.
Esegui un lavoro sulla tua macchina e fallisce. Controlli il codice. Controlli i dati. Passi ore a fare il debugging di un semplice errore nel preprocessing.
Questa è la parte meno affascinante del lavoro. È la fase in cui non sai nemmeno se la tua idea funzioni.
Molte persone discutono tra hardware locale e cloud compute. Guardano fogli di calcolo e confrontano i costi. Confrontano il prezzo di una workstation con la tariffa oraria di una GPU nel cloud.
Questo è il modo sbagliato di vedere la questione.
Il vero dibattito riguarda l'incertezza.
Le prime fasi del lavoro di ML sono piene di incertezza. Ti scontri con:
- Dipendenze interrotte
- Dimensioni dei tensor errate
- Necessità di reshaping dei dati
- Errori dell'ambiente
Se usi il cloud durante questa fase, paghi per la tua confusione. Ogni errore costa denaro. Ogni ora che passi a fare il debugging di un messaggio di errore è un'ora che paghi. Il cloud dà alla tua confusione un motore più veloce.
L'hardware locale serve a uno scopo diverso. È un luogo in cui l'incertezza costa poco. Una workstation ti permette di testare piccoli modelli e convalidare ipotesi senza un contatore che scorre. Ti permette di fallire in privato e gratuitamente.
Il cloud diventa utile quando il carico di lavoro matura.
Usa il cloud quando:
- Il tuo container è stabile
- Il tuo dataset è pronto
- Il tuo profilo di memoria è prevedibile
- Hai bisogno di una scala massiva
Il cloud compute serve per l'esecuzione. Il local compute serve per la scoperta.
La professionalità non consiste nell'usare la macchina più grande. Consiste nel sapere quando il proprio lavoro è pronto per lasciare la scrivania.
Se stai ancora scoprendo di cosa si tratta, resta in locale. Una volta compreso il compito e quando avrai bisogno di eseguirlo più velocemente, passa al cloud.
Non usare il cloud per avvolgere un esperimento vago in un'infrastruttura costosa. Aspetta che il lavoro si meriti il suo posto.
Fonte: https://dev.to/lareleem/local-or-not-the-workload-has-to-earn-the-cloud-2boe
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
