Ho lavorato a un nuovo algoritmo di inferenza LLM. Si chiama Decodifica Speculativa Speculativa (SSD) ed è fino a 2 volte più veloce dei motori di inferenza più potenti al mondo. Collaborazione con @tri_dao @avnermay. Dettagli nel thread.