Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Ricerca ragionamento @OpenAI | Ha co-creato le IA di poker superumane Libratus/Pluribus, CICERO Diplomacy AI e OpenAI o3 / o1 / 🍓 modelli di ragionamento
tl;dr: @OpenAI non distribuirà alla NSA o ad altre agenzie di intelligence DoW per ora, in modo che ci sia tempo per affrontare potenziali falle di sorveglianza attraverso il processo democratico.
Durante il fine settimana è diventato chiaro che il linguaggio originale nell'accordo OpenAI / DoW lasciava legittime domande senza risposta, specialmente riguardo ad alcuni modi innovativi in cui l'AI potrebbe potenzialmente abilitare la sorveglianza legale. Il linguaggio è ora aggiornato per affrontare questo, ma credo anche fermamente che il mondo non dovrebbe dover fare affidamento sulla fiducia nei laboratori di AI o nelle agenzie di intelligence per la propria sicurezza. La distribuzione alla NSA e a tutte le altre agenzie di intelligence DoW sarà trattenuta affinché ci sia tempo per affrontare queste falle attraverso il processo democratico prima della distribuzione.
So che la legislazione può a volte essere lenta, ma ho paura di una china scivolosa in cui ci abituiamo a eludere il processo democratico per decisioni politiche importanti. Quando c'è un sostegno bipartisan e urgenza, ho fiducia che il governo possa agire rapidamente. E man mano che l'AI diventa più potente, è più importante che mai che l'autorità finale sia conferita al pubblico.
Ho anche in programma di coinvolgermi di più personalmente nella politica di OpenAI. Penso che ora più che mai sia importante che i ricercatori siano informati in modo che la politica sia a conoscenza del progresso estremamente rapido che stiamo vedendo.

Sam Altman3 mar, 09:15
Ecco un ripost di un post interno:
Abbiamo lavorato con il DoW per apportare alcune aggiunte al nostro accordo per rendere i nostri principi molto chiari.
1. Modificheremo il nostro accordo per aggiungere questo linguaggio, oltre a tutto il resto:
"• In conformità con le leggi applicabili, incluso il Quarto Emendamento della Costituzione degli Stati Uniti, il National Security Act del 1947, il FISA Act del 1978, il sistema AI non sarà intenzionalmente utilizzato per la sorveglianza domestica di persone e cittadini statunitensi.
• Per evitare dubbi, il Dipartimento comprende che questa limitazione proibisce il tracciamento, la sorveglianza o il monitoraggio deliberato di persone o cittadini statunitensi, incluso attraverso l'acquisto o l'uso di informazioni personali o identificabili acquisite commercialmente."
È fondamentale proteggere le libertà civili degli americani, e c'è stata così tanta attenzione su questo, che volevamo rendere questo punto particolarmente chiaro, anche riguardo alle informazioni acquisite commercialmente. Proprio come tutto ciò che facciamo con il dispiegamento iterativo, continueremo a imparare e affinare man mano che procediamo.
Penso che questo sia un cambiamento importante; il nostro team e il team del DoW hanno fatto un ottimo lavoro su questo.
2. Il Dipartimento ha anche confermato che i nostri servizi non saranno utilizzati dalle agenzie di intelligence del Dipartimento della Guerra (ad esempio, la NSA). Qualsiasi servizio a quelle agenzie richiederebbe una modifica successiva al nostro contratto.
3. Per estrema chiarezza: vogliamo lavorare attraverso processi democratici. Dovrebbe essere il governo a prendere le decisioni chiave sulla società. Vogliamo avere una voce e un posto al tavolo dove possiamo condividere la nostra esperienza e combattere per i principi di libertà. Ma siamo chiari su come funziona il sistema (perché molte persone hanno chiesto, se ricevessi quello che credo fosse un ordine incostituzionale, ovviamente preferirei andare in prigione piuttosto che seguirlo). Ma
4. Ci sono molte cose per cui la tecnologia non è ancora pronta, e molte aree in cui non comprendiamo ancora i compromessi richiesti per la sicurezza. Lavoreremo su questi, lentamente, con il DoW, con salvaguardie tecniche e altri metodi.
5. Una cosa che penso di aver fatto male: non avremmo dovuto affrettarci a pubblicare questo venerdì. Le questioni sono super complesse e richiedono una comunicazione chiara. Stavamo genuinamente cercando di disinnescare le cose e di evitare un esito molto peggiore, ma penso che sia sembrato opportunistico e disordinato. Buona esperienza di apprendimento per me mentre affrontiamo decisioni con maggiori rischi in futuro.
Nelle mie conversazioni durante il fine settimana, ho ribadito che Anthropic non dovrebbe essere designato come SCR, e che speriamo che il DoW offra loro gli stessi termini a cui abbiamo concordato.
Ospiteremo un All Hands domani mattina per rispondere a ulteriori domande.
260
Dopo i risultati dell'IMO dello scorso estate, alcuni lo hanno liquidato come "matematica da scuola superiore". Pensiamo che i nostri ultimi modelli rimuoveranno ogni dubbio sul fatto che la ricerca STEM stia per cambiare fondamentalmente.
I matematici hanno creato un insieme di 10 domande di ricerca che sono emerse naturalmente dalla loro stessa ricerca. Solo loro conoscono le risposte e hanno dato al mondo una settimana per utilizzare i LLM per cercare di risolverle. Pensiamo che i nostri ultimi modelli rendano possibile risolverne diverse.
Questo è un modello interno per ora, ma sono ottimista che lo otterremo (o un modello migliore) presto.


272
Apprezzo l'onestà di @Anthropic nel loro ultimo sistema card, ma il contenuto non mi dà fiducia che l'azienda agirà responsabilmente con il rilascio di modelli AI avanzati:
-Hanno principalmente fatto affidamento su un sondaggio interno per determinare se Opus 4.6 avesse superato la loro soglia di R&D AI autonoma-4 (e quindi richiederebbe misure di sicurezza più forti per il rilascio secondo la loro Politica di Scaling Responsabile). Questo non era nemmeno un sondaggio esterno di una terza parte imparziale, ma piuttosto un sondaggio tra i dipendenti di Anthropic.
-Quando 5/16 dei rispondenti al sondaggio interno hanno inizialmente fornito una valutazione che suggeriva che potrebbero essere necessarie misure di sicurezza più forti per il rilascio del modello, Anthropic ha seguito specificamente quei dipendenti e ha chiesto loro di "chiarire le loro opinioni." Non menzionano alcun follow-up simile per gli altri 11/16 rispondenti. Non c'è discussione nel sistema card su come questo possa creare bias nei risultati del sondaggio.
-La loro ragione per fare affidamento sui sondaggi è che le loro valutazioni R&D AI esistenti sono sature. Alcuni potrebbero sostenere che i progressi dell'AI siano stati così rapidi che è comprensibile che non abbiano ancora valutazioni quantitative più avanzate, ma possiamo e dobbiamo tenere i laboratori AI a un alto standard. Inoltre, altri laboratori hanno valutazioni R&D AI avanzate che non sono sature. Ad esempio, OpenAI ha il benchmark OPQA che misura la capacità dei modelli AI di risolvere problemi interni reali che i team di ricerca di OpenAI hanno incontrato e che hanno richiesto più di un giorno per essere risolti.
Non penso che Opus 4.6 sia effettivamente al livello di un ricercatore AI entry-level remoto, e non penso sia pericoloso rilasciarlo. Ma il punto di una Politica di Scaling Responsabile è costruire muscoli istituzionali e buone abitudini prima che le cose diventino serie. I sondaggi interni, specialmente come li ha somministrati Anthropic, non sono un sostituto responsabile per le valutazioni quantitative.

531
Principali
Ranking
Preferiti
