Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Investigar el razonamiento @OpenAI | Co-creación de las IA de póker sobrehumano Libratus/Pluribus, CICERO Diplomacy AI y OpenAI o3 / o1 / 🍓 modelos de razonamiento
Resumen: @OpenAI no desplegará en la NSA ni en otras agencias de inteligencia de DoW por ahora, para que haya tiempo de abordar posibles lagunas de vigilancia a través del proceso democrático.
Durante el fin de semana quedó claro que el lenguaje original en el acuerdo de OpenAI / DoW dejaba preguntas legítimas sin respuesta, especialmente en torno a algunas formas novedosas en que la IA podría potencialmente habilitar la vigilancia legal. El lenguaje ahora se ha actualizado para abordar esto, pero también creo firmemente que el mundo no debería tener que depender de la confianza en los laboratorios de IA o en las agencias de inteligencia para su seguridad. El despliegue en la NSA y en todas las demás agencias de inteligencia de DoW se retendrá para que haya tiempo de abordar estas lagunas a través del proceso democrático antes del despliegue.
Sé que la legislación a veces puede ser lenta, pero temo una pendiente resbaladiza donde nos acostumbremos a eludir el proceso democrático para decisiones políticas importantes. Cuando hay apoyo bipartidista y urgencia, tengo fe en que el gobierno puede actuar rápidamente. Y a medida que la IA se vuelve más poderosa, es más importante que nunca que la autoridad última esté en manos del público.
También planeo involucrarme más personalmente con la política en OpenAI. Creo que ahora más que nunca es importante que los investigadores estén al tanto para que la política esté informada del progreso extremadamente rápido que estamos viendo.

Sam Altman3 mar, 09:15
Aquí hay una re-publicación de un post interno:
Hemos estado trabajando con el DoW para hacer algunas adiciones en nuestro acuerdo para dejar muy claros nuestros principios.
1. Vamos a enmendar nuestro acuerdo para añadir este lenguaje, además de todo lo demás:
"• De acuerdo con las leyes aplicables, incluyendo la Cuarta Enmienda de la Constitución de los Estados Unidos, la Ley de Seguridad Nacional de 1947, la Ley FISA de 1978, el sistema de IA no se utilizará intencionadamente para la vigilancia doméstica de personas y nacionales estadounidenses.
• Para evitar dudas, el Departamento entiende que esta limitación prohíbe el seguimiento, la vigilancia o el monitoreo deliberado de personas o nacionales estadounidenses, incluyendo a través de la adquisición o uso de información personal o identificable adquirida comercialmente."
Es fundamental proteger las libertades civiles de los estadounidenses, y hubo tanto enfoque en esto, que queríamos dejar este punto especialmente claro, incluyendo en torno a la información adquirida comercialmente. Al igual que todo lo que hacemos con el despliegue iterativo, continuaremos aprendiendo y refinando a medida que avanzamos.
Creo que este es un cambio importante; nuestro equipo y el equipo del DoW hicieron un gran trabajo en ello.
2. El Departamento también afirmó que nuestros servicios no serán utilizados por las agencias de inteligencia del Departamento de Guerra (por ejemplo, la NSA). Cualquier servicio a esas agencias requeriría una modificación posterior a nuestro contrato.
3. Para mayor claridad: queremos trabajar a través de procesos democráticos. Debería ser el gobierno quien tome las decisiones clave sobre la sociedad. Queremos tener voz y un lugar en la mesa donde podamos compartir nuestra experiencia y luchar por los principios de libertad. Pero tenemos claro cómo funciona el sistema (porque muchas personas han preguntado, si recibiera lo que creía que era una orden inconstitucional, por supuesto que preferiría ir a la cárcel que seguirla). Pero
4. Hay muchas cosas para las que la tecnología simplemente no está lista, y muchas áreas que aún no entendemos los compromisos requeridos para la seguridad. Trabajaremos en esto, lentamente, con el DoW, con salvaguardias técnicas y otros métodos.
5. Una cosa que creo que hice mal: no deberíamos haber apresurado esto para sacarlo el viernes. Los problemas son súper complejos y exigen una comunicación clara. Estábamos tratando genuinamente de desescalar las cosas y evitar un resultado mucho peor, pero creo que simplemente se vio oportunista y descuidado. Buena experiencia de aprendizaje para mí a medida que enfrentamos decisiones de mayor riesgo en el futuro.
En mis conversaciones durante el fin de semana, reiteré que Anthropic no debería ser designado como un SCR, y que esperamos que el DoW les ofrezca los mismos términos a los que hemos llegado.
Mañana por la mañana organizaremos una reunión general para responder más preguntas.
226
Después de los resultados de la IMO el verano pasado, algunos lo desestimaron como "matemáticas de secundaria". Creemos que nuestros últimos modelos eliminarán cualquier duda de que la investigación en STEM está a punto de cambiar fundamentalmente.
Los matemáticos crearon un conjunto de 10 preguntas de investigación que surgieron naturalmente de su propia investigación. Solo ellos conocen las respuestas, y le dieron al mundo una semana para usar LLMs y tratar de resolverlas. Creemos que nuestros últimos modelos hacen posible resolver varias de ellas.
Este es un modelo interno por ahora, pero soy optimista de que lo obtendremos (o un mejor modelo) pronto.


238
Aprecio la honestidad de @Anthropic en su última tarjeta de sistema, pero el contenido de la misma no me da confianza en que la empresa actuará de manera responsable con el despliegue de modelos avanzados de IA:
- Se basaron principalmente en una encuesta interna para determinar si Opus 4.6 cruzó su umbral de I+D de IA autónoma R&D-4 (y, por lo tanto, requeriría salvaguardias más estrictas para su lanzamiento bajo su Política de Escalado Responsable). Esta ni siquiera fue una encuesta externa de un tercero imparcial, sino más bien una encuesta de empleados de Anthropic.
- Cuando 5 de 16 encuestados internos dieron inicialmente una evaluación que sugería que podrían ser necesarias salvaguardias más fuertes para el lanzamiento del modelo, Anthropic siguió con esos empleados específicamente y les pidió que "aclararan sus opiniones". No mencionan ningún seguimiento similar para los otros 11 de 16 encuestados. No hay discusión en la tarjeta de sistema sobre cómo esto puede crear sesgo en los resultados de la encuesta.
- Su razón para depender de encuestas es que sus evaluaciones de I+D de IA existentes están saturadas. Algunos podrían argumentar que el progreso de la IA ha sido tan rápido que es comprensible que no tengan evaluaciones cuantitativas más avanzadas aún, pero podemos y debemos exigir a los laboratorios de IA un alto estándar. Además, otros laboratorios sí tienen evaluaciones avanzadas de I+D de IA que no están saturadas. Por ejemplo, OpenAI tiene el benchmark OPQA que mide la capacidad de los modelos de IA para resolver problemas internos reales que los equipos de investigación de OpenAI encontraron y que tomaron al equipo más de un día en resolver.
No creo que Opus 4.6 esté realmente al nivel de un investigador de IA remoto de nivel inicial, y no creo que sea peligroso lanzarlo. Pero el objetivo de una Política de Escalado Responsable es construir músculo institucional y buenos hábitos antes de que las cosas se pongan serias. Las encuestas internas, especialmente tal como las ha administrado Anthropic, no son un sustituto responsable para evaluaciones cuantitativas.

503
Parte superior
Clasificación
Favoritos
