Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Pesquisando @OpenAI de raciocínio | Cocriou IAs de poker sobre-humanas Libratus/Pluribus, CICERO Diplomacy AI e modelos de raciocínio OpenAI o3 / o1 / 🍓
resumo: @OpenAI não irá implementar na NSA ou em outras agências de inteligência do DoW por enquanto, para que haja tempo para abordar possíveis lacunas de vigilância através do processo democrático.
Durante o fim de semana, ficou claro que a linguagem original no acordo OpenAI / DoW deixou perguntas legítimas sem resposta, especialmente em torno de algumas maneiras novas que a IA poderia potencialmente permitir a vigilância legal. A linguagem agora foi atualizada para abordar isso, mas também acredito fortemente que o mundo não deve ter que confiar em laboratórios de IA ou agências de inteligência para sua segurança. A implementação na NSA e em todas as outras agências de inteligência do DoW será retida para que haja tempo para abordar essas lacunas através do processo democrático antes da implementação.
Sei que a legislação pode ser lenta às vezes, mas temo uma ladeira escorregadia onde nos acostumamos a contornar o processo democrático para decisões políticas importantes. Quando há apoio bipartidário e urgência, tenho fé de que o governo pode agir rapidamente. E à medida que a IA se torna mais poderosa, é mais importante do que nunca que a autoridade final seja investida no público.
Também estou planejando me envolver mais pessoalmente com a política na OpenAI. Acho que agora, mais do que nunca, é importante que os pesquisadores estejam a par para que a política esteja informada do progresso extremamente rápido que estamos vendo.

Sam Altman3/03, 09:15
Aqui está uma re-publicação de um post interno:
Temos trabalhado com o DoW para fazer algumas adições ao nosso acordo para deixar nossos princípios muito claros.
1. Vamos alterar nosso contrato para adicionar esta linguagem, além de tudo o mais:
"• De acordo com as leis aplicáveis, incluindo a Quarta Emenda da Constituição dos Estados Unidos, a Lei de Segurança Nacional de 1947, a Lei FISA de 1978, o sistema de IA não deve ser intencionalmente usado para vigilância doméstica de cidadãos e nacionais dos EUA.
• Para evitar dúvidas, o Departamento entende que esta limitação proíbe o rastreamento, vigilância ou monitoramento deliberado de cidadãos ou nacionais dos EUA, incluindo através da aquisição ou uso de informações pessoais ou identificáveis adquiridas comercialmente."
É crítico proteger as liberdades civis dos americanos, e houve tanto foco nisso, que queríamos deixar este ponto especialmente claro, incluindo em relação às informações adquiridas comercialmente. Assim como tudo o que fazemos com implantação iterativa, continuaremos a aprender e refinar à medida que avançamos.
Acho que esta é uma mudança importante; nossa equipe e a equipe do DoW fizeram um ótimo trabalho nisso.
2. O Departamento também afirmou que nossos serviços não serão usados por agências de inteligência do Departamento de Guerra (por exemplo, a NSA). Quaisquer serviços para essas agências exigiriam uma modificação posterior ao nosso contrato.
3. Para extrema clareza: queremos trabalhar através de processos democráticos. Deve ser o governo a tomar as decisões-chave sobre a sociedade. Queremos ter uma voz e um assento à mesa onde possamos compartilhar nossa experiência e lutar pelos princípios da liberdade. Mas estamos claros sobre como o sistema funciona (porque muitas pessoas perguntaram, se eu recebesse o que acreditava ser uma ordem inconstitucional, é claro que eu preferiria ir para a prisão do que segui-la). Mas
4. Há muitas coisas para as quais a tecnologia simplesmente não está pronta, e muitas áreas que ainda não entendemos os trade-offs necessários para a segurança. Trabalharemos através disso, lentamente, com o DoW, com salvaguardas técnicas e outros métodos.
5. Uma coisa que acho que fiz errado: não deveríamos ter apressado isso na sexta-feira. As questões são super complexas e exigem comunicação clara. Estávamos genuinamente tentando desescalar as coisas e evitar um resultado muito pior, mas acho que apenas parecia oportunista e descuidado. Boa experiência de aprendizado para mim enquanto enfrentamos decisões de maior risco no futuro.
Em minhas conversas durante o fim de semana, reiterei que a Anthropic não deveria ser designada como um SCR, e que esperamos que o DoW ofereça a eles os mesmos termos que concordamos.
Faremos uma reunião geral amanhã de manhã para responder a mais perguntas.
238
Após os resultados do IMO no verão passado, alguns descartaram isso como "matemática de ensino médio". Acreditamos que nossos modelos mais recentes removerão qualquer dúvida de que a pesquisa em STEM está prestes a mudar fundamentalmente.
Matemáticos criaram um conjunto de 10 questões de pesquisa que surgiram naturalmente de suas próprias investigações. Apenas eles conhecem as respostas, e deram ao mundo uma semana para usar LLMs para tentar resolvê-las. Acreditamos que nossos modelos mais recentes tornam possível resolver várias delas.
Este é um modelo interno por enquanto, mas estou otimista de que conseguiremos lançá-lo (ou um modelo melhor) em breve.


252
Aprecio a honestidade da @Anthropic no seu mais recente cartão de sistema, mas o conteúdo dele não me dá confiança de que a empresa agirá de forma responsável na implementação de modelos avançados de IA:
- Eles confiaram principalmente em uma pesquisa interna para determinar se o Opus 4.6 ultrapassou o seu limite de P&D de IA autônoma R&D-4 (e, portanto, exigiria salvaguardas mais rigorosas para ser lançado sob a sua Política de Escalonamento Responsável). Esta não foi nem mesmo uma pesquisa externa de uma terceira parte imparcial, mas sim uma pesquisa com funcionários da Anthropic.
- Quando 5/16 dos respondentes da pesquisa interna inicialmente deram uma avaliação que sugeria que salvaguardas mais rigorosas poderiam ser necessárias para o lançamento do modelo, a Anthropic seguiu com esses funcionários especificamente e pediu-lhes para "esclarecer suas opiniões." Eles não mencionam nenhum acompanhamento semelhante para os outros 11/16 respondentes. Não há discussão no cartão de sistema sobre como isso pode criar viés nos resultados da pesquisa.
- A razão deles para confiar em pesquisas é que as suas avaliações de P&D de IA existentes estão saturadas. Alguns podem argumentar que o progresso da IA tem sido tão rápido que é compreensível que eles não tenham avaliações quantitativas mais avançadas ainda, mas podemos e devemos exigir muito dos laboratórios de IA. Além disso, outros laboratórios têm avaliações de P&D de IA avançadas que não estão saturadas. Por exemplo, a OpenAI tem o benchmark OPQA que mede a capacidade dos modelos de IA de resolver problemas internos reais que as equipes de pesquisa da OpenAI encontraram e que levaram mais de um dia para resolver.
Não acho que o Opus 4.6 esteja realmente no nível de um pesquisador de IA iniciante remoto, e não acho que seja perigoso liberá-lo. Mas o objetivo de uma Política de Escalonamento Responsável é construir músculo institucional e bons hábitos antes que as coisas se tornem sérias. Pesquisas internas, especialmente como a Anthropic as administrou, não são um substituto responsável para avaliações quantitativas.

515
Top
Classificação
Favoritos
