A Anthropic lançou um programa ambicioso destinado a financiar o desenvolvimento de novos benchmarks que possam avaliar de forma abrangente o desempenho e o impacto de modelos de IA, incluindo seus próprios modelos generativos como Claude.
O programa, anunciado recentemente, pretende alocar recursos para organizações externas capazes de medir eficazmente as capacidades avançadas desses modelos, focando especialmente em segurança e implicações sociais.
O programa da Anthropic destinará recursos a organizações terceirizadas que possam, conforme descrito no blog da empresa, “medir efetivamente capacidades avançadas em modelos de IA”. As organizações interessadas podem enviar suas candidaturas, que serão avaliadas de forma contínua.
Leita também
“O nosso investimento nestas avaliações tem como objetivo elevar todo o campo da segurança em IA, proporcionando ferramentas valiosas que beneficiem todo o ecossistema”, escreveu a Anthropic em seu blog oficial. “Desenvolver avaliações de alta qualidade e relevantes para a segurança continua a ser um desafio, e a demanda está superando a oferta.”
Como já destacado anteriormente, a IA enfrenta um problema de benchmarking. Os benchmarks mais citados atualmente fazem um péssimo trabalho em capturar como o usuário comum realmente utiliza os sistemas testados. Além disso, há dúvidas sobre se alguns benchmarks, especialmente aqueles lançados antes do surgimento da IA generativa moderna, realmente medem o que se propõem a medir, dado o seu tempo de criação.
A solução proposta pela Anthropic é criar benchmarks desafiadores com foco na segurança da IA e nas implicações sociais, utilizando novas ferramentas, infraestrutura e métodos. A empresa pede especificamente por testes que avaliem a capacidade de um modelo para realizar tarefas como ataques cibernéticos, “aprimorar” armas de destruição em massa (como armas nucleares) e manipular ou enganar pessoas (através de deepfakes ou desinformação). Para riscos de IA relacionados à segurança nacional e defesa, a Anthropic está comprometida em desenvolver uma espécie de “sistema de alerta precoce” para identificar e avaliar riscos, embora não revele no blog como esse sistema funcionará.
Além disso, a Anthropic pretende que seu novo programa apoie pesquisas em benchmarks e tarefas “end-to-end” que investiguem o potencial da IA para auxiliar em estudos científicos, conversar em múltiplos idiomas, mitigar preconceitos enraizados e auto-censurar toxicidades. Para atingir esses objetivos, a empresa imagina novas plataformas que permitam a especialistas desenvolver suas próprias avaliações e testes em larga escala envolvendo “milhares” de usuários.
A empresa afirma ter contratado um coordenador em tempo integral para o programa e que pode adquirir ou expandir projetos que acredita terem potencial para escalar.
“Oferecemos uma variedade de opções de financiamento adaptadas às necessidades e estágio de cada projeto”, escreve a Anthropic no post, embora um porta-voz da empresa tenha se recusado a fornecer mais detalhes sobre essas opções. “As equipes terão a oportunidade de interagir diretamente com os especialistas da Anthropic em áreas como red team, ajuste fino, confiança e segurança, e outras equipes relevantes.”
O esforço da Anthropic para apoiar novos benchmarks de IA é louvável — assumindo, claro, que haja dinheiro e mão de obra suficientes por trás disso. Mas, dada a ambição comercial da empresa na corrida pela IA, pode ser difícil confiar completamente nesse esforço.
No blog, a Anthropic é bastante transparente ao afirmar que deseja que certas avaliações que financia estejam alinhadas com as classificações de segurança em IA que desenvolveu (com alguma contribuição de terceiros, como a organização de pesquisa em IA sem fins lucrativos METR). Isso está bem dentro da prerrogativa da empresa. Mas também pode forçar os candidatos ao programa a aceitarem definições de IA “segura” ou “arriscada” com as quais possam não concordar.
Uma parte da comunidade de IA provavelmente também questionará as referências da Anthropic a riscos de IA “catastróficos” e “enganosos”, como os riscos de armas nucleares. Muitos especialistas dizem que há pouca evidência para sugerir que a IA, como a conhecemos, ganhará capacidades de superinteligência destrutivas em breve, se é que algum dia o fará. Afirmar que a superinteligência está iminente serve apenas para desviar a atenção das questões regulatórias urgentes da IA atualmente, como as tendências alucinatórias da IA, acrescentam esses especialistas.
Em seu post, a Anthropic escreve que espera que seu programa sirva como “um catalisador para o progresso em direção a um futuro onde a avaliação abrangente de IA seja um padrão da indústria”. Essa é uma missão que muitos esforços abertos e não afiliados a corporações para criar melhores benchmarks de IA podem identificar-se. Mas resta saber se esses esforços estarão dispostos a unir forças com um fornecedor de IA cuja lealdade, em última análise, reside nos acionistas.
Esta iniciativa da Anthropic visa preencher lacunas críticas na avaliação de IA, destacando a importância de benchmarks relevantes e eficazes para garantir a segurança e a responsabilidade na aplicação de tecnologias avançadas.
Com um foco renovado em segurança e impacto social, a Anthropic busca elevar os padrões da indústria, proporcionando uma estrutura mais robusta e confiável para medir o desempenho dos modelos de IA em cenários do mundo real.