OpenAI está lançando um novo agente de IA de uso geral no ChatGPT, que, segundo a empresa, pode realizar uma ampla variedade de tarefas computacionais em nome dos usuários. A OpenAI afirma que o agente pode navegar automaticamente pelo calendário do usuário, gerar apresentações e slideshows editáveis e executar código.
A ferramenta, chamada de agente ChatGPT, combina diversos recursos das ferramentas agênticas anteriores da OpenAI, incluindo a capacidade do Operator de clicar em sites , bem como a capacidade do Deep Research de sintetizar informações de dezenas de sites em um relatório de pesquisa conciso. A OpenAI afirma que os usuários poderão interagir com o agente simplesmente ativando o ChatGPT em linguagem natural.
O agente ChatGPT será lançado na quinta-feira para assinantes dos planos Pro, Plus e Team da OpenAI. Para ativar a ferramenta, os usuários podem selecionar “modo agente” no menu suspenso de ferramentas do ChatGPT.
O lançamento do agente ChatGPT representa a tentativa mais ousada da OpenAI de transformar o ChatGPT em um produto agêntico que pode realizar ações e delegar tarefas aos usuários, em vez de apenas responder a perguntas. Nos últimos anos, empresas do Vale do Silício, incluindo OpenAI, Google e Perplexity, revelaram dezenas de agentes de IA que prometiam fazer exatamente isso. No entanto, essas versões iniciais de agentes de IA têm se mostrado difíceis de lidar com tarefas complexas e parecem menos atraentes como produtos do que os executivos de tecnologia de visão de ponta que propõem agentes de IA.
Dito isso, a OpenAI diz que o agente ChatGPT é muito mais capaz do que suas ofertas anteriores.
O novo agente da empresa pode acessar conectores ChatGPT , permitindo que os usuários conectem aplicativos como Gmail e GitHub para que o agente encontre informações relevantes para seus prompts. A OpenAI afirma que o agente ChatGPT tem acesso a um terminal e pode usar APIs para acessar determinados aplicativos.
A OpenAI sugere que os usuários possam usar o agente ChatGPT para “planejar e comprar ingredientes para preparar um café da manhã japonês para quatro pessoas”, bem como “analisar três concorrentes e criar um slide deck”. Esses tipos de recursos exigem que o agente ChatGPT analise sites, planeje ações e use ferramentas — tarefas muito mais complexas do que as que a OpenAI já tentou realizar com agentes.
O modelo subjacente ao agente ChatGPT oferece desempenho de última geração em vários benchmarks, de acordo com a OpenAI.
A empresa afirma que o modelo de agente ChatGPT obteve 41,6% no Último Exame da Humanidade (pass@1), um teste complexo composto por milhares de perguntas sobre mais de cem disciplinas. Isso é quase o dobro da pontuação obtida pelo o3 e o4-mini da OpenAI no teste.
No FrontierMath, um dos benchmarks matemáticos mais complexos conhecidos, a OpenAI afirma que o agente ChatGPT obtém 27,4% quando tem acesso a ferramentas, como um terminal para execução de código. A pontuação de última geração anterior veio do o4-mini, que obteve apenas 6,3%.
A OpenAI observa que desenvolveu o agente ChatGPT com a segurança em mente, principalmente porque o produto apresenta alguns recursos inovadores que podem torná-lo mais perigoso nas mãos de um agente mal-intencionado. A OpenAI já havia alertado que modelos agenticos poderiam apresentar recursos ainda mais perigosos.
Em um relatório de segurança para o agente ChatGPT, a OpenAI diz que designou o modelo como “alta capacidade” em domínios de armas biológicas e químicas, o que é definido na Estrutura de Preparação da OpenAI como um modelo com a capacidade de “amplificar os caminhos existentes para danos graves”. A OpenAI observa que não tem evidências diretas disso, mas decidiu adotar uma abordagem preventiva e ativar novas salvaguardas para mitigar esses riscos.
As novas proteções para o agente ChatGPT incluem um monitor que funciona em tempo real enquanto os usuários interagem com o produto. A OpenAI afirma que executa um classificador em cada solicitação inserida no agente ChatGPT, determinando se a solicitação está relacionada à biologia. Em caso afirmativo, a OpenAI executa a resposta do agente ChatGPT por meio de um segundo monitor que determina se o conteúdo pode ser usado para evocar uma ameaça biológica.
A OpenAI também afirma ter desativado o recurso de memória do ChatGPT para este agente para evitar o uso indevido. Em outras partes do ChatGPT, o recurso de memória da OpenAI permite que o chatbot consulte informações de conversas anteriores do usuário. No entanto, a OpenAI afirma que pessoas mal-intencionadas podem usar o recurso do agente ChatGPT para exfiltrar dados confidenciais por meio de ataques de injeção de prompt. A empresa afirma, no entanto, que pode revisitar a adição do recurso no futuro.
Embora o agente ChatGPT pareça impressionante, ainda não se sabe quão eficiente ele realmente é no mundo real. Até agora, a tecnologia de agentes se mostrou relativamente frágil ao interagir com o mundo real. Dito isso, a OpenAI afirma ter desenvolvido um modelo mais eficiente, capaz de cumprir a promessa dos agentes de IA.