OpenAI lança Operator, um agente que navega na web para você

Uma pessoa está usando um laptop que exibe uma página da web com o título 'Operator'. A página contém a seguinte solicitação: 'Find me a hotel in NYC for Oct 1st - Oct 7th. I have no preference for room size'. Abaixo da solicitação, há um ícone do site Priceline. Imagem: OpenAI.

Na semana passada, a OpenAI anunciou uma solução que promete ajudar bastante os usuários em tarefas que envolvem navegar na web. Trata-se do Operator, um agente de IA que tem a função de realizar tarefas usando o navegador de internet.

De acordo com o anúncio, o Operator é capaz de interagir naturalmente com as páginas web. Ele é capaz de digitar, clicar ou rolar as páginas durante suas tarefas. Isso significa que o agente pode realizar algumas ações para você, ou seja, você pede e ele faz o trabalho para você.

Um agente de IA é um programa de computador, que utiliza o poder da inteligência artificial, para interagir com o ambiente e realizar trabalhos por você. Ele é projetado para realizar tarefas de forma autônoma e utiliza IA para tomar decisões e interagir com o ambiente e seus usuários. Além disso, eles são capazes de aprender com suas experiências para aprimorar seu comportamento e ser mais eficiente.

Como funciona o Operator, agente de IA da OpenAI?

Segundo sua desenvolvedora, um novo modelo chamado Computer-Using Agent (CUA) alimenta este atente. Esse modelo foi treinado para interagir com interfaces gráficas de usuário (botões, campos de texto e menus) e combina recursos de visão do GPT-4o com raciocínio avançado.

Dessa forma, o Operator é capaz de interagir com o navegador web sem exigir API´s personalizadas, pois ele tem a capacidade de analisar o ambiente visualmente. Conforme explica a OpenAI, ele utiliza captura de tela para “ver” e é capaz de interagir usando ações usando mouse e teclado virtuais.

O Operator funciona com percepção, raciocínio e ação. O usuário passa as instruções e o agente percebe o estado atual do computador através de capturas de tela. Em seguida, o modelo CUA raciocina os próximos passos baseados nessas capturas de tela e nas instruções dadas pelo usuário, para então realizar as ações.

Uma captura de tela de uma conversa em que o usuário pede ajuda ao agente Operator, para encontrar e reservar o tour de um dia mais bem avaliado de Roma no TripAdvisor. A resposta detalha os passos para realizar a pesquisa no site do TripAdvisor. Ao lado, há uma captura de tela mostrando um tour intitulado 'Rome: Colosseum, Roman Forum and Palatine Hill' com 5.220 avaliações. Créditos: OpenAI.
No exemplo, usuário pede ao Operator para encontrar e reservar um “tour de um dia mais bem avaliado de Roma” no Tripadvisor. Imagem: OpenAI.

Além disso, o Opetator é capaz de se auto corrigir em caso de erros e desafios encontrados, usando sua capacidade de raciocínio. Ainda assim ele devolve o controle ao usuário, caso ele fique preso ou necessite de alguma assistência. Isso significa que ele atua de forma colaborativa com o usuário, conforme comunicado da OpenAI.

O Operator representa mais um avanço da OpenAI no mercado de IA. Contudo, a empresa informou que essa é uma versão prévia de pesquisa e que, além de possuir limitações, evoluirá baseado no feedback dos usuários. Além disso, no momento ele só está disponível para usuários assinantes do plano Pro nos Estados Unidos. A OpenAI informou que pretende expandir para os usuários dos planos Plus, Team e Enterprise, além de integrar ao ChatGPT no futuro.

Agora é com você! Compartilhe esse conteúdo por aí e não deixe de seguir nossas redes sociais nos botões a seguir. Até breve!

Fonte: OpenAI. Imagem de capa: OpenAI.