Image Credits: OpenAI |
OpenAI estreia modelo ‘omni’ GPT-4o agora impulsionando o ChatGPT
A OpenAI anunciou na segunda-feira um novo modelo de IA generativa, chamado GPT-4o — o “o” significa “omni”, referindo-se à capacidade do modelo de lidar com texto, fala e vídeo. O GPT-4o será implementado “iterativamente” nos produtos da empresa voltados para desenvolvedores e consumidores nas próximas semanas.
A CTO da OpenAI, Mira Murati, disse que o GPT-4o oferece inteligência no nível do GPT-4, mas aprimora as capacidades do GPT-4 em múltiplas modalidades e mídias.
“GPT-4o raciocina através da voz, texto e visão,” disse Murati durante uma apresentação transmitida no escritório da OpenAI em San Francisco na segunda-feira. “E isso é incrivelmente importante, porque estamos olhando para o futuro da interação entre nós e as máquinas.”
O GPT-4 Turbo, o modelo anterior “mais avançado” da OpenAI, foi treinado em uma combinação de imagens e texto e podia analisar imagens e texto para realizar tarefas como extrair texto de imagens ou até mesmo descrever o conteúdo dessas imagens. Mas o GPT-4o adiciona a fala à mistura.
O que isso possibilita? Uma variedade de coisas.
Image Credits: OpenAI |
O GPT-4o melhora significativamente a experiência no chatbot da OpenAI, o ChatGPT. A plataforma há muito tempo oferece um modo de voz que transcreve as respostas do chatbot usando um modelo de conversão de texto em fala, mas o GPT-4o potencializa isso, permitindo que os usuários interajam com o ChatGPT de forma mais parecida com um assistente.
Por exemplo, os usuários podem fazer uma pergunta ao ChatGPT impulsionado pelo GPT-4o e interromper o ChatGPT enquanto ele está respondendo. O modelo oferece respostas em “tempo real”, diz a OpenAI, e pode até captar nuances na voz do usuário, respondendo com vozes em “uma gama de diferentes estilos emotivos” (incluindo cantando).
O GPT-4o também aprimora as capacidades visuais do ChatGPT. Dada uma foto — ou uma tela de desktop — o ChatGPT agora pode responder rapidamente a perguntas relacionadas, sobre tópicos que vão desde “O que está acontecendo neste código de software?” até “Qual é a marca da camisa que esta pessoa está vestindo?”
Image Credits: OpenAI |
Essas funcionalidades evoluirão ainda mais no futuro, diz Murati. Enquanto hoje o GPT-4o pode olhar para uma foto de um menu em um idioma diferente e traduzi-lo, no futuro, o modelo pode permitir que o ChatGPT, por exemplo, “assista” a um jogo de esportes ao vivo e explique as regras para você.
“Sabemos que esses modelos estão se tornando cada vez mais complexos, mas queremos que a experiência de interação se torne realmente mais natural, fácil, e para que você não se concentre na interface do usuário, mas sim na colaboração com o ChatGPT,” disse Murati. “Nos últimos anos, estivemos muito focados em melhorar a inteligência desses modelos... Mas esta é a primeira vez que estamos realmente dando um grande passo à frente quando se trata de facilidade de uso.”
O GPT-4o também é mais multilíngue, afirma a OpenAI, com desempenho aprimorado em cerca de 50 idiomas. E na API da OpenAI e no Microsoft Azure OpenAI Service, o GPT-4o é duas vezes mais rápido, custa metade do preço e tem limites de taxa mais altos do que o GPT-4 Turbo, diz a empresa.
Atualmente, a voz não faz parte da API do GPT-4o para todos os clientes. A OpenAI, citando o risco de uso indevido, diz que planeja primeiro lançar o suporte para as novas capacidades de áudio do GPT-4o para “um pequeno grupo de parceiros de confiança” nas próximas semanas.
O GPT-4o está disponível na camada gratuita do ChatGPT a partir de hoje e para assinantes dos planos premium ChatGPT Plus e Team da OpenAI com limites de mensagens “5x maiores”. (A OpenAI observa que o ChatGPT mudará automaticamente para o GPT-3.5, um modelo mais antigo e menos capaz, quando os usuários atingirem o limite de taxa.) A experiência de voz aprimorada do ChatGPT sustentada pelo GPT-4o chegará em alfa para usuários Plus no próximo mês, juntamente com opções voltadas para empresas.
Em notícias relacionadas, a OpenAI anunciou que está lançando uma interface renovada do ChatGPT na web com uma nova tela inicial e layout de mensagens “mais conversacional”, e uma versão desktop do ChatGPT para macOS que permite aos usuários fazer perguntas via atalho de teclado ou tirar e discutir capturas de tela. Os usuários do ChatGPT Plus terão acesso ao aplicativo primeiro, a partir de hoje, e uma versão para Windows chegará ainda este ano.
Em outros lugares, a GPT Store, a biblioteca e ferramentas de criação da OpenAI para chatbots de terceiros construídos em seus modelos de IA, agora está disponível para usuários da camada gratuita do ChatGPT. E os usuários gratuitos podem aproveitar as funcionalidades do ChatGPT que antes estavam bloqueadas, como uma capacidade de memória que permite ao ChatGPT “lembrar” preferências para futuras interações, fazer upload de arquivos e fotos, e pesquisar na web por respostas a perguntas atuais.