ChatGPT está ficando mais comunicativo com o ‘modo avançado de voz’
A OpenAI surpreendeu os usuários quando demonstrou um modo de voz atualizado para a versão mais avançada do ChatGPT no início deste ano.
Longe do tipo de voz robótica que as pessoas associam a assistentes digitais como Alexa ou Siri, o modo avançado de voz do ChatGPT soa notavelmente realista. Ele responde em tempo real, pode se ajustar a interrupções, pode fazer sons de risadas quando o usuário faz uma piada e pode julgar o estado emocional do falante com base no tom de voz. (Durante a demonstração inicial, também soava suspeitosamente como Scarlett Johansson).
A partir de terça-feira, o modo avançado de voz — que funciona com a versão mais poderosa do chatbot, o ChatGPT-4o — começará a ser disponibilizado para usuários pagos. O modo avançado de voz começará a ser disponibilizado para um pequeno grupo de assinantes do modo “Plus” do aplicativo, com o objetivo de torná-lo disponível para todos os usuários Plus no outono.
O ChatGPT já possui um modo de voz menos sofisticado. Mas a introdução de um modo de voz mais avançado pode marcar um ponto de virada significativo para a OpenAI, transformando o que já era um chatbot de IA significativo em algo mais semelhante a um assistente pessoal virtual com o qual os usuários podem conversar de forma natural, da mesma forma que conversariam com um amigo. A facilidade de conversar com o modo avançado de voz do ChatGPT pode encorajar os usuários a utilizarem a ferramenta com mais frequência e representar um desafio para assistentes virtuais incumbentes como Apple e Amazon.
Mas a introdução de um modo de voz mais avançado para o ChatGPT também levanta grandes questões: A ferramenta entenderá de forma confiável o que os usuários estão tentando dizer, mesmo que tenham diferenças de fala? E os usuários estarão mais inclinados a confiar cegamente em um assistente de IA com voz humana, mesmo quando ele errar?
Inicialmente, a OpenAI disse que planejava iniciar a disponibilização do modo avançado de voz em junho, mas afirmou que precisava de “mais um mês para atingir nosso padrão de lançamento” para testar a segurança da ferramenta e garantir que ela pudesse ser usada por milhões de pessoas, mantendo respostas em tempo real.
A empresa disse que, nos últimos meses, testou as capacidades de voz do modelo de IA com mais de 100 testadores buscando identificar possíveis fraquezas, “que coletivamente falam um total de 45 idiomas diferentes e representam 29 diferentes geografias,” de acordo com um comunicado de terça-feira.
Entre suas medidas de segurança, a empresa afirmou que o modo de voz não poderá usar outras vozes além de quatro opções pré-definidas que foram criadas em colaboração com atores de voz — para evitar a personificação — e também bloqueará certos pedidos que visem gerar músicas ou outros áudios protegidos por direitos autorais. A OpenAI diz que a ferramenta também terá as mesmas proteções do modo de texto do ChatGPT para impedir a geração de conteúdo ilegal ou “prejudicial”.
O modo avançado de voz também terá uma diferença significativa em relação à demonstração que a OpenAI mostrou em maio: os usuários não poderão mais acessar a voz que muitos (incluindo a própria atriz) acreditavam soar como Johansson. Embora a OpenAI tenha mantido que a voz nunca foi destinada a soar como Johansson e tenha sido criada com a ajuda de outro ator, ela interrompeu o uso da voz “por respeito” após a reclamação da atriz.
O lançamento do modo avançado de voz do ChatGPT ocorre depois que a OpenAI anunciou na semana passada que estava testando um motor de busca que usa sua tecnologia de IA, à medida que a empresa continua a expandir seu portfólio de ferramentas de IA voltadas para o consumidor. O motor de busca da OpenAI pode eventualmente representar uma grande ameaça competitiva ao domínio do Google nas buscas online.