A OpenAI revelou nesta segunda-feira, 13, o novo cérebro do ChatGPT: o GPT-4o. Em uma demonstração que aproxima sua ferramenta do filme Ela (Spike Jonze, 2013), a companhia de inteligência artificial (IA) mostrou avanços sobre o GPT-4 turbo e ampliou a capacidade de processamento de texto e compreensão de imagens, além de manter suporte para conversas com voz.
Segundo a companhia, em relação ao atual GPT-4, o GPT-4o é duas vezes mais rápido no processamento de respostas, 50% mais barato e tem capacidade cinco vezes maior. No novo modelo, cada 1 milhão de tokens (pedacinhos de palavras) custa US$ 5 (referente a dados de entrada), ante US$ 10 no GPT-4 Turbo. Usuários da OpenAI, incluindo não assinantes do plano ChatGPT Plus, poderão acessar gratuitamente a nova IA, diz a startup americana.
A executiva Mira Murati, chefe de tecnologia da OpenAI, realizou demonstrações que indicam a capacidade do ChatGPT ao lidar com imagens e voz. Na demonstração, a IA aparentou estar não só mais inteligente, mas também mais natural nas respostas, com resultados menos robóticos e mais "humanos". O chatbot também demonstrou ser capaz de ler emoções humanas.
Murati anunciou que o GPT-4o também estará disponível como API (interface de aplicação de programação, na sigla em inglês), permitindo que desenvolvedores e empresas, sob uma assinatura, consigam "puxar" o ChatGPT para seus serviços e integrar o modelo de inteligência artificial em diferentes produtos. Além disso, a companhia anunciou melhorias para outros 50 idiomas.
A OpenAI também anunciou um novo aplicativo do ChatGPT para Mac, computador da Apple (NASDAQ:AAPL). A empresa afirma que vai ser mais fácil integrar o chatbot a tarefas do usuário.
O anúncio aconteceu a um dia de o Google (NASDAQ:GOOGL) realizar o seu principal evento do ano, o Google I/O, que também deve trazer novidades importantes na área. Especialistas esperam que a companhia demonstre a capacidade da IA Gemini como assistente pessoal.
Golpe para Siri e Alexa
O evento da OpenAI mostrou como funcionam as capacidades de multimodalidade do ChatGPT-4o. O modelo consegue ser um assistente de voz, similar à Alexa (da Amazon (NASDAQ:AMZN)) e à Siri (da Apple), e é capaz de ler imagens do mundo real a partir da câmera de um smartphone. A principal diferença para os rivais é que se trata de um único modelo capaz de realizar isso tudo.
Na demonstração, a IA consegue contar histórias com diferentes entonações na voz, como algo emocionado ou totalmente robótico. Além disso, com a câmera do celular, a IA ajuda a resolver equações matemáticas de primeiro grau escritas em uma folha de papel ou, ainda, atuar como um tradutor em tempo real de uma conversa. Segundo a OpenAI, essas funções vão chegar aos usuários nas próximas semanas.