OpenAI revela novo ChatGPT que escuta, olha e fala

0 3 minutes read

À medida que a Apple e o Google transformam seus assistentes de voz em chatbots, a OpenAI está transformando seu chatbot em um assistente de voz.

Na segunda-feira, a start-up de inteligência artificial de São Francisco revelou uma nova versão do seu chatbot ChatGPT que pode receber e responder a comandos de voz, imagens e vídeos.

A empresa disse que o novo aplicativo – baseado em um sistema de IA chamado GPT-4o – faz malabarismos com áudio, imagens e vídeo significativamente mais rápido do que as versões anteriores da tecnologia. O aplicativo estará disponível a partir de segunda-feira, gratuitamente, tanto para smartphones quanto para computadores desktop.

“Estamos olhando para o futuro da interação entre nós e as máquinas”, disse Mira Murati, diretora de tecnologia da empresa.

O novo aplicativo faz parte de um esforço mais amplo para combinar chatbots de conversação como o ChatGPT com assistentes de voz como o Google Assistant e o Siri da Apple. À medida que o Google funde seu chatbot Gemini com o Google Assistant, a Apple prepara uma nova versão do Siri que é mais conversacional.

A OpenAI disse que compartilharia gradualmente a tecnologia com os usuários “nas próximas semanas”. Esta é a primeira vez que oferece o ChatGPT como um aplicativo de desktop.

Anteriormente, a empresa oferecia tecnologias semelhantes em vários produtos gratuitos e pagos. Agora, ela os reuniu em um único sistema que está disponível para todos os seus produtos.

Durante um evento transmitido pela Internet, Murati e seus colegas exibiram o novo aplicativo enquanto ele respondia a comandos de voz de conversação, usaram um vídeo ao vivo para analisar problemas de matemática escritos em uma folha de papel e leram em voz alta histórias divertidas que ele havia feito. escrito na hora.

O novo aplicativo não pode gerar vídeo. Mas pode gerar imagens estáticas que representam frames de um vídeo.

Com a estreia do ChatGPT no final de 2022, a OpenAI mostrou que as máquinas podem lidar com solicitações mais como as pessoas. Em resposta a solicitações de texto de conversação, ele poderia responder a perguntas, escrever trabalhos de conclusão de curso e até mesmo gerar código de computador.

O ChatGPT não foi regido por um conjunto de regras. Ele aprendeu suas habilidades analisando enormes quantidades de texto coletado na Internet, incluindo artigos da Wikipédia, livros e registros de bate-papo. Especialistas saudaram a tecnologia como uma possível alternativa a mecanismos de busca como o Google e assistentes de voz como o Siri.

Versões mais recentes da tecnologia também aprenderam com sons, imagens e vídeos. Os pesquisadores chamam isso de “IA multimodal”. Essencialmente, empresas como a OpenAI começaram a combinar chatbots com geradores de imagem, áudio e vídeo de IA.

(O New York Times processou a OpenAI e sua parceira, a Microsoft, em dezembro, alegando violação de direitos autorais de conteúdo de notícias relacionado a sistemas de IA.)

À medida que as empresas combinam chatbots com assistentes de voz, muitos obstáculos permanecem. Como os chatbots aprendem suas habilidades com dados da Internet, eles estão sujeitos a erros. Às vezes, eles constituem inteiramente informações – um fenômeno que os pesquisadores de IA chamam de “alucinação”. Essas falhas estão migrando para assistentes de voz.

Embora os chatbots possam gerar uma linguagem convincente, eles são menos hábeis em realizar ações como agendar uma reunião ou reservar um voo. Mas empresas como a OpenAI estão trabalhando para transformá-los em “agentes de IA” que possam lidar com essas tarefas de maneira confiável.

A OpenAI ofereceu anteriormente uma versão do ChatGPT que podia aceitar comandos de voz e responder com voz. Mas foi uma colcha de retalhos de três tecnologias diferentes de IA: uma que converteu voz em texto, uma que gerou uma resposta de texto e outra que converteu este texto numa voz sintética.

O novo aplicativo é baseado em uma única tecnologia de IA – GPT-4o – que pode aceitar e gerar texto, sons e imagens. Isso significa que a tecnologia é mais eficiente e a empresa pode oferecê-la gratuitamente aos usuários, disse Murati.

“Antes, havia toda essa latência resultante do trabalho conjunto de três modelos”, disse Murati em entrevista ao The Times. “Você quer ter a experiência que estamos tendo – onde podemos ter esse diálogo muito natural.”

Source link