GPT-4o

GPT-4o
DesenvolvedorOpenAI
Lançamento inicial13 de maio de 2024 (1 ano)
Repositóriohttps://chat.openai.com/
TipoInteligência Artificial
LicençaProprietária
Websiteopenai.com/index/hello-gpt-4o

GPT-4o[a] é um transformador generativo multimodal e multilíngue pré-treinado, desenvolvido pela OpenAI e lançado em maio de 2024.[1] O GPT-4o é gratuito, mas assinantes do ChatGPT Plus contam com limites de uso mais elevados.[2] Ele é capaz de processar e gerar texto, imagens e áudio.[3] Sua interface de programação de aplicativos (API) é mais rápida e econômica que a de seu antecessor, GPT-4 Turbo.[1]

Antecendentes

Diversas versões do GPT-4o foram originalmente lançadas de forma discreta, sob nomes diferentes, na Chatbot Arena da Large Model Systems Organization (LMSYS), apresentadas como três modelos distintos. Esses modelos foram nomeados como gpt2-chatbot, im-a-good-gpt2-chatbot e im-also-a-good-gpt2-chatbot.[4] Em 7 de maio de 2024, o CEO da OpenAI, Sam Altman, tuitou "im-a-good-gpt2-chatbot", o que foi amplamente interpretado como uma confirmação de que esses eram novos modelos da OpenAI sendo testados em experimentos A/B.[5][6]

Capacidades

Lançado em maio de 2024, o GPT-4o alcançou resultados de ponta em benchmarks de voz, multilíngue e visão, estabelecendo novos recordes em reconhecimento de fala e tradução de áudio.[7][8] O GPT-4o obteve uma pontuação de 88,7 no benchmark Massive Multitask Language Understanding ( MMLU ), em comparação com 86,5 do GPT-4.[9] Diferentemente do GPT-3.5 e do GPT-4, que dependem de outros modelos para processar áudio, o GPT-4o oferece suporte nativo à conversão de voz em voz.[9] O Modo de Voz Avançado foi inicialmente adiado, mas acabou sendo lançado para assinantes do ChatGPT Plus e Team em setembro de 2024.[10] Em 1° de outubro de 2024, a API em tempo real foi introduzida.[11]

No lançamento, o modelo oferecia suporte a mais de 50 idiomas,[1] o que, segundos a OpenAI, cobre mais de 97% da população global de falantes.[12] Mira Murati demonstrou a capacidade multilíngue do modelo ao conversar em italiano e realizar traduções entre inglês e italiano durante o evento de demonstração da OpenAI transmitido ao vivo em 13 de maio de 2024. Além disso, o novo tokenizador[13] utiliza menos tokens para determinados idiomas – especialmente aqueles que não usam o alfabeto latino – tornando o uso mais econômico nesses casos.[9]

O GPT-4o possui conhecimento acumulado até outubro de 2023,[14][15] mas é capaz de acessar a internet quando são necessárias informações atualizadas. Ele conta com um comprimento de contexto de 128 mil tokens.[14]

Personalização corporativa

O processo de ajuste fino exige que os clientes enviem seus dados para os servidores da OpenAI, sendo que o treinamento geralmente leva de uma a duas horas. O objetivo da OpenAI com essa implementação é reduzir a complexidade e o esforço necessários para que as empresas personalizem soluções de IA conforme suas necessidades, o que pode aumentar tanto a adoção quanto a eficácia da IA em ambientes corporativos.[16][17]

GPT-4o mini

Em 18 de julho de 2024, a OpenAI lançou uma versão menor e mais acessível, o GPT-4o mini.[18]

Segundo a OpenAI, seu baixo custo é especialmente vantajoso para empresas, startups e desenvolvedores que buscam integrá-lo aos seus serviços – geralmente caracterizados por alto volume de chamadas de API. Sua API custa quinze centavos de dólar por milhão de tokens de entrada e sessenta centavos de dólar por milhão de tokens de saída, em comparação com dois dólares e cinquenta centavos e dez dólares,[19] respectivamente, do GPT-4o. Ele também é significativamente mais eficiente e 60% mais barato que o GPT-3.5 Turbo, que substituiu como modelo padrão na interface do ChatGPT.[18] O custo dobra em casos de ajuste fino: 30 centavos de dólar por milhão de tokens de entrada e um dólar e vinte centavos por milhão de tokens de saída.[19] Estima-se que o modelo tenha oito bilhões de parâmetros.[20]

O GPT-4o mini é o modelo padrão para usuários gratuitos e para aqueles que atingem o limite de uso do GPT-4o.

GPT Image 1

GPT Image 1
DesenvolvedorOpenAI
Lançamento inicial25 de março de 2025
TipoModelo de texto para imagem
Websiteplatform.openai.com/docs/models/gpt-image-1

Em 25 de março de 2025, a OpenAI lançou um modelo de geração de imagens nativo do GPT-4o, como sucessor do DALL-E 3. Posteriormente, o modelo foi nomeado GPT Image 1 (gpt-image-1) e integrado à API em 23 de abril. Inicialmente, foi disponibilizado para usuários pagos, enquanto o lançamento para usuários gratuitos foi adiado.[21]

O uso do recurso foi posteriormente limitado, com Sam Altman comentando em um tweet que "[as] GPUs estavam derretendo" devido à popularidade sem precedentes do modelo.[22] Mais tarde, a OpenAI revelou que mais de 130 milhões de usuários ao redor do mundo criaram mais de 700 milhões de imagens com o GPT Image 1 apenas na primeira semana⁠.[23]

Controvérsias

Controvérsia sobre Scarlett Johansson

Quando foi lançado, o GPT-4o oferecia cinco vozes: Breeze, Cove, Ember, Juniper e Sky. Rapidamente, foi notada uma semelhança entre a voz Sky e a da atriz americana Scarlett Johansson. Em 14 de maio, a Entertainment Weekly questionou se essa semelhança havia sido intencional.[24] Em 18 de maio, o marido de Johansson, Colin Jost, comentou de forma bem-humorada sobre a semelhança durante um quadro do Saturday Night Live.[25] Em 20 de maio de 2024, a OpenAI desativou a voz Sky, emitindo uma nota afirmando: "Recebemos perguntas sobre como escolhemos as vozes no ChatGPT, especialmente Sky. Estamos trabalhando para suspender temporariamente o uso da voz Sky enquanto lidamos com essas questões."[26]

Scarlett Johansson protagonizou o filme de ficção científica Her, de 2013, interpretando Samantha, uma assistente virtual com inteligência artificial representada por uma voz feminina. Como parte da divulgação que antecedeu o lançamento do GPT-4o, Sam Altman publicou no X (antigo Twitter), em 13 de maio, uma única palavra: "ela".[27][28]

A OpenAI afirmou que todas as vozes foram baseadas em atuações de dubladores profissionais contratados. Segundo a empresa, "a voz de Sky não é uma imitação de Scarlett Johansson, mas pertence a uma atriz profissional diferente, utilizando sua própria voz natural."[26] A diretora de tecnologia da OpenAI, Mira Murati, declarou: "Não sabia sobre essa voz. Tive, inclusive, que ir ouvir a voz da Scarlett Johansson." A empresa também informou que o elenco de dublagem havia sido finalizado antes de qualquer contato com Johansson.[28][29]

Em 21 de maio, Johansson divulgou um comunicado informando que a OpenAI havia, por diversas vezes, feito propostas para licenciar sua voz cerca de nove meses antes do lançamento do GPT-4o – propostas que ela recusou. Ela afirmou ter ficado "chocada, irritada e incrédula ao saber que o Sr. Altman criaria uma voz tão estranhamente semelhante à minha que nem mesmo meus amigos mais próximos e veículos de imprensa conseguiam perceber a diferença". No comunicado, Johansson também destacou a ausência de salvaguardas legais adequadas para o uso de trabalhos criativos em sistemas avançados de inteligência artificial, informando que seu advogado solicitou esclarecimentos à OpenAI sobre como a voz Sky foi criada.[28][30]

Observadores compararam o episódio com a forma o processo que Johansson moveu contra a The Walt Disney Company por quebra de contrato, relacionado ao lançamento do filme Viúva Negra diretamente no streaming,[31] o qual teria rendido à atriz um acordo estimado em cerca de 40 milhões de dólares.[32]

Também em 21 de maio, a colunista Shira Ovide, do The Washington Post, incluiu o caso na sua lista de "autopromoções mais desastrosas" de empresas de tecnologia, classificando a decisão da OpenAI – de lançar uma voz semelhante a de Johansson e depois negar a semelhança – em sexto lugar.[33] Em 24 de maio, Derek Robertson, do Politico, escreveu sobre a "forte repercussão" do caso, concluindo que "apropriar-se da voz de uma das estrelas do cinema mais famosas do mundo — em referência [...] a um filme que serve como advertência sobre a dependência excessiva da — dificilmente ajudará a reconquistar o apoio público a [Sam Altman] num futuro próximo."[34]

Filtro do Studio Ghibli

Imagem de uma prisão publicada pela conta oficial da Casa Branca no Twitter. A representação em estilo Studio Ghibli gerou críticas.[35]

Com o lançamento do recurso de geração de imagens do GPT-4o (posteriomente denominado GPT Image 1), em março de 2025, fotografias recriadas no estilo dos filmes do Studio Ghibli rapidamente se tornaram virais.[36] Sam Altman reconheceu a tendência ao alterar sua foto de perfil para uma imagem inspirada nesse estilo.[37][38] O uso do visual característico do Studio Ghibli gerou controvérsias, sendo criticado por veículos como a Associated Press e o The New York Times, que relembraram declarações do diretor Hayao Miyazaki contra a arte produzida por IA no documentário Never-Ending Man: Hayao Miyazaki, de 2016.[35][39]

A polêmica se intensificou quando a conta oficial da Casa Branca no Twitter publicou uma imagem no estilo Ghibli zombando da prisão da imigrante Virginia Basora-Gonzalez por autoridades migratórias. A imagem a retratava chorando, enquanto era algemada por um agente de intimidação, o que gerou fortes reações negativas.[35][40][41] Em resposta à crescente tendência do uso desse estilo, a distribuidora norte-americana GKIDS emitiu um comunicado à imprensa, comparando esse fenômeno ao relançamento em IMAX do filme Mononoke Hime, de 1997, produzido pelo Studio Ghibli.[42]

Notas e referências

Notas

  1. O "o" em GPT-4o é um acrônimo de "omni".

Referências

  1. a b c Wiggers, Kyle (13 de maio de 2024). «OpenAI debuts GPT-4o 'omni' model now powering ChatGPT». TechCrunch (em inglês). Consultado em 13 de maio de 2024 
  2. Field, Hayden (13 de maio de 2024). «OpenAI launches new AI model GPT-4o and desktop version of ChatGPT». CNBC (em inglês). Consultado em 14 de maio de 2024 
  3. Colburn, Thomas. «OpenAI unveils GPT-4o, a fresh multimodal AI flagship model». The Register (em inglês). Consultado em 18 de maio de 2024 
  4. Edwards, Benj (13 de maio de 2024). «Before launching, GPT-4o broke records on chatbot leaderboard under a secret name». Ars Technica (em inglês). Consultado em 17 de maio de 2024 
  5. Zeff, Maxwell (7 de maio de 2024). «Powerful New Chatbot Mysteriously Returns in the Middle of the Night». Gizmodo (em inglês). Consultado em 17 de maio de 2024 
  6. «Sam Altman (@sama) on X». X (formerly Twitter) (em inglês). Consultado em 6 de abril de 2025. Cópia arquivada em 17 de dezembro de 2024 
  7. van Rijmenam, Mark (13 de maio de 2024). «OpenAI Launched GPT-4o: The Future of AI Interactions Is Here». The Digital Speaker. Consultado em 17 de maio de 2024 
  8. Daws, Ryan (14 de maio de 2024). «GPT-4o delivers human-like AI interaction with text, audio, and vision integration». AI News (em inglês). Consultado em 18 de maio de 2024 
  9. a b c «Hello GPT-4o». OpenAI 
  10. David, Emilia (24 de setembro de 2024). «OpenAI finally brings humanlike ChatGPT Advanced Voice Mode to U.S. Plus, Team users». VentureBeat (em inglês). Consultado em 15 de fevereiro de 2025 
  11. «Introducing the Realtime API». openai.com (em inglês). Consultado em 29 de novembro de 2024 
  12. Edwards, Benj (13 de maio de 2024). «Major ChatGPT-4o update allows audio-video talks with an "emotional" AI chatbot». Ars Technica (em inglês). Consultado em 17 de maio de 2024 
  13. «OpenAI Platform». platform.openai.com (em inglês). Consultado em 29 de novembro de 2024 
  14. a b «Models - OpenAI API». OpenAI. Consultado em 17 de maio de 2024 
  15. Conway, Adam (13 de maio de 2024). «What is GPT-4o? Everything you need to know about the new OpenAI model that everyone can use for free». XDA Developers (em inglês). Consultado em 17 de maio de 2024 
  16. The Hindu Bureau (21 de agosto de 2024). «OpenAI will let businesses customise GPT-4o for specific use cases». The Hindu (em inglês). ISSN 0971-751X. Consultado em 22 de agosto de 2024 
  17. «OpenAI lets companies customise its most powerful AI model». South China Morning Post (em inglês). 21 de agosto de 2024. Consultado em 22 de agosto de 2024 
  18. a b Franzen, Carl (18 de julho de 2024). «OpenAI unveils GPT-4o mini — a smaller, much cheaper multimodal AI model». VentureBeat (em inglês). Consultado em 18 de julho de 2024 
  19. a b «OpenAI Pricing» 
  20. Ben Abacha, Asma (2025). «MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes». arXiv:2412.19260Acessível livremente [cs.CL] 
  21. Roth, Emma (26 de março de 2025). «ChatGPT's new image generator is delayed for free users». The Verge. Consultado em 26 de março de 2025 
  22. Welch, Chris (27 de março de 2025). «OpenAI says "our GPUs are melting" as it limits ChatGPT image generation requests». The Verge. Consultado em 28 de março de 2025 
  23. «Introducing our latest image generation model in the API». OpenAI. 23 de abril de 2025. Consultado em 30 de abril de 2025 
  24. Stenzel, Wesley (14 de maio de 2024). «ChatGPT launching talking AI that sounds exactly like Scarlett Johansson in 'Her' — on purpose?». Entertainment Weekly (em inglês). Consultado em 21 de maio de 2024 
  25. Caruso, Nick (20 de maio de 2024). «Scarlett Johansson Says She Was 'Shocked, Angered and in Disbelief' After Hearing ChatGPT Voice That Sounds Like Her — Read Statement». TVLine (em inglês). Consultado em 21 de maio de 2024 
  26. a b «How the voices for ChatGPT were chosen». OpenAI. 19 de maio de 2024 
  27. «her». X (formerly Twitter). 13 de maio de 2024. Consultado em 21 de maio de 2024 
  28. a b c Allyn, Bobby (20 de maio de 2024). «Scarlett Johansson says she is 'shocked, angered' over new ChatGPT voice». NPR 
  29. Tiku, Nitasha (23 de maio de 2024). «OpenAI didn't copy Scarlett Johansson's voice for ChatGPT, records show». The Washington Post. Consultado em 29 de novembro de 2024 
  30. Mickle, Tripp (20 de maio de 2024). «Scarlett Johansson Said No, but OpenAI's Virtual Assistant Sounds Just Like Her». The New York Times (em inglês). ISSN 0362-4331. Consultado em 21 de maio de 2024 
  31. «Scarlett Johansson took on Disney. Now she's battling OpenAI over a ChatGPT voice that sounds like hers». Yahoo Finance (em inglês). 21 de maio de 2024. Consultado em 21 de maio de 2024 
  32. Pulver, Andrew (1 de outubro de 2021). «Scarlett Johansson settles Black Widow lawsuit with Disney». The Guardian (em inglês). ISSN 0261-3077. Consultado em 21 de maio de 2024 
  33. Ovide, Shira (30 de maio de 2024). «Exactly how stupid was what OpenAI did to Scarlett Johansson?». The Washington Post 
  34. Robertson, Derek (22 de maio de 2024). «Sam Altman's Scarlett Johansson Blunder Just Made AI a Harder Sell in DC». Politico 
  35. a b c O'Brien, Matt; Parvini, Sarah (27 de março de 2025). «ChatGPT's viral Studio Ghibli-style images highlight AI copyright concerns». AP News (em inglês). Consultado em 28 de março de 2025 
  36. Spangler, Todd (26 de março de 2025). «OpenAI CEO Responds to ChatGPT Users Creating Studio Ghibli-Style AI Images». Variety. Consultado em 27 de março de 2025 
  37. Choudhary, Govind (27 de março de 2025). «OpenAI CEO Sam Altman reacts as AI turns him into a Studio Ghibli Character». Mint (em inglês). Consultado em 28 de março de 2025 
  38. Notopoulos, Katie (27 de março de 2025). «Sam Altman did a good tweet». Business Insider. Consultado em 28 de março de 2025 
  39. Kircher, Madison Malone (27 de março de 2025). «ChatGPT's Studio Ghibli Style Animations Are Almost Too Good». The New York Times (em inglês). Consultado em 27 de março de 2025. Arquivado do original em 27 de março de 2025 
  40. Bio, Demian (27 de março de 2025). «White House Mocks Migrant With Criminal Record Who Cried After Being Arrested». Latin Times (em inglês). Consultado em 28 de março de 2025 
  41. Vera, Kelby (27 de março de 2025). «White House Posts Ghoulish AI Cartoon Showing Woman's Deportation». HuffPost (em inglês). Consultado em 28 de março de 2025 
  42. Tangcay, Jazz (28 de março de 2025). «Studio Ghibli Distributor Champions 'Princess Mononoke' Box Office at 'A Time When Technology Tries to Replicate Humanity'». Variety. Consultado em 29 de março de 2025