Google Gemini
| Google Gemini | |
|---|---|
Captura de tela ![]() | |
| Desenvolvedores | Google AI e DeepMind |
| Lançamento inicial | 21 de março de 2023 (como Bard) 6 de dezembro de 2023 (anúncio do modelo Gemini) |
| Lançamento estável | 2.5
/ 25 de março de 2025 |
| Plataforma | |
| Antecessor | Bard, Google Assistente (em parte, no Android), Duet AI |
| Disponível em | Inglês, Português, e mais de 40 idiomas[1] |
| Tipo | modelo de linguagem grande chatbot inteligência artificial generativa |
| Licença | proprietário, com acesso via API e para desenvolvedores através do Google Cloud (Vertex AI) |
| Website | gemini |
Gemini, anteriormente conhecido como Bard,[2][3] é uma família de modelos de linguagem grande (LLMs) multimodais e um chatbot de inteligência artificial generativa desenvolvido pelo Google. Anunciado inicialmente como Bard, foi construído sobre a família de modelos de linguagem LaMDA e posteriormente evoluiu para a família de modelos Gemini, que são nativamente multimodais.[4] Foi criado como uma resposta direta ao súbito e massivo sucesso do ChatGPT da OpenAI, e foi lançado em uma capacidade limitada em março de 2023. Desde então, passou por uma significativa reformulação de marca e capacidade, sendo substituído por uma versão mais avançada em fevereiro de 2024, impulsionada pelo modelo Gemini 1.0 Pro e, subsequentemente, pelo Gemini 1.5.[5] O desenvolvimento é uma colaboração em larga escala entre várias equipes do Google, notavelmente a Google Brain e a DeepMind, que foram fundidas em uma única unidade, a Google DeepMind, em 2023, para consolidar os esforços de pesquisa em IA da empresa.[6]
Antecedentes
Em novembro de 2022, a OpenAI lançou o ChatGPT, um chatbot baseado na família GPT-3 de modelos de linguagem grande (LLM).[7][8] Após o seu lançamento, o ChatGPT despertou o interesse mundial, alcançando uma ampla repercussão na rede mundial de computadores, tornando-se o aplicativo de consumo com o crescimento mais rápido da história.[9] Diante do possível risco do ChatGPT para o Google Busca, seu principal produto e fonte de receita, os diretores executivos do Google acionaram um sinal de "código vermelho", uma medida de emergência interna para mobilizar diversas equipes e acelerar drasticamente os esforços da empresa no campo da inteligência artificial (IA).[10] A preocupação era que uma interface de conversação pudesse substituir a necessidade de uma busca tradicional baseada em links, o que representava uma ameaça existencial ao modelo de negócios da companhia. Em uma ação rara e inédita, os cofundadores do Google, Larry Page e Sergey Brin, que haviam se afastado dos cargos de co-CEOs da empresa-mãe Alphabet em 2019, foram chamados para reuniões urgentes com os executivos da empresa para definir a estratégia do Google frente ao ChatGPT e aprovar novos planos de integração de IA em seus produtos.[11]
No começo daquele ano, a empresa já havia apresentado publicamente o LaMDA (Language Model for Dialogue Applications), um protótipo de LLM, durante a conferência Google I/O de 2021.[12][13] No entanto, o Google adotou uma postura cautelosa e não o disponibilizou para o público, citando a necessidade de refinar a segurança e mitigar riscos de geração de conteúdo prejudicial ou enviesado.[14] Em resposta a uma pergunta de funcionários em uma reunião geral sobre se o LaMDA era uma chance desperdiçada para o Google disputar com o ChatGPT, o CEO do Google e da Alphabet, Sundar Pichai, acompanhado do líder do Google AI, Jeff Dean, declarou que embora a empresa possuísse competências similares ao ChatGPT, agir muito rápido nesse campo implicaria um grande "risco reputacional" devido ao Google ser consideravelmente maior que a OpenAI e ter uma base de usuários global que confia em seus produtos.[15][16] Em janeiro de 2023, o diretor executivo da DeepMind, Demis Hassabis, anunciou planos para um concorrente do ChatGPT,[17] e os funcionários do Google receberam orientações para acelerar o desenvolvimento de um rival do ChatGPT, realizando testes intensivos no "Apprentice Bard" e em outros chatbots. O Apprentice Bard, em particular, era um dos projetos mais avançados, utilizando a tecnologia LaMDA e sendo testado internamente por milhares de funcionários para refinar suas respostas e segurança.[18][19] Durante a teleconferência trimestral de resultados do Google em fevereiro, Pichai assegurou aos investidores que a empresa tinha projetos para ampliar a disponibilidade e as aplicações do LaMDA de forma mais ampla e pública em um futuro próximo.[19]
Lançamento como Bard
O Google anunciou oficialmente o Bard em 6 de fevereiro de 2023, com Sundar Pichai descrevendo-o como um "serviço de IA conversacional experimental".[20] O lançamento inicial foi limitado a um pequeno grupo de "testadores confiáveis" nos Estados Unidos e no Reino Unido, com planos de expansão gradual. O lançamento foi visto pela imprensa como apressado, ocorrendo um dia antes do anúncio da Microsoft sobre a integração do ChatGPT ao seu buscador Bing.[21] A pressão competitiva ficou evidente quando, durante uma demonstração do Bard em um anúncio promocional, o chatbot forneceu uma resposta factualmente incorreta sobre o Telescópio Espacial James Webb. Esse erro foi amplamente divulgado e contribuiu para uma queda de 100 bilhões de dólares no valor de mercado da Alphabet no dia seguinte, destacando os riscos e a intensa fiscalização sobre a precisão da tecnologia.[22]
O Bard foi aberto ao público nos Estados Unidos e Reino Unido em 21 de março de 2023.[23]
Arquitetura e capacidades técnicas
A família de modelos Gemini representa um salto significativo em relação às arquiteturas anteriores como LaMDA e PaLM. Baseada em uma arquitetura Transformer otimizada, sua principal inovação é a natureza nativamente multimodal.
Multimodalidade nativa
Ao contrário de modelos anteriores que eram treinados primariamente em texto e depois adaptados para outras modalidades (geralmente conectando modelos distintos para cada tarefa), o Gemini foi pré-treinado desde o início com dados de múltiplas modalidades entrelaçados (interleaved). Isso significa que o modelo aprendeu a processar e a encontrar padrões em texto, imagens, áudio, vídeo e código de forma conjunta e unificada, dentro de uma única rede neural. Essa abordagem permite uma compreensão e raciocínio mais fluidos e sofisticados sobre informações heterogêneas. Por exemplo, o Gemini pode analisar um gráfico em uma imagem (visual), ler o texto explicativo (texto), e gerar código Python para replicar os resultados (código), tudo em uma única consulta.[6]
Treinamento e infraestrutura
O treinamento foi realizado utilizando a infraestrutura de TPUs (Unidades de Processamento de Tensor) v4 e v5 do Google, que são ASICs customizados para cargas de trabalho de aprendizado de máquina. O treinamento de um modelo da escala do Gemini Ultra exigiu o uso de múltiplos pods de TPUs, coordenados em uma infraestrutura massivamente paralela. O conjunto de dados de treinamento não foi divulgado em detalhes por razões competitivas, mas é descrito no relatório técnico como sendo multimodal e de escala massiva, composto por bilhões de documentos da web, livros, código-fonte, imagens, áudio e vídeos.[6] O processo de treinamento incluiu técnicas avançadas de ajuste fino, como o aprendizagem por reforço com feedback humano (RLHF), para alinhar as respostas do modelo com as preferências humanas em termos de utilidade e segurança.
Família de modelos Gemini
A estratégia do Google foi criar uma família de modelos otimizada para diferentes casos de uso, desde grandes centros de dados até dispositivos móveis.
- Gemini Ultra 1.0: O modelo mais potente e de maior escala, projetado para tarefas de alta complexidade que exigem raciocínio profundo. É o primeiro modelo a superar o desempenho de especialistas humanos no benchmark MMLU (Massive Multitask Language Understanding), que avalia conhecimento e capacidade de resolução de problemas em 57 matérias.[24]
- Gemini Pro e Pro 1.0: Um modelo versátil, otimizado para escalar em uma ampla gama de tarefas. É o modelo que alimenta a versão padrão do chatbot Gemini e está disponível para desenvolvedores via API.
Janela de contexto
Uma das capacidades mais notáveis do Gemini 1.5 Pro é sua janela de contexto, que começou com 128.000 tokens e foi expandida para 1 milhão de tokens, com testes internos mostrando viabilidade de até 10 milhões de tokens.[25] A janela de contexto refere-se à quantidade de informação (tokens) que o modelo pode considerar de uma só vez ao gerar uma resposta. Uma janela de 1 milhão de tokens permite que o Gemini analise e raciocine sobre volumes de dados sem precedentes em uma única solicitação, como um livro de 1.500 páginas, uma base de código com dezenas de arquivos, ou uma hora inteira de vídeo, mantendo a coerência e a relevância em suas respostas.
Transição para Gemini e evolução da marca
A mudança mais significativa na trajetória do produto ocorreu em 6 de dezembro de 2023, quando o Google apresentou o Gemini. O anúncio destacou que o Gemini Ultra superava o GPT-4 da OpenAI em 30 de 32 benchmarks acadêmicos amplamente utilizados.[26]
Em 8 de fevereiro de 2024, o Google consolidou sua estratégia de marca de IA, aposentando o nome "Bard" e renomeando o chatbot para Gemini.[27] Simultaneamente, a marca "Duet AI", usada para funcionalidades de IA no Google Workspace e Google Cloud, também foi unificada sob a bandeira Gemini. Nesta data, foi lançado o Gemini Advanced, um nível de assinatura premium que dá acesso ao modelo mais poderoso, o Gemini Ultra 1.0. Este serviço foi integrado a um novo plano do Google One chamado "AI Premium".[27]
Segurança, ética e controvérsias
O desenvolvimento e lançamento do Gemini foram acompanhados por um intenso foco em segurança e por controvérsias significativas que destacaram os desafios da IA generativa.
Abordagem de segurança
O Google afirma seguir um conjunto de Princípios de IA e implementar um ciclo de vida de desenvolvimento robusto para segurança. Isso inclui a criação de classificadores de segurança específicos para identificar e filtrar conteúdo prejudicial (como discurso de ódio ou desinformação), e a realização de red teaming, onde equipes internas e externas tentam ativamente "quebrar" o modelo para descobrir vulnerabilidades antes do lançamento.[28] Apesar dessas medidas, os modelos de grande escala ainda enfrentam desafios como "alucinações" (geração de informações factualmente incorretas) e a reprodução de vieses presentes nos dados de treinamento.
Controvérsia da geração de imagens
Em fevereiro de 2024, após o lançamento da ferramenta de geração de imagens (usando o modelo Imagen 2), usuários relataram imprecisões históricas e raciais. O problema surgiu de uma tentativa de "correção de rumo" excessiva para garantir diversidade. Por exemplo, ao solicitar imagens de soldados alemães em 1943, o modelo gerava imagens de soldados negros ou asiáticos com uniformes nazistas. Ao pedir por "pais fundadores dos Estados Unidos", gerava imagens de pessoas não brancas.[29][30]
As imprecisões levaram o Google a suspender a funcionalidade de geração de imagens de pessoas. A empresa reconheceu que os controles de diversidade foram mal calibrados, não levando em conta contextos onde a precisão histórica é primordial.[31] Na ocasião, o CEO Sundar Pichai, em um memorando interno, declarou que os equívocos gerados pela ferramenta eram "completamente inaceitáveis".[32]
-
Resposta de Gemini quando solicitado que gerasse imagem de um senador dos Estados Unidos do século XIX em fevereiro de 2024 -
Imagem criada por Gemini, ao ser solicitado que gerasse imagens de um papa
Relançamento e integração no ecossistema Google
A estratégia do Google com Gemini é infundir IA em todos os seus principais produtos, transformando a experiência do usuário e do desenvolvedor. Em 6 de dezembro de 2023, o Google apresentou o Gemini, um poderoso modelo de IA multimodal, integrado ao Bard, que na época passou a rodar com Gemini Pro, e definido para alimentar o “Bard Advanced” em 2024. O Bard, com uma média de 220 milhões de visitantes mensais, ganhou recursos de geração de imagens usando o modelo Imagen 2 do Google Brain em fevereiro de 2024.[33] Em 8 de fevereiro de 2024, o Google unificou o Bard e o Duet AI sob a marca Gemini, lançou um aplicativo móvel no Android e integrou o serviço ao Google app no iOS. Os usuários do Android viram o Gemini substituir o Assistant como o assistente virtual padrão. O Google também apresentou o “Gemini Advanced with Ultra 1.0” por meio de uma assinatura “Google One AI Premium” e integrou o Gemini ao seu aplicativo Messages.[27]
Gemini no Google Workspace e Chrome
A integração mais proeminente para consumidores e empresas é no Google Workspace. Sob a marca "Gemini for Workspace", a IA atua como um assistente de produtividade. No Gmail, ajuda a redigir, resumir e responder e-mails. No Google Docs, funciona como um parceiro de escrita, gerando rascunhos e reescrevendo textos. No Google Sheets, ajuda a organizar dados e criar fórmulas complexas. No Google Slides, gera imagens e layouts para apresentações. No Google Meet, fornece resumos de reuniões e tradução em tempo real.[34] O navegador Google Chrome também integrou o Gemini para permitir resumos de páginas e assistência de escrita diretamente na barra de endereços.
Gemini no Android e no ecossistema de desenvolvedores
No Android, o Gemini está posicionado para ser o sucessor do Google Assistente. O aplicativo Gemini dedicado permite uma interação mais rica e contextual. A integração com o sistema operacional é aprofundada pelo Gemini Nano, que permite processamento de IA no próprio dispositivo, garantindo privacidade e velocidade para tarefas como transcrições e respostas inteligentes. Para desenvolvedores, o Google oferece acesso aos modelos Gemini através da plataforma Google Cloud, especificamente via Vertex AI e Google AI Studio. O AI Studio fornece uma interface web para prototipagem rápida, enquanto o Vertex AI oferece uma plataforma completa para construir, treinar, ajustar (fine-tune) e implantar modelos de IA em escala empresarial, com controle total sobre os dados e a infraestrutura.
Ver também
- Inteligência artificial
- Inteligência artificial generativa
- Microsoft Copilot
- ChatGPT
- LaMDA
- Modelo de linguagem grande
Referências
- ↑ Redação (25 de julho de 2024). «Google anuncia IA Gemini 1.5 Flash gratuita». TI INSIDE Online. Consultado em 1 de novembro de 2024
- ↑ «Google lança versão avançada do Gemini, sua inteligência artificial mais poderosa, e aposenta o nome 'Bard'». G1. 8 de fevereiro de 2024. Consultado em 9 de fevereiro de 2024
- ↑ Maraccini, Gabriela. «Google lança versão avançada de Gemini e anuncia fim do Bard». CNN Brasil. Consultado em 10 de abril de 2024
- ↑ «Introducing Gemini: our largest and most capable AI model». Google Blog. 6 de dezembro de 2023. Consultado em 6 de dezembro de 2024
- ↑ «Google anuncia Gemini 1.5, versão mais poderosa do seu modelo de IA». www.tecmundo.com.br. 15 de fevereiro de 2024. Consultado em 10 de abril de 2024
- ↑ a b c «Gemini: A Family of Highly Capable Multimodal Models (Technical Report)» (PDF). Google. 6 de dezembro de 2023. Consultado em 7 de dezembro de 2024
- ↑ Konrad, Alex; Cai, Kenrick (2 de fevereiro de 2023). «Inside ChatGPT's Breakout Moment And The Race To Put AI To Work». Forbes. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 2 de fevereiro de 2023
- ↑ Vincent, James (5 de dezembro de 2022). «AI-generated answers temporarily banned on coding Q&A site Stack Overflow». The Verge. Consultado em 5 de dezembro de 2022. Cópia arquivada em 17 de janeiro de 2023
- ↑ Olson, Parmy (7 de dezembro de 2022). «Google Faces a Serious Threat From ChatGPT». The Washington Post. ISSN 0190-8286. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 7 de dezembro de 2022
- ↑ Grant, Nico; Metz, Cade (21 de dezembro de 2022). «A New Chat Bot Is a 'Code Red' for Google's Search Business». The New York Times. ISSN 0362-4331. Consultado em 30 de dezembro de 2022. Cópia arquivada em 21 de dezembro de 2022
- ↑ Grant, Nico (20 de janeiro de 2023). «Google Calls In Help From Larry Page and Sergey Brin for A.I. Fight». The New York Times. ISSN 0362-4331. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 20 de janeiro de 2023
- ↑ Condon, Stephanie (18 de maio de 2021). «Google I/O 2021: Google unveils new conversational language model, LaMDA». ZDNet. Consultado em 12 de junho de 2022. Cópia arquivada em 18 de maio de 2021
- ↑ Roth, Emma (5 de março de 2023). «Meet the companies trying to keep up with ChatGPT». The Verge. Consultado em 9 de março de 2023. Cópia arquivada em 5 de março de 2023
- ↑ Kleinman, Zoe (1 de fevereiro de 2023). «ChatGPT firm trials $20 monthly subscription fee». BBC News. Consultado em 10 de abril de 2023. Cópia arquivada em 1 de fevereiro de 2023
- ↑ Elias, Jennifer (13 de dezembro de 2022). «Google execs warn company's reputation could suffer if it moves too fast on AI-chat technology». CNBC. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 13 de dezembro de 2022
- ↑ Vincent, James (14 de dezembro de 2022). «Google won't launch ChatGPT rival because of 'reputational risk'». The Verge. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 14 de dezembro de 2022
- ↑ Cuthbertson, Anthony (16 de janeiro de 2023). «DeepMind's AI chatbot can do things that ChatGPT cannot, CEO claims». The Independent. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 16 de janeiro de 2023
- ↑ Elias, Jennifer (31 de janeiro de 2023). «Google is asking employees to test potential ChatGPT competitors, including a chatbot called 'Apprentice Bard'». CNBC. Consultado em 2 de fevereiro de 2023. Cópia arquivada em 2 de fevereiro de 2023
- ↑ a b O'Brien, Matt (1 de fevereiro de 2023). «Google has the next move as Microsoft embraces OpenAI buzz». Associated Press. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 1 de fevereiro de 2023
- ↑ «An important next step on our AI journey». Google Blog. 6 de fevereiro de 2023. Consultado em 7 de dezembro de 2024
- ↑ «Google announces Bard, a ChatGPT rival based on its LaMDA language model». The Verge. 6 de fevereiro de 2023. Consultado em 7 de dezembro de 2024
- ↑ «Google's AI chatbot Bard blunder wipes $100 billion off Alphabet's market value». Reuters. 8 de fevereiro de 2023. Consultado em 7 de dezembro de 2024
- ↑ «Bard is now available for early access». Google Blog. 21 de março de 2023. Consultado em 7 de dezembro de 2024
- ↑ «Introducing Gemini: our largest and most capable AI model». Google Blog. 6 de dezembro de 2023. Consultado em 6 de dezembro de 2024
- ↑ Erro de citação: Etiqueta
<ref>inválida; não foi fornecido texto para as "refs" nomeadasGemini1.5 - ↑ «Introducing Gemini: our largest and most capable AI model». Google Blog. 6 de dezembro de 2023. Consultado em 6 de dezembro de 2024
- ↑ a b c «Bard becomes Gemini: Try Ultra 1.0 and a new mobile app today». Google (em inglês). 8 de fevereiro de 2024. Consultado em 31 de julho de 2024
- ↑ «Construído com a segurança em primeiro lugar». Google Safety Center. Consultado em 8 de dezembro de 2024
- ↑ «Google pausa geração de imagens do Gemini após IA apresentar erros raciais e históricos». G1. 22 de fevereiro de 2024. Consultado em 10 de abril de 2024
- ↑ «Google's Gemini image generator is producing racially diverse Nazis». The Verge. 21 de fevereiro de 2024. Consultado em 7 de dezembro de 2024
- ↑ «A note on Gemini image generation». Google Blog. 23 de fevereiro de 2024. Consultado em 7 de dezembro de 2024
- ↑ «Viés do Gemini é "ofensivo" e "inaceitável", diz CEO do Google». Brazil Journal. 28 de fevereiro de 2024. Consultado em 10 de abril de 2024
- ↑ Kruppa, Miles (6 de dezembro de 2023). «Google Announces AI System Gemini After Turmoil at Rival OpenAI». The Wall Street Journal
- ↑ «Gemini for Google Workspace». Google Workspace. Consultado em 7 de dezembro de 2024
.png)