Modelos de linguagem de pequena escala


Modelos de linguagem de pequena escala ou modelos de linguagem pequenos (SLMs, do inglês small language models) são modelos de linguagem desenvolvidos para tarefas humanas de processamento de linguagem natural (natural language processing, ou NLP), como geração e classificação de texto.[1][2][3][4] Ao contrário dos modelos de linguagem de grande escala (large language models, ou LLMs), os SLMs são consideravelmente menores em termos de escala (tamanho do modelo) e escopo (capacidade e complexidade das tarefas que conseguem executar).[5][6][7][8][9]

Normalmente, o número de parâmetros de treinamento (valores ajustáveis que definem o comportamento do modelo) de um LLM está na casa das centenas de bilhões, com alguns modelos ultrapassando um trilhão de parâmetros.[5][7][10] O tamanho de qualquer LLM é vasto porque ele contém uma grande quantidade de informação aprendida durante o treinamento, o que permite gerar conteúdos de maior qualidade.[6][9][10] No entanto, isso requer enorme poder computacional (capacidade de processamento de dados), tornando inviável para uma pessoa treinar um modelo de linguagem grande usando somente um computador pessoal e uma GPU (graphics processing unit, unidade de processamento gráfico usada para acelerar cálculos intensivos).[11][9][12]

Por outro lado, modelos de linguagem de pequena escala utilizam muito menos parâmetros, variando geralmente entre alguns milhões e alguns bilhões, o que os torna mais viáveis para treinamento (ajustar os parâmetros com dados) e hospedar (executar o modelo) em ambientes com recursos limitados, como um único computador ou até mesmo um dispositivo móvel.[2][3][8][13][14]

Um exemplo de implementação de SLMs é utilizando linguagem de programação Python[15] e bibliotecas amplamente utilizadas como: Hugging Face Transformers (biblioteca que permite treinar ou adaptar modelos pequenos como DistilBERT, TinyBERT, ALBERT, entre outros),[16][17] PyTorch[18] e TensorFlow[19] (estruturas de aprendizado de máquina profundo que fornecem infraestrutura para construir SLMs) e Optimum[20] (ferramenta de otimização para implantar modelos eficientes em diferentes hardwares).[21][22]

Veja também

Referências

  1. Silva Barbon, Rafael; Akabane, Ademar Takeo (26 de outubro de 2022). «Towards Transfer Learning Techniques—BERT, DistilBERT, BERTimbau, and DistilBERTimbau for Automatic Text Classification from Different Languages: A Case Study». Sensors (em inglês) (21). 8184 páginas. ISSN 1424-8220. PMC 9655936Acessível livremente. PMID 36365883. doi:10.3390/s22218184. Consultado em 23 de junho de 2025 
  2. a b Wang, Fali; Zhang, Zhiwei; Zhang, Xianren; Wu, Zongyu; Mo, Tzuhao; Lu, Qiuhao; Wang, Wanjing; Li, Rui; Xu, Junjie (28 de dezembro de 2024), A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness, doi:10.48550/arXiv.2411.03350, consultado em 23 de junho de 2025 
  3. a b Chae, Youngjin; Davidson, Thomas (24 de abril de 2025). «Large Language Models for Text Classification: From Zero-Shot Learning to Instruction-Tuning». Sociological Methods & Research (em inglês). 00491241251325243 páginas. ISSN 0049-1241. doi:10.1177/00491241251325243. Consultado em 23 de junho de 2025 
  4. Zhang, Qin; Liu, Ziqi; Pan, Shirui (janeiro de 2025). «The Rise of Small Language Models». IEEE Intelligent Systems (1): 30–37. ISSN 1541-1672. doi:10.1109/MIS.2024.3517792. Consultado em 23 de junho de 2025 
  5. a b Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Perric; Ma, Clara; Jernite, Yacine (outubro de 2020), Transformers: State-of-the-Art Natural Language Processing, Association for Computational Linguistics, consultado em 23 de junho de 2025 
  6. a b Raiaan, Mohaimenul Azam Khan; Mukta, Md. Saddam Hossain; Fatema, Kaniz; Fahad, Nur Mohammad; Sakib, Sadman; Mim, Most Marufatul Jannat; Ahmad, Jubaer; Ali, Mohammed Eunus; Azam, Sami (2024). «A Review on Large Language Models: Architectures, Applications, Taxonomies, Open Issues and Challenges». IEEE Access: 26839–26874. ISSN 2169-3536. doi:10.1109/ACCESS.2024.3365742. Consultado em 23 de junho de 2025 
  7. a b Amaratunga, Thimira (2023). «Understanding Large Language Models». SpringerLink (em inglês). doi:10.1007/979-8-8688-0017-7. Consultado em 23 de junho de 2025 
  8. a b Belcak, Peter; Heinrich, Greg; Diao, Shizhe; Fu, Yonggan; Dong, Xin; Muralidharan, Saurav; Lin, Yingyan Celine; Molchanov, Pavlo (2 de junho de 2025), Small Language Models are the Future of Agentic AI, doi:10.48550/arXiv.2506.02153, consultado em 23 de junho de 2025 
  9. a b c Kamath, Uday; Keenan, Kevin; Somers, Garrett; Sorenson, Sarah (2024). «Large Language Models: A Deep Dive». SpringerLink (em inglês). doi:10.1007/978-3-031-65647-7. Consultado em 23 de junho de 2025 
  10. a b Naveed, Humza; Khan, Asad Ullah; Qiu, Shi; Saqib, Muhammad; Anwar, Saeed; Usman, Muhammad; Akhtar, Naveed; Barnes, Nick; Mian, Ajmal (18 de junho de 2025). «A Comprehensive Overview of Large Language Models». ACM Trans. Intell. Syst. Technol. ISSN 2157-6904. doi:10.1145/3744746. Consultado em 23 de junho de 2025 
  11. Ahsan, S. M. Mojahidul; Dhungel, Anurag; Chowdhury, Mrittika; Hasan, Md Sakib; Hoque, Tamzidul (18 de dezembro de 2024), Hardware Accelerators for Artificial Intelligence, doi:10.48550/arXiv.2411.13717, consultado em 23 de junho de 2025 
  12. Li, Ming; Bi, Ziqian; Wang, Tianyang; Wen, Yizhu; Niu, Qian; Liu, Junyu; Peng, Benji; Zhang, Sen; Pan, Xuanhe (12 de dezembro de 2024), Deep Learning and Machine Learning with GPGPU and CUDA: Unlocking the Power of Parallel Computing, doi:10.48550/arXiv.2410.05686, consultado em 23 de junho de 2025 
  13. Li, Zhuohan; Wallace, Eric; Shen, Sheng; Lin, Kevin; Keutzer, Kurt; Klein, Dan; Gonzalez, Joseph E. (23 de junho de 2020), Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers, doi:10.48550/arXiv.2002.11794, consultado em 23 de junho de 2025 
  14. Kim, Hyunjae; Hwang, Hyeon; Lee, Jiwoo; Park, Sihyeon; Kim, Dain; Lee, Taewhoo; Yoon, Chanwoong; Sohn, Jiwoong; Park, Jungwoo (2 de maio de 2025). «Small language models learn enhanced reasoning skills from medical textbooks». npj Digital Medicine (em inglês) (1): 1–10. ISSN 2398-6352. doi:10.1038/s41746-025-01653-8. Consultado em 23 de junho de 2025 
  15. Géron, Aurélien (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: concepts, tools, and techniques to build intelligent systems Second edition ed. Beijing Boston Farnham Sebastopol Tokyo: O'Reilly 
  16. «Transformers». huggingface.co. Consultado em 23 de junho de 2025 
  17. «dblp: DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.». dblp.org (em inglês). Consultado em 23 de junho de 2025 
  18. «PyTorch». PyTorch (em inglês). Consultado em 23 de junho de 2025 
  19. «TensorFlow». TensorFlow (em inglês). Consultado em 23 de junho de 2025 
  20. «optimum (Hugging Face Optimum)». huggingface.co. 3 de fevereiro de 2025. Consultado em 23 de junho de 2025 
  21. Oketunji, Abiodun Finbarrs (31 de janeiro de 2024). «Engineering A Large Language Model From Scratch». doi.org. Consultado em 23 de junho de 2025 
  22. Riyadh, Md Moinuddin Sharif. «Human Emotion and Sentiment in Natural Language Understanding and Generation using Large Language Models with Limited to No Labeled Data». Consultado em 23 de junho de 2025