Daleee povo!
Passando para abrir um tópico e continuarmos a conversa que tivemos no encontro do “Ô Rei” + RHC (Agenda do Raul HC - [RHC] Bate-Papo sobre Xadrez e Tecnologias livres), onde que conversamos bastante sobre tecnologias livres e trocamos ideias no finalzinho sobre uso de LLMs que rodam localmente e seus principais desafios.
Segue abaixo minhas dúvidas iniciais:
-
Quais técnicas/métodos atuais são possíveis para encontrar o equilíbrio entre performance, privacidade e qualidade quando se trata de rodar LLMs locais?
-
Quais modelos atuais que passaram por técnicas de “destilamento” ou “quantização” (apesar de serem menores) entregam informações minimamente assertivas?
Contribuição de @Massarelos
Localmente, mesmo, o gargalo esbarra principalmente na GPU que você possui. O montante de VRAM = área de trabalho de LLMs.
Então você pode rodar “localmente” usando o recurso de GPU de outro lugar:
a) A opção que muita gente opta por ter o maior poder computacional disponível é via API dos fornecedores mais conhecidos: OpenAI, Claude, Gemini, etc — mas aqui basicamente você está entregando dados para serem assimilados por eles. Eu não recomendo esse meio a não ser que seja a única possibilidade disponível.
b) Também pode usar provedores de API de modelos open source ou disponíveis para usos locais. Nessa opção, você usa um modelo disponível no provedor, mas é possível encontrar empresas que afirmam não reter ou usar seus dados, como por exemplo a Ollama.com — cuja ferramenta você pode usar para baixar e rodar localmente ou usar a ferramenta para rodar modelos na nuvem deles (serviço Ollama Cloud).
c) Alugar uma VM que tem disponível uma GPU (e daí escolhe a GPU pelo poder computacional que você precisa). Nesse caso, é necessário configurar todo o ambiente, incluindo a engine que vai rodar o modelo (pode ser o Ollama, mas você pode querer refinar as configurações na unha e usar vLLM, por exemplo). Já testei isso com runpod.io.
Sobre modelos mencionados:
- oss-gpt (20b e 120b) da OpenAI via Ollama davam um retorno interessante nas consultas genéricas.
- gaia (brasileiro, destilado do gemma3 4b), citado como melhor dos pequenos para português.
Vamos continuar a discussão!
Se alguém tiver experiências recentes com:
- Modelos quantizados que valem a pena;
- Configurações otimizadas para hardware específico;
- Alternativas ao Ollama/vLLM;
- Testes comparativos de desempenho;
- Melhores técnicas de privacidade ao utilizar modelos cloud;
E outros temas… Compartilha aí! :DD
Nota: o cenário muda rapidamente, então todos os modelos podem ter sido superados desde então.

