LLMs Locais: Principais desafios sobre performance, privacidade e qualidade

Wes · Abril 8, 2026, 5:15pm

Daleee povo!

Passando para abrir um tópico e continuarmos a conversa que tivemos no encontro do “Ô Rei” + RHC (Agenda do Raul HC - [RHC] Bate-Papo sobre Xadrez e Tecnologias livres), onde que conversamos bastante sobre tecnologias livres e trocamos ideias no finalzinho sobre uso de LLMs que rodam localmente e seus principais desafios.

Segue abaixo minhas dúvidas iniciais:

Quais técnicas/métodos atuais são possíveis para encontrar o equilíbrio entre performance, privacidade e qualidade quando se trata de rodar LLMs locais?
Quais modelos atuais que passaram por técnicas de “destilamento” ou “quantização” (apesar de serem menores) entregam informações minimamente assertivas?

Contribuição de @Massarelos

Localmente, mesmo, o gargalo esbarra principalmente na GPU que você possui. O montante de VRAM = área de trabalho de LLMs.

Então você pode rodar “localmente” usando o recurso de GPU de outro lugar:

a) A opção que muita gente opta por ter o maior poder computacional disponível é via API dos fornecedores mais conhecidos: OpenAI, Claude, Gemini, etc — mas aqui basicamente você está entregando dados para serem assimilados por eles. Eu não recomendo esse meio a não ser que seja a única possibilidade disponível.

b) Também pode usar provedores de API de modelos open source ou disponíveis para usos locais. Nessa opção, você usa um modelo disponível no provedor, mas é possível encontrar empresas que afirmam não reter ou usar seus dados, como por exemplo a Ollama.com — cuja ferramenta você pode usar para baixar e rodar localmente ou usar a ferramenta para rodar modelos na nuvem deles (serviço Ollama Cloud).

c) Alugar uma VM que tem disponível uma GPU (e daí escolhe a GPU pelo poder computacional que você precisa). Nesse caso, é necessário configurar todo o ambiente, incluindo a engine que vai rodar o modelo (pode ser o Ollama, mas você pode querer refinar as configurações na unha e usar vLLM, por exemplo). Já testei isso com runpod.io.

Sobre modelos mencionados:

oss-gpt (20b e 120b) da OpenAI via Ollama davam um retorno interessante nas consultas genéricas.
gaia (brasileiro, destilado do gemma3 4b), citado como melhor dos pequenos para português.

Vamos continuar a discussão!

Se alguém tiver experiências recentes com:

Modelos quantizados que valem a pena;
Configurações otimizadas para hardware específico;
Alternativas ao Ollama/vLLM;
Testes comparativos de desempenho;
Melhores técnicas de privacidade ao utilizar modelos cloud;

E outros temas… Compartilha aí! :DD

Nota: o cenário muda rapidamente, então todos os modelos podem ter sido superados desde então.

Massarelos · Abril 10, 2026, 12:23am

Há APIs gratuitas para alguns modelos em openrouter.ai, mas, eles mesmos avisam que vão capturar dados para treinar novos modelos.

Esse é o mesmo motivo para a minha restrição às APIs de grandes fornecedores. Mas aí é pesar se os dados com que você vai lidar são privados ou já são públicos.

Massarelos · Abril 19, 2026, 9:43pm

Para além das LLMs, os agentes estão tomando uma forma interessante.

Estou testando o Hermes Agents (https://hermes-agent.nousresearch.com) e estou gostando.

Isolado em um container LXD, ele acessa dois modelos via Ollama (GLM-5.1 como principal, sendo que possui capacidades agênticas e o qwen3.5 para visão computacional).

Estou ensinando ele a automatizar algumas rotinas que tenho.

A funcionalidade mais interessante é o gateway telegram que ele possui, que permite conversar e enviar tarefas via chat no Telegram.

Desconsiderem a mensagem de bêbado que enviei. Mas é engraçado que, mesmo com alguns problemas textuais (o texto não estava inteiro livre de confusão), o agente entendeu e realizou o que pedi.

rafaelfrequiao · Maio 26, 2026, 3:10pm

Não sei nem por onde começar a explicar meu rolê com LLMs… comecei como llama-cpp no Linux e depois fui experimentar LM Studio com Windows. Mesma GPU: RX6600 XT 8GB GDDR e CPU (AMD Zen3 5600G).

Comecei a mexer com OpenCode e depois pensei no OpenClaw mas acabei indo direto pro Hermes. Uma mistura de modelos locais com cloud em múltiplos provedores. Minha próxima parada é aproveitar os modelos que foram lançados neste ano removendo censura para explorar capacidades de hacking e OSINT.

Penso em poder usar modelos menores que 2B para tarefas rápidas ou de confirmação binária (verdadeiro/falso). Penso algo tão pequeno que cabe no cache L3 da CPU do meu laptop (AMD Zen2+ 5700U) e vomita 200 tokens/segundo.

Existem aplicações dedicadas com ASR, AST e VLM que estou explorando nas últimas semanas. Vou enviando alguns notebooks .ipynb aqui depois… roda na GPU T4 gratuita que o Google Colab disponibiliza.

Tá servindo bem pelo Telegram.