LLMs Locais: Principais desafios sobre performance, privacidade e qualidade

Daleee povo!

Passando para abrir um tópico e continuarmos a conversa que tivemos no encontro do “Ô Rei” + RHC (Agenda do Raul HC - [RHC] Bate-Papo sobre Xadrez e Tecnologias livres), onde que conversamos bastante sobre tecnologias livres e trocamos ideias no finalzinho sobre uso de LLMs que rodam localmente e seus principais desafios.

Segue abaixo minhas dúvidas iniciais:

  1. Quais técnicas/métodos atuais são possíveis para encontrar o equilíbrio entre performance, privacidade e qualidade quando se trata de rodar LLMs locais?

  2. Quais modelos atuais que passaram por técnicas de “destilamento” ou “quantização” (apesar de serem menores) entregam informações minimamente assertivas?


Contribuição de @Massarelos

Localmente, mesmo, o gargalo esbarra principalmente na GPU que você possui. O montante de VRAM = área de trabalho de LLMs.

Então você pode rodar “localmente” usando o recurso de GPU de outro lugar:

a) A opção que muita gente opta por ter o maior poder computacional disponível é via API dos fornecedores mais conhecidos: OpenAI, Claude, Gemini, etc — mas aqui basicamente você está entregando dados para serem assimilados por eles. Eu não recomendo esse meio a não ser que seja a única possibilidade disponível.

b) Também pode usar provedores de API de modelos open source ou disponíveis para usos locais. Nessa opção, você usa um modelo disponível no provedor, mas é possível encontrar empresas que afirmam não reter ou usar seus dados, como por exemplo a Ollama.com — cuja ferramenta você pode usar para baixar e rodar localmente ou usar a ferramenta para rodar modelos na nuvem deles (serviço Ollama Cloud).

c) Alugar uma VM que tem disponível uma GPU (e daí escolhe a GPU pelo poder computacional que você precisa). Nesse caso, é necessário configurar todo o ambiente, incluindo a engine que vai rodar o modelo (pode ser o Ollama, mas você pode querer refinar as configurações na unha e usar vLLM, por exemplo). Já testei isso com runpod.io.

Sobre modelos mencionados:

  • oss-gpt (20b e 120b) da OpenAI via Ollama davam um retorno interessante nas consultas genéricas.
  • gaia (brasileiro, destilado do gemma3 4b), citado como melhor dos pequenos para português.

Vamos continuar a discussão!

Se alguém tiver experiências recentes com:

  • Modelos quantizados que valem a pena;
  • Configurações otimizadas para hardware específico;
  • Alternativas ao Ollama/vLLM;
  • Testes comparativos de desempenho;
  • Melhores técnicas de privacidade ao utilizar modelos cloud;

E outros temas… Compartilha aí! :DD

Nota: o cenário muda rapidamente, então todos os modelos podem ter sido superados desde então.

Há APIs gratuitas para alguns modelos em openrouter.ai, mas, eles mesmos avisam que vão capturar dados para treinar novos modelos.

Esse é o mesmo motivo para a minha restrição às APIs de grandes fornecedores. Mas aí é pesar se os dados com que você vai lidar são privados ou já são públicos.

Para além das LLMs, os agentes estão tomando uma forma interessante.

Estou testando o Hermes Agents (https://hermes-agent.nousresearch.com) e estou gostando.

Isolado em um container LXD, ele acessa dois modelos via Ollama (GLM-5.1 como principal, sendo que possui capacidades agênticas e o qwen3.5 para visão computacional).

Estou ensinando ele a automatizar algumas rotinas que tenho.

A funcionalidade mais interessante é o gateway telegram que ele possui, que permite conversar e enviar tarefas via chat no Telegram.

Desconsiderem a mensagem de bêbado que enviei. Mas é engraçado que, mesmo com alguns problemas textuais (o texto não estava inteiro livre de confusão), o agente entendeu e realizou o que pedi.

Não sei nem por onde começar a explicar meu rolê com LLMs… comecei como llama-cpp no Linux e depois fui experimentar LM Studio com Windows. Mesma GPU: RX6600 XT 8GB GDDR e CPU (AMD Zen3 5600G).

Comecei a mexer com OpenCode e depois pensei no OpenClaw mas acabei indo direto pro Hermes. Uma mistura de modelos locais com cloud em múltiplos provedores. Minha próxima parada é aproveitar os modelos que foram lançados neste ano removendo censura para explorar capacidades de hacking e OSINT.

Penso em poder usar modelos menores que 2B para tarefas rápidas ou de confirmação binária (verdadeiro/falso). Penso algo tão pequeno que cabe no cache L3 da CPU do meu laptop (AMD Zen2+ 5700U) e vomita 200 tokens/segundo.

Existem aplicações dedicadas com ASR, AST e VLM que estou explorando nas últimas semanas. Vou enviando alguns notebooks .ipynb aqui depois… roda na GPU T4 gratuita que o Google Colab disponibiliza.

Tá servindo bem pelo Telegram.