A GeForce RTX 5090 registrou o melhor desempenho nos testes do modelo de linguagem gpt-oss-20b realizados pelo projeto de código aberto Llama.cpp. A placa da NVIDIA alcançou 282 tokens por segundo (tok/s), superando o Mac M3 Ultra, que marcou 116 tok/s, e a Radeon RX 7900 XTX da AMD, com 102 tok/s.
O resultado é atribuído aos Tensor Cores presentes na RTX 5090, componentes dedicados a acelerar tarefas de inteligência artificial. Segundo o Llama.cpp, essas unidades otimizam a execução local do gpt-oss-20b, modelo leve desenvolvido pela OpenAI para funcionar em hardwares domésticos.
Ferramentas facilitam uso de LLMs
O Llama.cpp é um framework que roda grandes modelos de linguagem em GPUs, especialmente as da série RTX, graças a otimizações feitas em parceria com a NVIDIA. Para usuários que não desejam lidar com linha de comando, o LM Studio oferece interface gráfica, suporte a geração aumentada por recuperação (RAG) e integração direta com o Llama.cpp.
Outra opção é o Ollama, que automatiza download de modelos, configuração de ambiente e aceleração por GPU. Aplicativos como o AnythingLLM utilizam esse framework para simplificar testes e benchmarks de LLMs.
Requisitos modestos e preços elevados
Os modelos gpt-oss da OpenAI podem rodar em placas com 16 GB de memória, mas as GPUs NVIDIA continuam se destacando em desempenho. As placas baseadas na arquitetura Blackwell, como a RTX 5090, entregam os melhores resultados, embora o preço seja um obstáculo: o modelo é encontrado por até R$ 26.773,51 no varejo.
Imagem: Internet
Outras opções da série também pesam no bolso. Uma RTX 5080 Gaming Trio OC custa cerca de R$ 24.499,00, enquanto a ROG Astral sai por R$ 14.999,99. Já a RTX 5070 GAMING OC aparece por R$ 7.099,99, e a 5070 Ti Solid OC chega a R$ 10.101,66. As versões RTX 5060 Ti partem de R$ 3.499,99, e as RTX 5050 podem ser encontradas por aproximadamente R$ 1.759,99, embora entreguem desempenho inferior.
Com o interesse crescente em executar modelos de IA de forma local e com mais privacidade, soluções como gpt-oss-20b tendem a ganhar espaço, impulsionando a demanda por GPUs de alto desempenho.
Com informações de Adrenaline