GitHub revela como avalia offline a precisão do MCP Server

São Francisco (EUA), 30 de outubro de 2025 – A equipe de engenharia da GitHub apresentou detalhes do processo de avaliação offline utilizado para verificar a qualidade do GitHub MCP Server, plataforma que sustenta diversos fluxos do GitHub Copilot.

O que é o MCP Server

O Modelo Context Protocol (MCP) funciona como um “plugue universal” entre modelos de linguagem e APIs. Um servidor MCP publica a lista de ferramentas disponíveis, sua finalidade e os parâmetros exigidos. Ao “conversar” com essas ferramentas, modelos de linguagem podem automatizar tarefas de desenvolvimento dentro e fora do GitHub.

Por que testar offline

Cada ajuste em nomes, descrições e parâmetros das ferramentas pode alterar a resposta dos modelos. Para evitar regressões antes que cheguem aos usuários, a GitHub rodou um pipeline de avaliação offline capaz de identificar se as mudanças realmente melhoram a performance.

Índice de Conteúdo

Três etapas de verificação

O processo de avaliação é dividido em:

Fulfillment: cada benchmark é executado em diferentes modelos, registrando a ferramenta escolhida e os argumentos fornecidos;
Avaliação: resultados brutos são processados para gerar métricas e pontuações;
Sumarização: consolida as estatísticas por conjunto de dados e produz o relatório final.

Conjuntos de testes

Os benchmarks reúnem três itens principais: a solicitação em linguagem natural, a ferramenta que se espera ser chamada e os argumentos esperados. Exemplos cobrem desde contagem de issues de um repositório até fusões de pull requests com parâmetros específicos.

Métricas aplicadas

Para saber se o modelo seleciona a ferramenta correta, a GitHub utiliza métricas clássicas de classificação – accuracy, precisão, recall e F1-score. Um exemplo citado envolve confusão entre as ferramentas list_issues e search_issues; a análise da matriz de confusão ajuda a ajustar descrições e reduzir erros.

GitHub revela como avalia offline a precisão do MCP Server - Imagem do artigo original

Imagem: Internet

Além da escolha do recurso, quatro métricas verificam a exatidão dos argumentos:

Alucinação de argumentos (quando o modelo inventa nomes de parâmetros);
Presença de todos os argumentos esperados;
Inclusão de todos os argumentos obrigatórios;
Correspondência exata de valores.

Próximos passos

Entre os desafios apontados estão o aumento do número de benchmarks por ferramenta e a avaliação de fluxos que exigem várias chamadas de ferramenta em sequência, inclusive com execução real ou simulada dessas chamadas.

Segundo a empresa, o método de avaliação offline permite iterar rapidamente, reduzir regressões e oferecer aos desenvolvedores uma experiência mais previsível com o GitHub MCP Server.

Com informações de GitHub Blog