São Francisco (EUA), 30 de outubro de 2025 – A equipe de engenharia da GitHub apresentou detalhes do processo de avaliação offline utilizado para verificar a qualidade do GitHub MCP Server, plataforma que sustenta diversos fluxos do GitHub Copilot.
O que é o MCP Server
O Modelo Context Protocol (MCP) funciona como um “plugue universal” entre modelos de linguagem e APIs. Um servidor MCP publica a lista de ferramentas disponíveis, sua finalidade e os parâmetros exigidos. Ao “conversar” com essas ferramentas, modelos de linguagem podem automatizar tarefas de desenvolvimento dentro e fora do GitHub.
Por que testar offline
Cada ajuste em nomes, descrições e parâmetros das ferramentas pode alterar a resposta dos modelos. Para evitar regressões antes que cheguem aos usuários, a GitHub rodou um pipeline de avaliação offline capaz de identificar se as mudanças realmente melhoram a performance.
Três etapas de verificação
O processo de avaliação é dividido em:
- Fulfillment: cada benchmark é executado em diferentes modelos, registrando a ferramenta escolhida e os argumentos fornecidos;
- Avaliação: resultados brutos são processados para gerar métricas e pontuações;
- Sumarização: consolida as estatísticas por conjunto de dados e produz o relatório final.
Conjuntos de testes
Os benchmarks reúnem três itens principais: a solicitação em linguagem natural, a ferramenta que se espera ser chamada e os argumentos esperados. Exemplos cobrem desde contagem de issues de um repositório até fusões de pull requests com parâmetros específicos.
Métricas aplicadas
Para saber se o modelo seleciona a ferramenta correta, a GitHub utiliza métricas clássicas de classificação – accuracy, precisão, recall e F1-score. Um exemplo citado envolve confusão entre as ferramentas list_issues e search_issues; a análise da matriz de confusão ajuda a ajustar descrições e reduzir erros.
Imagem: Internet
Além da escolha do recurso, quatro métricas verificam a exatidão dos argumentos:
- Alucinação de argumentos (quando o modelo inventa nomes de parâmetros);
- Presença de todos os argumentos esperados;
- Inclusão de todos os argumentos obrigatórios;
- Correspondência exata de valores.
Próximos passos
Entre os desafios apontados estão o aumento do número de benchmarks por ferramenta e a avaliação de fluxos que exigem várias chamadas de ferramenta em sequência, inclusive com execução real ou simulada dessas chamadas.
Segundo a empresa, o método de avaliação offline permite iterar rapidamente, reduzir regressões e oferecer aos desenvolvedores uma experiência mais previsível com o GitHub MCP Server.
Com informações de GitHub Blog