Ir ao conteúdo
  • Cadastre-se

UserBenchmark e Passmark: como interpretar e porque não usar


KairanD

Posts recomendados

  • Coordenador

Olá, pessoal!

 

É frequente encontrar, aqui no Fórum, discussões onde são indicadas comparações de sites como Passmark e UserBenchmark para "medir" o desempenho de processadores. Estou criando este tópico porque a maioria das pessoas não parece ter ciência da metodologia por trás desses resultados e de todas as limitações associadas.

 

Site Passmark: https://www.passmark.com/

Site UserBenchmark: https://www.userbenchmark.com/

 

1. Não são testes!

 

Primeiramente, é importante deixar algo muito claro: os resultados exibidos por Passmark e UserBenchmark não são testes! São, na realidade, valores indiretos obtidos através de algoritmos e baseados em estatística.

 

O UserBenchmark funciona da seguinte forma: os usuários fazem o download do programa de benchmark por espontânea vontade e valores para testes específicos são gerados ao executá-lo. Esses valores são, então, aplicados em fórmulas que geram resultados para cada critério: latência das memórias e desempenho single core, dual core, quad core, octa core e 64 core. Estes são os resultados pontuais intermediários. Eles, então, pegam esses valores e, novamente, aplicam em outra fórmula obscura com coeficientes arbitrários para gerar um resultado geral de "Effective Speed".

 

O Passmark faz a mesma coisa: os usuários também fazem o download do programa por espontânea vontade e valores para testes específicos são gerados. Esses valores são, então, aplicados em fórmulas obscuras para gerar resultados de "Single Thread Rating" e "CPU Mark".

 

Em ambos os casos, uma compilação estatística pega a média final desses resultados, com base em trocentos computadores, e exibe ao fazer a pesquisa.

 

2. Não há ambiente controlado, não há método científico

 

Há uma aleatoriedade gigantesca na amostragem, já que é feita por milhares de usuários que espontaneamente decidiram baixar o software, fazer o teste e submeter a pontuação. Overclock, processos rodando em segundo plano, frequência das memórias, fonte vagabunda, superaquecimento... Estes são exemplos de alguns dos muitos fatores que alteram os resultados. E o que acontece? Vai tudo para o mesmo lugar.

 

Ou seja, não há qualquer rigor científico, e tais resultados não têm qualquer validade científica.

 

3. Os resultados NÃO representam um valor direto de desempenho

 

Os resultados não representam um valor direto de "processamento bruto", mas números gerados por fórmulas obscuras com múltiplos pesos para cada teste. Se um processador se beneficiar muito em um dos testes por ter arquitetura que o favorece e esse teste tiver um peso bem maior que os demais na fórmula, o valor final será muito impactado, e isso não reflete a experiência prática na vida real. Além disso, é muito fácil manipular as fórmulas para beneficiar uma ou outra arquitetura.

 

4. Favoritismo, denúncias e polêmicas

 

Esses sites sempre buscam manter a metodologia de cálculo oculta. Ela não fica evidenciada na página e você deve buscar a fundo para conseguir encontrar algo. Esses algoritmos, nos dois sites, sofreram várias alterações ao longo do tempo, o que impactou diretamente nos resultados reportados. Há denúncias de favoritismo.

 

Primeiramente, o UserBenchmark. A partir do lançamento dos processadores Ryzen, o algoritmo de cálculo do "Effective Speed" foi alterado múltiplas vezes para reduzir o peso do desempenho multi-core (seja ele dual-core, quad-core e principalmente octa-core e 64-core) e elevar o peso do desempenho single-core e da latência das memórias. Isso claramente beneficiou - e muito - os processadores da Intel, uma vez que eles se mantiveram, por muito tempo, com IPC e latência das memórias melhores quando em comparação com processadores da AMD. O site é continuamente acusado de beneficiar propositalmente a Intel.

 

Quanto ao Passmark... Os algoritmos que resultam nas duas pontuações exibidas foram alterados ao longo dos anos, e os resultados atuais beneficiam - e muito - a arquitetura dos processadores Ryzen, fazendo-os parecer muito superiores a processadores Intel de patamar semelhante, com valores discrepantes daqueles encontrados na prática. O site, por sua vez, é acusado de beneficiar propositalmente a AMD.

 

Ambos os sites parecem investir no sistema de anúncios do Google para aparecer entre os primeiros resultados nas buscas.

 

5. Descontrole do fator temporal

 

Drivers e sistemas operacionais recebem atualizações (ou sofrem com a falta delas) ao longo do tempo, o que interfere no desempenho. Todo teste está sujeito a essas variações. Contudo, como o UserBenchmark e o Passmark dependem de resultados de um monte de computadores de usuários, que são enviados a qualquer momento, fica tudo confusamente misturado, e o fator temporal não pode ser quantificado.

 

6. Exemplos insanos do UserBenchmark

 

Nesta seção, estão apresentados alguns exemplos de comparações com resultados absurdos, que claramente induzem ao erro. Primeiramente, com relação ao UserBenchmark, trata-se do valor de "Effective Speed":

 

image.png

 

Segundo o resultado apresentado, um Core i3 9350KF (4 núcleos e 4 threads) é superior a um Core i5 9400F (6 núcleos e 6 threads, mesma arquitetura do i3). Na prática, sabemos a diferença absurda que os núcleos extras do Core i5 fazem. Mas o favoritismo do UserBenchmark com relação ao desempenho single-core conduz a essa conclusão absurda que aponta o i3 como melhor compra.

 

Que tal mais um exemplo?

 

image.png

 

Segundo o "Effective Speed", resultado "mais importante" conforme o UserBenchmark, meu Core i5 4670K (4 núcleos e 4 threads, lançado em 2013) é superior a um Ryzen 7 2700 (8 núcleos e insanos 16 threads, lançado em 2018). Tem que rir para não chorar!

 

7. Exemplos insanos do Passmark

 

O Passmark também tem diversas pérolas. Por exemplo:

 

image.png

 

Segundo o "CPU Mark" do Passmark, um Ryzen 3 3300X (4 núcleos e 8 threads) é superior a um Core i5 10400F (6 núcleos e 12 threads), sendo que ambos são processadores modernos com IPC não muito diferente. Os 2 núcleos e 4 threads a mais tornam o i5 um processador claramente superior, como demonstrado em testes, mas o Passmark indica o contrário.

 

Vamos a outro exemplo:

 

image.png

 

Segundo o "CPU Mark" do Passmark, o Ryzen 5 3600 é 43,3% mais rápido que o Core i5 10400F.

 

Nos testes do Adrenaline, em aplicações que usam intensivamente múltiplos núcleos, a diferença média girou em torno de 10% ou menos a favor do AMD. Em jogos em 1080p, o i5 levou vantagem de 5% a 15%: https://adrenaline.com.br/analises/v/64828/analise-intel-core-i5-10400f-otimo-desempenho-em-games-e-evolucao-em-uso-profissional

 

Nos testes do TechPowerUp, o Ryzen 5 3600 ficou com uma vantagem média de 7,2% em aplicações intensivas para CPU. Em jogos em 1080p, o i5 levou uma vantagem de míseros 2,2%: https://www.techpowerup.com/review/intel-core-i5-10400f/21.html

 

Em ambos os casos (Adrenaline e TechPowerUp), o processador da AMD foi testado em stock e o i5 sem alterações no controle de energia. Fica evidente, ao comparar o Passmark com os testes confiáveis, que há algo estranho. O i5 10400F e o Ryzen 5 3600 são ambos processadores modernos de 6 núcleos e 12 threads com IPC não muito distante. Naturalmente haverá variações entre aplicações, mas uma diferença de 43,3% foge muito ao esperado. É o que chamamos de "outlier".

 

“Um outlier é uma observação que se diferencia tanto das demais observações que levanta suspeitas de que aquela observação foi gerada por um mecanismo distinto”. Referência: Hawkins, D. (1980). Identification of Outlier. Chapman and Hall, London. https://doi.org/10.1007/978-94-015-3994-4

 

E é exatamente o caso. Trata-se de um valor gerado por um mecanismo distinto, um algoritmo indireto baseado na atribuição de pesos.

 

8. Mas existe alguma utilidade nos resultados desses sites?

 

Primeiramente, com relação ao UserBenchmark: há resultados intermediários com valores mais específicos (latência da comunicação com as memórias, desempenho single-core, dual-core, quad-core, octa-core e 64-core, bem como variações para situações de overclock). Embora esses resultados ainda estejam sujeitos a ambiente não controlado, são ao menos um pouco mais diretos e tendem a se aproximar mais dos resultados obtidos em testes de fontes confiáveis. Portanto, podem até ser usados como chute grosseiro e sem rigor científico caso não seja encontrado teste em fonte confiável. O resultado de "Effective Speed", por sua vez, é inútil e não deve ser usado para tomar qualquer tipo de conclusão: é totalmente indireto e sem amarração com a prática.

 

Com relação ao Passmark, não recomendo o uso. Ele é mais problemático que o UserBenchmark, já que não lista os valores específicos de cada teste intermediário (latência, dual core, quad core, etc.). Como cada resultado intermediário se comporta? E como o programa de benchmark do Passmark tem calculado isso? O "CPU Mark" não é o resultado de um benchmark em si, mas sim o resultado de uma fórmula, que não exemplifica resultados diretos. É um mecanismo que estabelece uma conexão indireta com os resultados.

 

O Passmark é muito discrepante mesmo quando comparado ao UserBenchmark. No UserBenchmark, o i5 10400F apresenta latência de memórias 15% melhor que o Ryzen 5 3600, sendo igual ou pior em todos os demais critérios. Contudo, no pior cenário, referente ao uso de todos os núcleos (64 core test), a desvantagem relatada para o Intel é de apenas 11% em comparação com o AMD: https://cpu.userbenchmark.com/Compare/Intel-Core-i5-10400F-vs-AMD-Ryzen-5-3600/4079vs4040, o que se aproxima dos testes do Adrenaline e do TechPowerUp e é bem diferente dos surreais 43,3% relatados pelo Passmark.

 

9. E como comparar processadores então?

 

Procure testes em fontes confiáveis, realizados em ambiente controlado. É a única forma de obter resultados realmente coretos. Veja, por exemplo, estes sites:

 

 

Este tópico será atualizado com o tempo, expandindo a lista.

 

10. Onde sites como CPUBoss, Nano Review e Versus entram nessa história?

 

Lugar nenhum. Eles consideram especificações para dar pontuações, sendo que comparar especificações de processadores com arquiteturas diferentes não tem qualquer significado prático. Quando não fazem isso, simplesmente coletam resultados de outros sites e benchmarks - muitas vezes com erros, porque essa captura é automática - e realizam mais um cálculo indireto para obter valores de pontuação sem sentido.

 

Esses sites são basicamente feitos para monetizar em cima do trabalho de outros sites e benchmarks. Se você ainda usa algum site desse tipo, esqueça-o.

  • Curtir 7
  • Obrigado 1
  • Amei 3
Link para o comentário
Compartilhar em outros sites

Em substituição ao UserBenchmark e PassMark, recomendo o PCMark10 (e, pra parte gráfica, o 3DMark, além dos benchmarks da Unigine). O modelo de negócios deles é bem diferente. Em vez de parcerias obscuras com fabricantes, o objetivo é vender a própria ferramenta de benchmark, principalmente pra uso corporativo e comercial. Mas é disponibilizada uma versão grátis, pra uso doméstico, que é bem interessante ("basic edition").

  • Curtir 1
Link para o comentário
Compartilhar em outros sites

  • Coordenador

@Shaman93 Esse benchmark realmente parece apresentar resultados mais condizentes com aqueles encontrados em testes confiáveis e também se aproxima do UserBenchmark (a parte útil, com base no exemplo que citei anteriormente). Ele ainda está sujeito ao ambiente não controlado e à utilização de algoritmos e estatística, mas parece muito mais confiável.

 

Eu acho que o UserBenchmark ainda tem alguma utilidade como chute grosseiro se você desprezar completamente o valor de "effective speed" (onde fica claro que tentam beneficiar a Intel). Claro, se usado como último recurso - na falta de testes - e com ciência das limitações.

 

Os resultados do Passmark, por sua vez, parecem ser referentes à uma realidade paralela, e fica muito evidente o tanto que estão beneficiando os Ryzen. Como não há resultados mais diretos, eu considero atualmente o Passmark tão inútil quanto um CPUBoss da vida...

  • Curtir 1
Link para o comentário
Compartilhar em outros sites

  • 3 semanas depois...
1 hora atrás, KairanD disse:

É importante tomar cuidado ao utilizar esses sites buscando comparações...

 

Existem algumas discrepâncias em sites de Benchmark sim, e isso não é nada fora do normal.

 

mais próximo da realidade seria ter em mãos os dois processadores em questão, hardware semelhante para fazer pessoalmente os testes e verificar os resultados nós mesmos. Mas isso nem sempre é possível, pois é surreal pensar na ideia de ter todos os processadores do mundo ao nosso dispor.

 

Portanto, na incapacidade de realizar testes com todos os processadores existentes, as ferramentas (sites) de Benchmark podem ser muito úteis.

 

No caso citado do I5 12400 vs Ryzen 5600G, eu acredito que os Benchmarks que pontuam o I5 12400 com melhor desempenho, não estão equivocados. Mas um panorama melhor mesmo, apenas o futuro poderá nos dizer, quando a 12ª geração da Intel se popularizar e vermos na prática os relatos das pessoas no dia a dia.

 

Abraços e fiquem na paz colegas!

  • Curtir 1
Link para o comentário
Compartilhar em outros sites

  • Coordenador
Em 02/02/2022 às 16:05, Marcelo Calazans disse:

Existem algumas discrepâncias em sites de Benchmark sim, e isso não é nada fora do normal.

Sim, naturalmente existem. Contudo, há benchmarks bons e benchmarks ruins. E há sites que apenas listam especificações, coletam dados de benchmarks externos - muitas vezes puxando incorretamente - e calculam uma pontuação indireta e não representativa.

 

Postei o tópico acima apenas para ressaltar que é importante verificar como as médias são obtidas. Há diversos sites com problemas graves (dados "puxados" automaticamente e com erros, obtenção de valores por estatística representativa, ambiente não controlado, ausência de método científico, cálculos indiretos de resultados e favoritismo com relação a fabricantes).

 

Em 02/02/2022 às 16:05, Marcelo Calazans disse:

mais próximo da realidade seria ter em mãos os dois processadores em questão, hardware semelhante para fazer pessoalmente os testes e verificar os resultados nós mesmos. Mas isso nem sempre é possível, pois é surreal pensar na ideia de ter todos os processadores do mundo ao nosso dispor.

Não é necessário adquirir os produtos, mas apenas buscar por testes feitos por sites confiáveis, que sigam o método científico, e em ambiente controlado. São a representação da realidade, pois envolvem dezenas de testes práticos e diretos. Recomendo as fontes citadas acima. Essas fontes confiáveis costumam ter acesso a novos lançamentos com antecedência. Diversos processadores da 12ª Geração da Intel já foram amplamente testados. São realmente produtos excelentes e muito competitivos, dependendo apenas da redução de preços das placas-mãe.

Link para o comentário
Compartilhar em outros sites

@KairanD Concordo que existem sites de benchmarks bons e ruins, confiáveis e não confiáveis, mas em praticamente qualquer um existem erros. O TechPowerUp, por exemplo, é um ótimo site, é confiável e tudo o mais, mas existem erros nele, como é o caso de muitas GPUs. Ele mostra a GTX 1060 6gb com 22% de performance a mais da GTX 1650, mas devido a série 1000 da Nvidia não receber mais atualizações, o desempenho da GTX 1060 "caiu" deixando a diferença de desempenho entre elas menor.

São ótimos sites, mas mesmo os que não são ruins apresentam falhas, seja por falta de atualizações, ausência de métodos, favoritismo... Não acho sites de benchmark, como o Passmark perfeitos, muito longe disso, mas são um bom lugar para começar e ter uma base. 

  • Curtir 1
Link para o comentário
Compartilhar em outros sites

@KairanD

Existem bom reviews realmente, como aqui no Clube do Hardware, por exemplo.

 

Mas mesmo com bons reviews, o ideal na minha opinião, é ter o ponto de vista baseado na análise de várias fontes. Como eu já havia feito no caso de I5 12400, quando eu citei acima que havia cogitado comprá-lo.

 

Mas a minha opinião pessoal mesmo, eu apenas daria se eu comprasse e eu mesmo pudesse testar.

 

Fora isso, usar Benchmarks para ter um ponto de partida para uma análise, eu acho válido, como bem colocou o colega @Lenhal

 

Abraços e fiquem na paz colegas!

Link para o comentário
Compartilhar em outros sites

  • Coordenador

@Lenhal No caso que você citou, trata-se de uma diferença devido à data de realização do teste, o que é previsível e natural. Todo e qualquer teste realizado a qualquer momento está sujeito a diferenças futuras devido à atualização de drivers. :)

 

No caso de sites como o Passmark, o problema envolve uma porção de erros grosseiros necessariamente intrínsecos à metodologia aplicada, o que leva a conclusões absurdas (como dizer que um Ryzen 3 3300X é superior a um Core i5 10400F, ou que um Ryzen 5 5600X atropela um Core i5 12400 com um rolo compressor). Por isso recomendei a leitura do tópico que indiquei acima, onde discuto todos esses pontos com maior aprofundamento. O Passmark não traz resultados diretos e tampouco é feito em ambiente controlado. CPU Boss, Versus, Nano Review e muitos outros, por sua vez, são meros agregadores que calculam resultados indiretos com base em testes que eles puxam de outros sites ou, ainda, especificações.

 

É sempre importante ter o ponto de vista com base na análise de várias fontes, mas é necessário ter cautela para não inserir outliers no meio de resultados diretos. ;)

Link para o comentário
Compartilhar em outros sites

@KairanD Entendo seu ponto de vista, de verdade.

Que existem muitas discrepâncias em sites como Passmark e UserBenchmark é inegável, mas não acho que apenas por isso devemos inutilizar tais sites, uma vez que apesar de terem erros grosseiros, são um bom lugar para quem está aprendendo ter uma base, e uma ideia de como as coisas são. 

 

Quanto ao exemplo que citei, trata-se de uma falha devido a data de realização do teste, como você mesmo falou, mas querendo ou não, é uma falha do site. O ideal é testar em um ambiente controlado, com as mesmas condições, usando os mesmos métodos, e atualizar os resultados, pelo menos, de ano em ano. 

 

Volto a falar o que disse acima, não são sites perfeitos, muito longe disso, mas não acho que devemos inutilizar eles, pois são um bom lugar para iniciar, apesar dos erros e falhas. 

Link para o comentário
Compartilhar em outros sites

  • Coordenador
1 hora atrás, Lenhal disse:

Volto a falar o que disse acima, não são sites perfeitos, muito longe disso, mas não acho que devemos inutilizar eles, pois são um bom lugar para iniciar, apesar dos erros e falhas. 

Eu não considero todos inúteis. Longe disso, na verdade. Diversos deles podem ser bem úteis. Tanto que, neste tópico, eu explico quais informações úteis podem ser obtidas a partir do UserBenchmark (e quais são realmente sem sentido). O essencial no UserBenchmark (e outros que se encaixem no mesmo contexto dele) é filtrar as informações: basicamente, pegar os resultados diretos e desconsiderar as pontuações indiretas e não representativas obtidas por algoritmos enviesados. ;)

Link para o comentário
Compartilhar em outros sites

  • Membro VIP

@KairanD eu penso que o Passmark é um dos melhores para comparar CPUs principalmente de gerações diferentes, ou segmentos. Ainda é um dos mais seguros, se verificar o Passmark e o Anand não apresentam uma comparação tão discrepante.

 

Eu ainda recomendo ele fortemente principalmente para saber se um upgrade de CPU vai trazer vantagem, em alguns casos o custo-benefício é pequeno, muda de um i5 para i7 no nome, mas no quesito performance é 10% mas o custo é 30% a mais (ocorre muito em processadores mobile por exemplo)

 

Link para o comentário
Compartilhar em outros sites

  • Coordenador

@dwatashi Considerando os resultados que apresentei no item 7, eu pessoalmente e definitivamente não considero o Passmark confiável. Mesmo se desconsiderarmos os problemas inerentes à metodologia, me parece existir um favorecimento muito explícito.

Link para o comentário
Compartilhar em outros sites

  • Membro VIP

@KairanD para os processadores AMD Ryzen X geralmente o bench fica meio inflado, acredito que seja por causa do overclock que aparecem em muitos exemplares dele.(Exemplo)

 

Eu penso que seja uma ferramenta extremamente útil para poder avaliar rapidamente perguntas como se a troca de processador vai trazer benefício, se um Xeon E3 é melhor que um Ryzen xyz, etc. Em processadores de mesma geração, eu acredito que seja interessante buscar mais informações do que se basear em um único benchmark.

 

 

Link para o comentário
Compartilhar em outros sites

Olá, colegas.

 

Falando agora de forma específica sobre sites Benchmark para CPU, o que eu recomendo para as pessoas é que façam inicialmente as testagens em vários sites diferentes.

 

Por exemplo, eu quando vou fazer isso, uso geralmente 3 sites de Benchmark diferentes.

 

Nesta amostragem de 3 sites diferentes, os valores entre eles nunca são exatamente iguais, porque sabemos que essas medições não são precisas.

 

Eu comparo as medições e fico atento às divergências para analisar e tentar chegar a uma conclusão.

 

Algumas divergências as vezes são bizarras mesmo, e fica claro que alguns destes sites possuem problemas, mas com análise, discernimento e bom senso, eu creio que é perfeitamente possível usar estes sites como um ponto inicial de pesquisa.

 

Abraços e fiquem na paz colegas!

Link para o comentário
Compartilhar em outros sites

Crie uma conta ou entre para comentar

Você precisa ser um usuário para fazer um comentário

Criar uma conta

Crie uma nova conta em nossa comunidade. É fácil!

Crie uma nova conta

Entrar

Já tem uma conta? Faça o login.

Entrar agora

Sobre o Clube do Hardware

No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas comunidades sobre tecnologia do Brasil. Leia mais

Direitos autorais

Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

×
×
  • Criar novo...

Ebook grátis: Aprenda a ler resistores e capacitores!

EBOOK GRÁTIS!

CLIQUE AQUI E BAIXE AGORA MESMO!