AMD Bulldozer / Bobcat / Zambezi - Plataformas.

johannesrs · 28 de outubro de 2011

Os testes do BDZ indicam algumas coisas interessantes,: ele escala bem, por conta do scalling consegue competir onde era esperado, mas tem uma performance sp pífia e um preço ridículo.

Mas tô esperando mais testes de lá pra ver o que sai desse mato ainda...

sidneyrm · 28 de outubro de 2011

Neste ranking, o FX 8150 ta na frente do i5 2500 e atrás do i7 2600:

http://www.cpubenchmark.net/cpu_lookup.php?cpu=AMD+FX-8150+Eight-Core

Nav01 · 28 de outubro de 2011

Neste ranking, o FX 8150 ta na frente do i5 2500 e atrás do i7 2600:
http://www.cpubenchmark.net/cpu_lookup.php?cpu=AMD+FX-8150+Eight-Core

O CPU Mark aproveita todo o throughput do processador, utilizando-se de todos os threads do processador. Como já demonstrado, o Bulldozer escala bem em multi-threading quando são usados mais de 04 núcleos, porém quanto menos núcleos são usados mais fica transparecido o fraco desempenho single-thread.

Em outras palavras, o Bulldozer cai muito bem em programas que são altamente paralelizados, mas peca no desempenho por núcleo, individualmente falando.

EribertoTorres · 28 de outubro de 2011

O CPU Mark aproveita todo o throughput do processador, utilizando-se de todos os threads do processador. Como já demonstrado, o Bulldozer escala bem em multi-threading quando são usados mais de 04 núcleos, porém quanto menos núcleos são usados mais fica transparecido o fraco desempenho single-thread.
Em outras palavras, o Bulldozer cai muito bem em programas que são altamente paralelizados, mas peca no desempenho por núcleo, individualmente falando.

Mas no folding ele é um lixo comparado com o X6 e o i5 2500, nem vou meter o i7 ai porque é injustiça. Ele só é que os Quad da vida.

Mas nesse vendaval, uma notícia boa do trimestre passado:

http://www.chw.net/2011/10/amd-va-mejorando-de-a-pouco-sus-resultados-financieros/

As vendas subiram, ou seja, o faturamento bruto, assim como os lucros.

Mas nem se animem, no outro trimestre, quando saírem os resultados com as vendas do FailX, digo BDZ, veremos uma acentuada queda (sim, sou otimista rss).

marcelogon · 28 de outubro de 2011

Comprei um llano A-3650 + GA-A55M-S2H(que diz vir com o chip a-75 por falta do a55,mas sem usb 3.0) e para minha surpresa tirei o hd que tava na mobo com chip 760(m3a770de) e pluguei na placa e o seven funcionou perfeitamente.

antes tinha um 4670 512 ddr3 e tenho a impressão que o video do 3650 é melhor que ela, tô jogando NFS undercover com o AA no maximo e mais alguns outros efeitos ativados;e fica com 30fps(medido pelo fraps)o que pra mim está bom.

Paguei a bagatela de R$ 501 no conjunto.

johannesrs · 28 de outubro de 2011

Pois é Eriba, esse resultado do Folding é a coisa que mais me encasqueta. Tô esperando testes bem feitos diretamente com o gromacs e o gamess, recompilados, mas sinceramente isso me cheira realmente à compilação que não sabe usar o esquema de módulos.

A menos que o teste tivesse usado windows só, que aí temos outra grande fonte de dor de cabeça...

Nav01 · 28 de outubro de 2011

Mas no folding ele é um lixo comparado com o X6 e o i5 2500, nem vou meter o i7 ai porque é injustiça. Ele só é que os Quad da vida.
Mas nesse vendaval, uma notícia boa do trimestre passado:

http://www.chw.net/2011/10/amd-va-mejorando-de-a-pouco-sus-resultados-financieros/

As vendas subiram, ou seja, o faturamento bruto, assim como os lucros.

Mas nem se animem, no outro trimestre, quando saírem os resultados com as vendas do FailX, digo BDZ, veremos uma acentuada queda (sim, sou otimista rss).

Aos curiosos por saber como o BD se sai no Folding@Home:
http://www.xtremesystems.org/forums/showthread.php?276156-F-H-and-Bulldozer

thuban 1090t @ 4.0ghz , nb @ 2500 , mem @ 1600 7,7,7,21
6970 @ 900x1425

1835 pt wu doing 2min 54sec tpf so roughly3.5 hrs per wu's

FX-8120 @ 4.0ghz , nb @ 2500 , mem @ 1970 8,8,8,24

6970 @ 900x1425

1835 pt wu doing 1min 52sec tpf so less than 2 hrs per wu's

Bulldozer cerca de 75% mais rápido do que X6 em F@H. BDZ pode ser um lixo comparado à Sandy em F@H, mas comparativamente ao Thuban este último seria o lixo.

Vocês estão contando a "FMISC" como FPU, a FMISC não faz nada comparável às FMACS do Bulldozer, nessa comparação só pode usar a FADD e FMUL, quer dizer, duas FPUs por núcleo do K10.
*

Exatamente.

*

No Phenom se só existir somas ele fica limitado a uma operação por ciclo, se só existirem multiplicações também, uma operação ciclo, para atingir duas operações por ciclo só se for 50% soma e 50% multiplicação, no Bulldozer as FPUs fazem as duas operações, sendo só soma são duas por ciclo, só multiplicação duas por ciclo, qualquer proporção entre uma e outra são duas operações por ciclo.

Isso é um avanço, mas assim cada core/thread pode fazer uso de 1 só por ciclo se houve requisição dos dois lados já que é compartilhada, mesmo assim, nada mal.

Hum... Uns 70% é FPU.
Se o HT ajuda muito é um sinal de que o ILP (a "independencia" entre as instruções) é baixo e por isso o programa deixa unidades vazias, é um dos "melhores casos" para processadores estreitos como o Bulldozer, ainda assim o ganho de 16% por thread sobre o Thuban no mesmo clock apesar das latências mais altas da FPU foi impressionante, talvez esse ganho seja mérito do subsistema de memória, em relação ao Sandy Bridge eu esperaria um desempenho por thread por clock um pouco menor, alguém tem números?

F@H usa cerca de 70% FPU. Não se engane com a FPU do BDZ, são 02 unidades de execução FMAC de 128 bits, além do MMX.

Nav01 · 28 de outubro de 2011

Ziebert, o que acho estranho é que o Eduardo disse que as FPUs executam 02 operações por ciclo, o que sugere que cada uma das duas unidades de execução FMAC seja capaz de executar apenas 01 operação por ciclo.

Porém tenho por mim que, como FMA seja capaz de executar o cálculo de uma soma juntamente com multiplicação, cada uma das unidades FMAC seja capaz de executar 02 operações por ciclo. :. as 02 FMAC juntas seriam capazes de executar 04 operações por ciclo em programas otimizados para uso de FMA.

V i X · 28 de outubro de 2011

Bulldozer cerca de 75% mais rápido do que X6 em F@H. BDZ pode ser um lixo comparado à Sandy em F@H, mas comparativamente ao Thuban este último seria o lixo.

Nem perto disso... O Thuban tá com cara de ser mais rápido ou ter o mesmo desempenho. O FX-8150@5.0GHz faz 22K PPD na 2686 (que é uma das WUs que mais rende no projeto), já um 1055T@3.75GHz faz 18K PPD na 2684 (que não é das melhores no quesito rendimento). Pelo que disseram o FX faz 13K PPD em stock na 2686, e o 1055T@3.1GHz faz a mesma pontuação na 6900 (que é parecida com a 2686).

Zeca Pagodinho · 28 de outubro de 2011

Bulldozer cerca de 75% mais rápido do que X6 em F@H. BDZ pode ser um lixo comparado à Sandy em F@H, mas comparativamente ao Thuban este último seria o lixo.

O usuário que postou os valores não citou que tipo de WU rendeu aqueles resultados. Procurando pela pontuação (1835 pontos), você pode ver que se trata de uma WU do Core 16 (vide projetos 11293 e 11294 - http://fah-web.stanford.edu/psummary.html), ou seja, QUEM produziu tais resultados foi a placa de vídeo, uma Radeon 6970 @ 900x142

Logo abaixo dá para ver o rendimento do Bulldozer rodando a 4956MHz uma WU das grandes (bigadv), com 22025,2 PPD. Com o meu Thuban rodando a 4004MHz, tem WU que me rende 23K PPD, ou seja, o Bulldozer com seus 8 cores rende quase a mesma coisa.

Nav01 · 28 de outubro de 2011

O usuário que postou os valores não citou que tipo de WU rendeu aqueles resultados. Procurando pela pontuação (1835 pontos), você pode ver que se trata de uma WU do Core 16 (vide projetos 11293 e 11294 - http://fah-web.stanford.edu/psummary.html), ou seja, QUEM produziu tais resultados foi a placa de vídeo, uma Radeon 6970 @ 900x142

Porém há de convir comigo que, se ambas as configurações usaram uma GPU 6970 @ 900x1425, mesmo que a WU seja de GPU você não pode afirmar que os resultados vieram exclusivamente da Radeon 6970.

Zeca Pagodinho · 28 de outubro de 2011

Porém há de convir comigo que, se ambas as configurações usaram uma GPU 6970 @ 900x1425, mesmo que a WU seja de GPU você não pode afirmar que os resultados vieram exclusivamente da Radeon 6970.

Acho que posso sim. A WU é processada pela GPU. O processador faz um trabalho de tradutor, só envia para a placa de vídeo o que ela precisa saber para processar. O que esse resultado parece demonstrar é que o Bulldozer desempenha esse trabalho muito melhor do que o Thuban. Restaria saber se os Core i7 têm um desempenho igualmente muito superior, em relação aos Thuban, ao encaminhar as WU's da placa de vídeo. Se não, tem aí uma coisa que possa vir a ser explorada nos Bulldozer que vale a pena.

aziebert · 28 de outubro de 2011

Ziebert, o que acho estranho é que o Eduardo disse que as FPUs executam 02 operações por ciclo, o que sugere que cada uma das duas unidades de execução FMAC seja capaz de executar apenas 01 operação por ciclo.
Porém tenho por mim que, como FMA seja capaz de executar o cálculo de uma soma juntamente com multiplicação, cada uma das unidades FMAC seja capaz de executar 02 operações por ciclo. :. as 02 FMAC juntas seriam capazes de executar 04 operações por ciclo em programas otimizados para uso de FMA.

Sim, uma instrução por FPU por ciclo.

Só usando FMA que é possível fazer duas instruções por ciclo por FPU.

Mas até atualizarem o folding para usar FMA....

soullforged · 28 de outubro de 2011

http://www.chw.net/2011/10/amd-va-mejorando-de-a-pouco-sus-resultados-financieros/
As vendas subiram, ou seja, o faturamento bruto, assim como os lucros.

Mas nem se animem, no outro trimestre, quando saírem os resultados com as vendas do FailX, digo BDZ, veremos uma acentuada queda (sim, sou otimista rss).

Eriberto, espera-se melhoras, porque os yelds dos Llano devem começar a render melhor e ele continua sendo vendido aos quatro ventos.

Llano pelo visto é quem tá segurando o barco.

telminão · 28 de outubro de 2011

Eriberto, espera-se melhoras, porque os yelds dos Llano devem começar a render melhor e ele continua sendo vendido aos quatro ventos.
Llano pelo visto é quem tá segurando o barco.

Se com problemas de produção conseguiram isso, imagine, se tivesse tudo bem desde o inicio E SE não tivesse rolado atraso no lançamento, a AMD estaria bem melhor.

Ediones · 28 de outubro de 2011

Llano pelo visto é quem tá segurando o barco.

Esqueceu do Bobcat e VGA's. Só faltou o processo dos 32nm ser bom, que a AMD estaria numa situação muito confortável.

EduardoS · 29 de outubro de 2011

Ziebert, o que acho estranho é que o Eduardo disse que as FPUs executam 02 operações por ciclo, o que sugere que cada uma das duas unidades de execução FMAC seja capaz de executar apenas 01 operação por ciclo.

Vejo que tentei simplificar demais... Onde está "operação" troque por "instrução", e no caso, eram apenas instruções de soma ou multiplicação.

Porém tenho por mim que, como FMA seja capaz de executar o cálculo de uma soma juntamente com multiplicação, cada uma das unidades FMAC seja capaz de executar 02 operações por ciclo. :. as 02 FMAC juntas seriam capazes de executar 04 operações por ciclo em programas otimizados para uso de FMA.

O número de operações é um pouco maior, como as unidades são SIMD e 128 bits da 4 operações por ciclo por FMA para precisão dupla (2 somas e 2 multiplicações) ou 8 operações por ciclo por FMA para precisão simples, o folding@home usa precisão simples e, ao contrário do Cinebench, usa vetores.

Só usando FMA que é possível fazer duas instruções por ciclo por FPU.

Não cada FMA só executa uma instrução por ciclo mas uma das instruções que ela executa (a famosa FMA) faz multiplicações e somas.

Nav01 · 29 de outubro de 2011

O número de operações é um pouco maior, como as unidades são SIMD e 128 bits da 4 operações por ciclo por FMA para precisão dupla (2 somas e 2 multiplicações) ou 8 operações por ciclo por FMA para precisão simples, o folding@home usa precisão simples e, ao contrário do Cinebench, usa vetores.

De fato. Cada FMAC é de 128 bits. Se você divide os 128 bits por 32 bits (precisão dupla), vai dar para fazer 04 operações. Se você divide por 16 bits (precisão simples), vai dar 08 operações.

EduardoS · 29 de outubro de 2011

Nav01, precisão dupla são 64 bits, simples 32 bits.

Contei 4 operações porque a FMAC em si consiste duas, uma multiplicação e uma adição.

jonny_br · 29 de outubro de 2011

Brincando com números e se não errei os cálculos..... FX-8120 seria tão eficiente quanto um Phenom II x8 de mesmo clock, porém, menor, mais econômico e mais barato para produzir, tomando por base este benchmark.

Nav01 · 29 de outubro de 2011

Nav01, precisão dupla são 64 bits, simples 32 bits.
Contei 4 operações porque a FMAC em si consiste duas, uma multiplicação e uma adição.

Isso, isso, isso... 16 bits é bem limitado até para inteiros.

Mas porventura como uma FMAC seja capaz de executar 08 operações por ciclo em PF de 32 bits, isso não sucederia empregando 02 instruções FMA? No caso não seria 32+32 bits, sobrando espaço para outra instrução FMA de 32+32 bits?

Brincando com números e se não errei os cálculos..... FX-8120 seria tão eficiente quanto um Phenom II x8 de mesmo clock, porém, menor, mais econômico e mais barato para produzir, tomando por base este benchmark.

Legal essa tabela Jonny! Só que em aplicações otimizadas para FMA o Bulldozer deverá apresentar um desempenho bem superior. Em benches que não são tão bem paralelizados como o Cinebench R11, se o turbo estivesse funcionando de forma perfeita o BDZ também estaria desempenhando bem melhor.

Também deve-se considerar que tal comparativo de eficiência é em relação ao processamento paralelo. Dentro do próprio núcleo temos a eficiência de aproveitamento do processamento, que depende muito do intercâmbio entre front-end, caches e núcleos.

jonny_br · 29 de outubro de 2011

Legal essa tabela Jonny! Só que em aplicações otimizadas para FMA o Bulldozer deverá apresentar um desempenho bem superior. Em benches que não são tão bem paralelizados como o Cinebench R11, se o turbo estivesse funcionando de forma perfeita o BDZ também estaria desempenhando bem melhor.
Também deve-se considerar que tal comparativo de eficiência é em relação ao processamento paralelo. Dentro do próprio núcleo temos a eficiência de aproveitamento do processamento, que depende muito do intercâmbio entre front-end, caches e núcleos.

Tentei encontra o link onde um cara francês fez um teste usando o BDZ sem o CMT, se não me engano no XS também tem, assim que eu encontrar vou comparar.

Ta me parecendo que BDZ pode ser ruim para o consumidor final, porém para a AMD ficou excelente. Tirando a burrice de chamar de octa-core.

aziebert · 29 de outubro de 2011

jonny: http://www.hardware.fr/articles/842-9/efficacite-cmt.html

O techreport fez algo parecido, usando um bench de 4 threads eles compararam o desempenho na configuração padrão do Windows 7 (threads distribuidos aleatoriamente entre os núcleos = Turbo mal aproveitado), atribuindo processos a 1 núcleo de cada módulo (assim cada thread tem os recursos do módulo todo para si), a 4 núcleos de 2 módulos (o que implica em compartilhamento de recursos, mas melhor aproveitamento do Turbo, é como o Windows 8 funcionará): http://techreport.com/articles.x/21865

Uma observação interessante que fizeram no artigo, o scheduler melhorado do Windows 8 também trará benefícios para sistemas com mais de um processador, aproveitando melhor os núcleos de um processador antes de acordar o segundo, por exemplo, para economizar energia.

jonny_br · 29 de outubro de 2011

jonny: http://www.hardware.fr/articles/842-9/efficacite-cmt.html
O techreport fez algo parecido, usando um bench de 4 threads eles compararam o desempenho na configuração padrão do Windows 7 (threads distribuidos aleatoriamente entre os núcleos = Turbo mal aproveitado), atribuindo processos a 1 núcleo de cada módulo (assim cada thread tem os recursos do módulo todo para si), a 4 núcleos de 2 módulos (o que implica em compartilhamento de recursos, mas melhor aproveitamento do Turbo, é como o Windows 8 funcionará): http://techreport.com/articles.x/21865

Uma observação interessante que fizeram no artigo, o scheduler melhorado do Windows 8 também trará benefícios para sistemas com mais de um processador, aproveitando melhor os núcleos de um processador antes de acordar o segundo, por exemplo, para economizar energia.

Obrigado pelos links Ziebert.

Por cima, assim numa prévia analise sobre o gerenciador de trabalho do Windows 8, não vejo com contar com melhoria com o bulldozer em termo de performance, mas terá perdas significativas no consumo de energia.

O clock extra do Turbo em condições térmicas vai compensar o (compartilhamento de recurso).

Nav01 · 29 de outubro de 2011

O techreport fez algo parecido, usando um bench de 4 threads eles compararam o desempenho na configuração padrão do Windows 7 (threads distribuidos aleatoriamente entre os núcleos = Turbo mal aproveitado), atribuindo processos a 1 núcleo de cada módulo (assim cada thread tem os recursos do módulo todo para si), a 4 núcleos de 2 módulos (o que implica em compartilhamento de recursos, mas melhor aproveitamento do Turbo, é como o Windows 8 funcionará): http://techreport.com/articles.x/21865

Ziebert, conforme eu já havia argumentado antes, em muitos cenários espera-se que 4C/4CU desempenhe melhor que 4C/2CU. Tome como exemplos os benchmarks de picCOLOR, MyriMatch e STARS Euler3d. No caso do MyriMatch o esquema auto-agendado pelo W7 se desempenhou até melhor do que o agrupamento das threads em 02 módulos.