AMD Bulldozer / Bobcat / Zambezi - Plataformas.

Evandro · 24 de outubro de 2011

Ou será que o F@H é bem mais otimizado para CPUs Intel ou se beneficiam muito do conjunto de instruções AVX, onde os Bulldozer tem se mostrado fracos?

AVX é muito recente, pelo que consta no site deles, o mais longe que foram foi SSE2, e sendo ele um programa aberto, não creio que haja otimizações pra um ou outro hardware.

A não ser que o OpenCL esteja melhor pra um hardware ou outro devido a maior empenho do fabricante em desenvolvê-lo, o que eu não afirmo e nem contrario.

A pontuação é diferenciada em relação aos núcleos físicos ou à quantidade de threads?

Ambos. Sistemas multiprocessados pontuam bastante.

aziebert · 24 de outubro de 2011

F@H é um software de natureza científica, com massivo uso de cálculos matemáticos.
Pergunto: Não seria o caso de a FPU do Bulldozer ser bem mais forte que a dos Phenom, porém bem mais fraca do que a dos Sandy?

O avanço foi bastante significativo.

Não sei quanto do Folding é FPU ou ALU, meu palpite é que a maior parte envolve as ALUs, se não a diferença em relação ao X6 seria menor.

Além da IPC alta nos Intel, o HT ajuda um bocado no Folding.

Nav01 · 24 de outubro de 2011

Pelo que o Evandro disse, o i5-2500 faz 13000-15000 pontos, enquanto o i7-2600K faz 24000 pontos (isto em stock).

Considerando-se que a diferença mais considerável entre o i5-2500 e o i7-2600 seja o HT e o tamanho do L3, acredito que realmente o F@H deva se beneficiar bastante do HT.

Mas em relação ao i5-2500K, que não tem HT, qual seria a diferença supondo-se que ambos os processadores estejam configurados no mesmo clock?

Zeca Pagodinho · 24 de outubro de 2011

Aos curiosos por saber como o BD se sai no Folding@Home:
http://www.xtremesystems.org/forums/showthread.php?276156-F-H-and-Bulldozer

BIG ADV Project 2686 ~= 22k PPD

Isso @ 4.9GHz

Tenho medo da conta de luz do cidadão...

Eu tenho um Phenom II X6 @ 4GHz e ele pontua, em média, 20K PPD, no cliente V6, mas há WU's do V7 em que ele chega a render 23K PPD e outras que valem 16K PPD.

Acho que o Bulldozer está no mesmo nível de Core i7 Nehalem, de modo que, atualmente, não vale a pena processar bigWU's, mesmo que ele tenha capacidade de recebê-las e processá-las dentro do preferred deadline.

Guilherme FW Xavier · 24 de outubro de 2011

Será que isso é uma boa notícia para o BDZ: TSMC pronta para 28nm?

http://www.digitimes.com/news/a20111024PR202.html

V i X · 24 de outubro de 2011

Pelo que o Evandro disse, o i5-2500 faz 13000-15000 pontos, enquanto o i7-2600K faz 24000 pontos (isto em stock).
Considerando-se que a diferença mais considerável entre o i5-2500 e o i7-2600 seja o HT e o tamanho do L3, acredito que realmente o F@H deva se beneficiar bastante do HT.

Mas em relação ao i5-2500K, que não tem HT, qual seria a diferença supondo-se que ambos os processadores estejam configurados no mesmo clock?

Várias coisas influenciam o desempenho no folding, como o SO (no Linux o rendimento é 10~20% maior), canais de memória (dual e triple channel fazem diferença), latência e clock das memórias (trazem pouco rendimento a mais, mas trazem alguma coisa), HT (traz um aumento considerável de desempenho se comparado aos processadores da mesma linha que não tem), e obviamente clock, quantidade de núcleos e arquitetura.

Se for para comparar o desempenho dos processadores, não é bom olhar as pontuações, já que nas WUs SMP existe o bônus, que é maior de acordo com o tempo para entregar a WU (quanto antes entregar, melhor), só que aumento não é, digamos, linear. O melhor seria olhar o TPF. Para entender melhor dê uma olhada nessas tabelas de pontuação do folding:

http://forum.clubedohardware.com.br/pontuacao-rendimento-cpus/837378

jonny_br · 24 de outubro de 2011

Brazos 2.0 vindo ai...

tirando a salada...

Achei que Brazos II seria Wishita.

Pelo chipset percebe-se que ainda é o mesmo Bobcat.

computerbase

Nav01 · 24 de outubro de 2011

Será que isso é uma boa notícia para o BDZ: TSMC pronta para 28nm?
http://www.digitimes.com/news/a20111024PR202.html

O que diz o artigo é que a TSMC já está produzindo chips em 28nm em um bom volume, o que proporcionará o atendimento à outros fabricantes fora a Apple, como nVidia e AMD.

É lamentável o fato de a AMD estar dependente de apenas uma foundry para a produção de CPUs de alto desempenho! O Bulldozer foi produzido por ferramentas automáticas, logo a transferência do processo talvez não seja tão difícil e morosa, porém acho algo arriscado. Além do mais, o artigo não trouxe explicitamente nenhuma expectativa quanto a algum sucessor do Bulldozer ser produzido pela TSMC.

telminão · 24 de outubro de 2011

o Dresdenboy jogou no "twister" dele um link sobre uns testes com otimizações em compiladores, que em breve serão disponibilizados no Phoronix.

http://openbenchmarking.org/result/1110210-AR-BDVER1OPT17

AMD BULLDOZER COMPILER TESTS
1110210-AR-BDVER1OPT17: Testing GCC 4.6, GCC 4.7 snapshot, and Open64 4.2.4 compilers on an AMD FX-8150 Bulldozer CPU. Testing with stock compiler support and then when the CFLAGS/CXXFLAGS with having mtune/march options for Bulldozer (bdver1) set. For the GCC releases there's also -Ofast with the bdver1 tuning. Benchmarking by Michael Larabel for a future article on Phoronix.com.

Tem vários gráficos, mas... olhei, fiquei com cara de paisagem, e trouxe para vocês analisarem

Nav01 · 24 de outubro de 2011

o Dresdenboy jogou no "twister" dele um link sobre uns testes com otimizações em compiladores, que em breve serão disponibilizados no Phoronix.
http://openbenchmarking.org/result/1110210-AR-BDVER1OPT17

Tem vários gráficos, mas... olhei, fiquei com cara de paisagem, e trouxe para vocês analisarem

As otimizações por meio de compiladores foi muito gratificante, porém estranhamente no caso da "Gcrypt Library" o resultado foi desastroso. Porventura seria consequência do uso de AVX, onde em alguns testes o Bulldozer se apresentou pior do que sem o uso de tal conjunto de instruções?

EduardoS · 24 de outubro de 2011

O Bulldozer foi produzido por ferramentas automáticas

Não leve os comentários do Cliff tão a sério...

Evandro · 24 de outubro de 2011

O que diz o artigo é que a TSMC já está produzindo chips em 28nm em um bom volume, o que proporcionará o atendimento à outros fabricantes fora a Apple, como nVidia e AMD.
É lamentável o fato de a AMD estar dependente de apenas uma foundry para a produção de CPUs de alto desempenho! O Bulldozer foi produzido por ferramentas automáticas, logo a transferência do processo talvez não seja tão difícil e morosa, porém acho algo arriscado. Além do mais, o artigo não trouxe explicitamente nenhuma expectativa quanto a algum sucessor do Bulldozer ser produzido pela TSMC.

A Intel também depende de uma só Foundry e nem por isso ela tem problemas.

o Dresdenboy jogou no "twister" dele um link sobre uns testes com otimizações em compiladores, que em breve serão disponibilizados no Phoronix.
http://openbenchmarking.org/result/1110210-AR-BDVER1OPT17

Tem vários gráficos, mas... olhei, fiquei com cara de paisagem, e trouxe para vocês analisarem

SE eu entendi direito (***SE***), o compilador faz uma bruta diferença, e se ele for otimizado, nem se fala.

Mas também espero alguém que entenda do assunto bater o martelo.

EduardoS · 24 de outubro de 2011

Não sei quanto do Folding é FPU ou ALU, meu palpite é que a maior parte envolve as ALUs, se não a diferença em relação ao X6 seria menor.

Hum... Uns 70% é FPU.

Além da IPC alta nos Intel, o HT ajuda um bocado no Folding.

Se o HT ajuda muito é um sinal de que o ILP (a "independencia" entre as instruções) é baixo e por isso o programa deixa unidades vazias, é um dos "melhores casos" para processadores estreitos como o Bulldozer, ainda assim o ganho de 16% por thread sobre o Thuban no mesmo clock apesar das latências mais altas da FPU foi impressionante, talvez esse ganho seja mérito do subsistema de memória, em relação ao Sandy Bridge eu esperaria um desempenho por thread por clock um pouco menor, alguém tem números?

Zeca Pagodinho · 25 de outubro de 2011

Se o HT ajuda muito é um sinal de que o ILP (a "independencia" entre as instruções) é baixo e por isso o programa deixa unidades vazias, é um dos "melhores casos" para processadores estreitos como o Bulldozer, ainda assim o ganho de 16% por thread sobre o Thuban no mesmo clock apesar das latências mais altas da FPU foi impressionante, talvez esse ganho seja mérito do subsistema de memória, em relação ao Sandy Bridge eu esperaria um desempenho por thread por clock um pouco menor, alguém tem números?

EduardoS, você já usou/usa o Folding@Home? É importante atentar ao que disse o ViX antes de tirar qualquer conclusão.

Várias coisas influenciam o desempenho no folding, como o SO (no Linux o rendimento é 10~20% maior), canais de memória (dual e triple channel fazem diferença), latência e clock das memórias (trazem pouco rendimento a mais, mas trazem alguma coisa), HT (traz um aumento considerável de desempenho se comparado aos processadores da mesma linha que não tem), e obviamente clock, quantidade de núcleos e arquitetura.
Se for para comparar o desempenho dos processadores, não é bom olhar as pontuações, já que nas WUs SMP existe o bônus, que é maior de acordo com o tempo para entregar a WU (quanto antes entregar, melhor), só que aumento não é, digamos, linear. O melhor seria olhar o TPF. Para entender melhor dê uma olhada nessas tabelas de pontuação do folding:

http://forum.clubedohardware.com.br/pontuacao-rendimento-cpus/837378

O aumento de pontos não é linear. Se tivermos dois processadores com o mesmo clock, sendo que o processador 1 recebe 10000 pontos ao processar a WU xyz e o processador 2 recebe 12000 pontos ao processar a mesma WU, embora o processador 2 seja 20% mais eficiente que o 1, ele não é 20% mais rápido. Esse tipo de inferência é uma falácia devido à formula utilizada para calcular os bônus de cada WU. O pessoal de Stanford procura normalizar as WU's de modo que rendam aproximadamente a mesma coisa, mas varia muito. Com o Bulldozer isso deve ficar ainda mais discrepante, pois, se com arquiteturas não tão distoantes já é possível obter resultados diferentes, com uma arquitetura totalmente nova o resultado pode ser ainda mais diferente.

aziebert · 25 de outubro de 2011

jonny, esse Brazos 2.0 é uma pequena atualização da plataforma. A plataforma do Wichita é a Decan.

Interessante o chipset A68M com USB 3.0.

@EduardoS se o folding tem baixa ILP e pesa mais em FPU o Bulldozer não deveria ser mais rápido que o SandyBridge ?

Ou há muita dependência de instruções e no SB os threads se comunicam pelo cache L1 ?

EduardoS · 25 de outubro de 2011

O aumento de pontos não é linear. Se tivermos dois processadores com o mesmo clock, sendo que o processador 1 recebe 10000 pontos ao processar a WU xyz e o processador 2 recebe 12000 pontos ao processar a mesma WU, embora o processador 2 seja 20% mais eficiente que o 1, ele não é 20% mais rápido. Esse tipo de inferência é uma falácia devido à formula utilizada para calcular os bônus de cada WU. O pessoal de Stanford procura normalizar as WU's de modo que rendam aproximadamente a mesma coisa, mas varia muito. Com o Bulldozer isso deve ficar ainda mais discrepante, pois, se com arquiteturas não tão distoantes já é possível obter resultados diferentes, com uma arquitetura totalmente nova o resultado pode ser ainda mais diferente.

Estou ciente de todos os porblemas do F@H quanto a benchmarks.

Ou há muita dependência de instruções e no SB os threads se comunicam pelo cache L1 ?

ILP baixa significa dependencia de instruções é dentro da mesma thread.

@EduardoS se o folding tem baixa ILP e pesa mais em FPU o Bulldozer não deveria ser mais rápido que o SandyBridge ?

Com baixa ILP ambos deixarão unidades vazias, esperando que algumas instruções terminem, o SandyBridge tem latências menores que o Bulldozer por isso essas instruções terminam antes.

EribertoTorres · 25 de outubro de 2011

Nesse cenário aqui, o BDZ se saiu melhor que o i7 920

http://www.chw.net/2011/10/amd-fx-8150-review-en-linux-parte-1/

Nav01 · 25 de outubro de 2011

Nesse cenário aqui, o BDZ se saiu melhor que o i7 920
http://www.chw.net/2011/10/amd-fx-8150-review-en-linux-parte-1/

O telminão já deu uma adiantada mostrando um cenário bem melhor do Bulldozer com as otimizações feitas pelos compiladores, como você pode observar na citação abaixo:

o Dresdenboy jogou no "twister" dele um link sobre uns testes com otimizações em compiladores, que em breve serão disponibilizados no Phoronix.
http://openbenchmarking.org/result/1110210-AR-BDVER1OPT17

Tem vários gráficos, mas... olhei, fiquei com cara de paisagem, e trouxe para vocês analisarem

O problema do review apontado pelo telminão é que aquele não compara o Bulldozer vs outros processadores e o review que você apontou veio a servir como um bom complemento.

Gun'ss · 25 de outubro de 2011

Ok, então teoricamente o Win8 viria também com essa otimizações?

E quando os usuários Linux terão essas opções disponíveis sem precisar compilar o sistema inteiro.

Diego Paladin · 25 de outubro de 2011

jonny, esse Brazos 2.0 é uma pequena atualização da plataforma. A plataforma do Wichita é a Decan.
Interessante o chipset A68M com USB 3.0.

Pois é, a questão é que o calcanhar de aquiles do Brazos é a CPU, que continua sendo a Bobcat. O Brazos 2.0 só vai ser melhor consistemente se a nova GPU conseguir abaixar o consumo e for possível aproveitar essa margem para aumentar os clocks dos núcleos bobcat para 2 Ghz+. Também gostei do USB 3.0, já passou um pouco da hora da plataforma suportar.

telminão · 25 de outubro de 2011

Ok' date=' então teoricamente o Win8 viria também com essa otimizações?
E quando os usuários Linux terão essas opções disponíveis sem precisar compilar o sistema inteiro.[/quote']

Fiz um post dias atrás de um teste que um membro do XS fez com o Beta do WIn8 e cara, pode acreditar não vale a pena se animar tanto, ao menos pelo que mostrou o ganho é de uma caquinha a mais aqui e ali, perde acolá

http://www.xtremesystems.org/forums/showthread.php?276024-FX-8120-vs-1100t-stock-OC-and-Windows-7-vs-Windows-8

ta ae o link novamente com uma imagem

aziebert · 25 de outubro de 2011

Diego, ali no Brazos 2.0 a GPU da série 7000 é discreta (a GPU integrada da APU continua lá, porém desativada ou em hybrid power).

Diego Paladin · 25 de outubro de 2011

Diego, ali no Brazos 2.0 a GPU da série 7000 é discreta (a GPU integrada da APU continua lá, porém desativada ou em hybrid power).

Hmm, num falo alemão, daí nem li lá. O que eu entendi da tradução é que realmente existe o combo GPU discreta + CPU com hybrid power que eles chamam de E2, mas a GPU interna agora se chama HD 7000, tanto no E2 quanto no E1.

Só que é aquilo, eles também possuem os mesmos 80 SP's do HD 6300, pode ser um mero rebrand e já não teria margem para aumentar clocks...