AMD Bulldozer / Bobcat / Zambezi - Plataformas.

EduardoS · 30 de outubro de 2011

No caso não seria 32+32 bits, sobrando espaço para outra instrução FMA de 32+32 bits?

Não...

A vantagem de utilizar instruções SIMD é que, o espaço ocupado pelo decodificardor e agendador é muito maior que o espaço ocupado pelas unidades de execução, pela imagem abaixo da para ver isso:

Em ambos os lados de onde está escrito "Floating-Point Unit" existem quatro retangulos com o topo branco, cada um desses é uma FMA de 64 bits, cada par opera em conjunto, os retangulos brancos abaixo do texto são os arquivos de registradores, o que está entre os arquivos de regsitradores as unidades MMX e acima do texto (mas ainda abaixo da linha azul) é o agendador, o decodificar fica bem em cima, é tudo que fica acima da linha azul...

Duplicar a "largura" da FPU é fácil, é só duplicar as FMAs, MMXs e arquivos de registradores, fazer uma FPU de 128 bits processar duas instruções 64 bits é complicado, precisa duplicar o agendador e todo o decodificador...

Pela imagem também é possível ver que, se a AMD quisesse, aumentar a FPU para 256 bits não precisaria muito espaço extra, o grande problema dessa opção parece ser o consumo, mesmo ocupando pouco espaço essas FMAs consomem mais que Cadilac desregulado...

aziebert · 30 de outubro de 2011

Ziebert, conforme eu já havia argumentado antes, em muitos cenários espera-se que 4C/4CU desempenhe melhor que 4C/2CU. Tome como exemplos os benchmarks de picCOLOR, MyriMatch e STARS Euler3d. No caso do MyriMatch o esquema auto-agendado pelo W7 se desempenhou até melhor do que o agrupamento das threads em 02 módulos.

Sim, claro que o desempenho com 4M/4C será melhor que 2M/4C. Mas por quanto? É um risco que se corre, se o programa usar muita ALU, você pode perder muito pouco ou até ganhar desempenho, se usar muita FPU pode perder pouco ou muito; mas o consumo em 2M/4C será bem menor então a performance por watt deve ser sempre melhor usando essa estratégia.

Como foi levantado antes, programas heavy multithread já estão preparados para usar mais do que 4 threads. Essa estratégia de agrupar os processos em poucos threads serve mais para a execução de programas que usam poucos threads (que tentem a não ser muito pesados) ou vários programas que usam apenas 1 ou 2 threads.

Nav01 · 30 de outubro de 2011

Sim, claro que o desempenho com 4M/4C será melhor que 2M/4C. Mas por quanto? É um risco que se corre, se o programa usar muita ALU, você pode perder muito pouco ou até ganhar desempenho, se usar muita FPU pode perder pouco ou muito; mas o consumo em 2M/4C será bem menor então a performance por watt deve ser sempre melhor usando essa estratégia.

O problema é que eu acho que o turbo fica oscilando de 3,6GHz a 3,9GHz em auto-scheduling, enquanto que em 2M/4C fica oscilando entre 3,9GHz e 4,2GHz, ou seja, acredito que mesmo assim o turbo não estaria rodando a 4,2GHz de forma contínua. Penso que, embora o turbo v 2.0 seja superior ao 1.0, ele não seja tão bom assim, tanto é que o Piledriver já virá com Turbo Core 3.0. Ou talvez seja um problema com o stepping B2. A ver se o FX-8170 apresentará o mesmo baixo rendimento no turbo em 2M/4C.

Todavia o Tech Report deixou claro que os testes envolvidos são sintéticos e não representativos do mundo real. Não sei ao certo quanto de FPU aqueles testes requisitaram.

Zeca Pagodinho · 30 de outubro de 2011

Nav01, só estou passando para postar o resultado da consulta de flags do processador Bobcat C-50 do meu notebook. Outro dia você disse que a AMD ainda não tinha implementado as instruções ssse3 em seus processadores, mas parece que esse aqui tem suporte, sim:

cat /proc/cpuinfo | grep -i ssse3

flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nopl nonstop_tsc extd_apicid aperfmperf pni monitor ssse3 cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch ibs skinit wdt arat npt lbrv svm_lock nrip_save pausefilter

aziebert · 30 de outubro de 2011

Nav, acho que com a afinidade para 2M/4C o Turbo já funciona direitinho, essa flutuação no clock deve ser devido a alguma ocilação na carga do programa.

Algum detalhe sobre o que o Turbo do Piledriver trará de novo?

Nav01 · 31 de outubro de 2011

Nav01, só estou passando para postar o resultado da consulta de flags do processador Bobcat C-50 do meu notebook. Outro dia você disse que a AMD ainda não tinha implementado as instruções ssse3 em seus processadores, mas parece que esse aqui tem suporte, sim:
cat /proc/cpuinfo | grep -i ssse3

flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nopl nonstop_tsc extd_apicid aperfmperf pni monitor ssse3 cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch ibs skinit wdt arat npt lbrv svm_lock nrip_save pausefilter

Eu não, certamente está confundindo com outro usuário. Não foi o Pistigrillo não?

Nav, acho que com a afinidade para 2M/4C o Turbo já funciona direitinho, essa flutuação no clock deve ser devido a alguma ocilação na carga do programa.
Algum detalhe sobre o que o Turbo do Piledriver trará de novo?

A esperança é que o Turbo 3.0 possa suprir melhor a deficiência de desempenho em single-thread, mas não encontrei nenhum artigo trazendo detalhes da futura tecnologia.

From what we have seen Turbo Core 2.0 will be pretty sophisticated compared to the first generation found in Phenom II X6/Thuban, but what Turbo Core 3.0 will bring we don't know exactly.

Fonte: NordicHardware

Artigos de outros sítios também não trazem detalhes, embora mencionem a próxima versão.

http://www.anandtech.com/show/5029/bulldozer-breaks-frequency-record-again-overclocked-to-846ghz

Entusiasta Andre Yang quebra novamente o recorde mundial de frequência usando a atual versão de varejo (B2) em uma Crosshair V Formula. Ele aplicou uma tensão pouco inferior à que a AMD empregou, com apenas 01 módulo ativo.

Evandro · 31 de outubro de 2011

http://ht4u.net/reviews/2011/amd_fx_6100_4100_review/

Teste bem extenso com os FX 8, 6 e 4.

Zeca Pagodinho · 31 de outubro de 2011

Eu não, certamente está confundindo com outro usuário. Não foi o Pistigrillo não?

É, foi ele mesmo. Desculpe-me pelo engano. Abaixo estão os trechos...

E agora vejo o pessoal concordando com minha ideia de terem lançado um novo Phenom no lugar desse Netburst turbinado aí. Eu penso o seguinte: já que o processo de 32nm está essa porcaria que tantos falam por aqui, que pegassem a litografia de 40nm (usada desde a Radeon HD 4770) e já dessem um "upgrade" nos 45nm do Phenom II. Da mesma forma que a Intel foi pegando arquitetura anterior e melhorando (a base da Sandy, por exemplo, é uma mistureba de Pentium PRO e Phenom com MUITOS melhoramentos), a AMD podia usar o já maduro processo de 40nm e dado uma melhorada na arquitetura do Phenom. Adicionando as instruções SSE 4.1 e 4.2, AVX, SSSE3, fora que não tinha necessidade do octa-core agora. Deixasse o octa-core quando o processo de 32nm ficassem bom para lançar algo decente. Podiam lançar o Phenom III X6 com esses aperfeiçoamentos que falei, e talvez um ligeiro aumento de cache, clock e turbo. Pronto! Provavelmente ainda não ia bater na Sandy, mas já ia encostar melhor perto dela e com uma eficiência energética pelo menos apresentável.

E eu falei que não tem? Eu falei em instruções SSSE3 (um "S" a mais, instruções presentes desde os Core2Duo de 65nm, que a AMD não usa até hoje).

Nav01 · 1 de novembro de 2011

http://benchmarkreviews.com/index.php?option=com_content&task=view&id=871&Itemid=69

Review da mobo MSI 990FXA-GD80 equipada com Bulldozer.

Há alguns testes com resultados bizarros, onde a MSI ganha da ASUS mesmo com overclock de 4,6GHz vs 4,8GHz da concorrente. O parâmetro de overclock é o limite estável de cada mobo.

Seguem os testes bizarros:

However, note something we'll be seeing a lot in this review: although I couldn't reach the same FX-8150 overclock in the MSI board that I did when it was in the ASUS board, the MSI still has slightly higher scores when overclocked.

Again, note that the FX-8150 at 4.6GHz in the MSI motherboard beats the FX-8150 at 4.8GHz in the ASUS motherboard.

Observe o score em MT.

Intel wins this one, but note the MSI 990FXA-GD80's advantage over the ASUS motherboard: 11.5% better FPS at stock speeds and 12.5% better when overclocked...to a slower speed. Something's going on here.

Here's another performance anomaly, though: the MSI's stock-clocked score is just over 17% better than the ASUS' score in the Compress benchmark.

Apesar de o comentário alegar que os resultados foram virtualmente iguais, vale ressaltar aqui que o OC na MSI é 200MHz inferior.

The MSI motherboard posts a slight performance win over the ASUS motherboard.

Observem o teste do Maya.

Another win for AMD, and another anomalous performance from MSI, with the 4.6GHz FX-8150 beating the 4.8GHz FX-8150...what does it mean?

No página 15 vocês podem observar um resumo do comparativo entre ambas as mobos em OC: http://benchmarkreviews.com/index.php?option=com_content&task=view&id=871&Itemid=69&limit=1&limitstart=15

Evandro · 1 de novembro de 2011

Fabricantes "vazam" dados de futuros processadores FM1:

We can't be far from AMD's updated Llano APU's, as all of the major motherboard manufacturers have issued BIOS/UEFI updates for their socket FM1 motherboards for at least some of the expected models. However, what we've also found are several new models that we weren't aware of that will carry the Athlon II and Sempron branding.
Starting at the bottom of the list, we have the dual core Sempron X2 198 which is a 2.5GHz processors, in other words, there's no graphics to be found here. It still fits the FM1 socket, has a total of 1MB of L2 cache and a 65W TDP. This should be one of the cheapest, if not the cheapest socket FM1 processor out there. Moving up a step we have the dual core Athlon X2 221 which moves the clock speed up to 2.8GHz, but with the limited information we have at hand, this is the only difference between the two.

The quad core Athlon II X4 631 – a 2.6GHz part with 4MB L2 cache – is getting a faster sibling in the shape of the Athlon X4 II 641 which is clocked at 2.8.GHz, as well as a more power efficient version of itself with 65W TDP rather than the 100W TDP of the current model. No other changes appear to have been made and for now this is AMD's entire range of CPU's for socket FM1.

Moving on to the new APU's we can apparently look forward to the arrival of AMD's E2-3200 which was announced when AMD launched its Llano range of APU's, but never made it to market. This is a dual core 2.4GHz processor with 1MB of L1 cache combined with a Radeon HD 6370D GPU which has 180 shaders, eight TMUs and four ROPs with a graphics clock of 443MHz.

The only other new model of the ones that are expected to be launched by AMD before the end of the year is the A8-3870, which is expected to be AMD's first unlocked APU. It will also have the fastest CPU core to date with a clock speed of 3GHz. This is of course a quad core APU and it has 4MB of L2 cache. The graphics part should be a Radeon HD 6550D, the same as the current A8-3850 and there's no indication that AMD has changed any of the specifications between the two APUs in terms of clock speeds or configuration.

Other models that may or may not launch this year includes the A4-3420, A6-3420, A6-3620, A6-3670 (unlocked) and A8-3820. Apart from the A6-3670, all of these models are expected to feature a 100MHz clock speed improvement over their current counterparts, although for some reason the A6-3670 is expected to be clocked 100MHz slower than the A6-3650. AMD has only two months left of this year to get its new processors out and we doubt they'll launch them all in the run up to the Christmas season. We have a feeling some models have been pulled in favour of the upcoming Trinity based models that AMD is expected to deliver in Q1 next year.

http://vr-zone.com/articles/motherboard-makers-leak-upcoming-amd-fm1-processors/13845.html

(acessem com proxy)

johannesrs · 1 de novembro de 2011

**** *****, 10 novos processadores? E, espera, 3 da antiga arquitetura, sem nada, ou apus capadas de vídeo? me perdi no q seriam athlons e semprons a estas alturas...

Evandro · 1 de novembro de 2011

Todos "novos" alguns capados no vídeo.. complicado, poderiam ao menos ter uma caquinha de SPs.

Dragum · 1 de novembro de 2011

Todos "novos" alguns capados no vídeo.. complicado, poderiam ao menos ter uma caquinha de SPs.

Com certeza lançados para aproveitar os chips que possuem algum problema na parte "frontal", que impossibilitem o uso destes, mesmo que alguns SPs entejam funcionais. Bem, não acho que veremos muitos, ou o processo está pior do que supomos.

jonny_br · 2 de novembro de 2011

pelo menos pra uma coisa o Bulldozer serve, qual será o limite?

http://www.xtremesystems.org/forums/showthread.php?276393-Andre-Yang-beats-Macci-FX-WR-on-CPU-Z-8461MHz-with-LN%B2-HWBot.org/page2

Evandro · 2 de novembro de 2011

http://www.techpowerup.com/154495/AMD-FX-8100-Surfaces-on-HP-Pavilion-Desktop.html

FX8100 aparece em desktop da HP. (alguma dúvida que aparecerão nos PCs negativo ?)

http://semiaccurate.com/2011/11/02/rumors-of-amd-executive-layoff-pick-up-steam/

Fortes rumores de demissões de zécutivos da AMD tomam conta do Vale do Silício, e segundo o Charlie, elas são verdadeiras, em umas duas semanas saberemos.

A alfinetada: quantos ainda sobraram lá ?

http://techreport.com/discussions.x/21938

AMD perdeu 0,6% de cota de mercado pra Intel no trimestre passado. Em relação ao mesmo período de 2010, ganhou 0,5.

http://hothardware.com/News/AMD-Penguin-Computing-Deploy-First-Server-APUs-With-Curious-Results/

Penguin Computing desenvolve o primeiro servidor feito de APUs AMD, com 104 Llanos. Parece que era nisso que o tio JF estava trabalhando..

Zeca Pagodinho · 2 de novembro de 2011

http://www.techpowerup.com/154495/AMD-FX-8100-Surfaces-on-HP-Pavilion-Desktop.html
FX8100 aparece em desktop da HP. (alguma dúvida que aparecerão nos PCs negativo ?)

http://semiaccurate.com/2011/11/02/rumors-of-amd-executive-layoff-pick-up-steam/

Fortes rumores de demissões de zécutivos da AMD tomam conta do Vale do Silício, e segundo o Charlie, elas são verdadeiras, em umas duas semanas saberemos.

A alfinetada: quantos ainda sobraram lá ?

http://techreport.com/discussions.x/21938

AMD perdeu 0,6% de cota de mercado pra Intel no trimestre passado. Em relação ao mesmo período de 2010, ganhou 0,5.

http://hothardware.com/News/AMD-Penguin-Computing-Deploy-First-Server-APUs-With-Curious-Results/

Penguin Computing desenvolve o primeiro servidor feito de APUs AMD, com 104 Llanos. Parece que era nisso que o tio JF estava trabalhando..

59,6 TFlops... parece que isso inclui os GFlops gerados pela parte GPU do processador, mas isso chega a ser usado, pelo menos atualmente, por nenhuma aplicação do mundo real, certo?

Como disseram, é só uma prova de conceito. Demonstra que a AMD tem planos sólidos para trazer, no futuro, o poder da GPU para o dia-a-dia extrapolando a aplicabilidade inicial, que hoje é basicamente para processamento de vídeo.

Evandro · 2 de novembro de 2011

Não acho que fizeram um bicho desses àtoa, uma aplicação bem feita em OpenCL pode se dar bem com ela sim.

EribertoTorres · 2 de novembro de 2011

Não acho que fizeram um bicho desses àtoa, uma aplicação bem feita em OpenCL pode se dar bem com ela sim.

Bem lembrado, BEM FEITA em OpenCL. Será que dona AMD (Another Major Delay), que logo irá se chamar AMF (Another Major Fail), está cumprindo o cronograma e anda avançando a parte dela no OpenCL? Espero que ao menos isso eles levem a sério.

Eu já acho que a AMD está bem perdida internamente, vários engenheiros saindo, agora uma leva de zécutivos logo sairá, prevejo um futuro negro, e se eles sobreviverem a esse choque de gestão, um futuro menos cinza e mais glorioso com as APUs.

Evandro · 2 de novembro de 2011

Mas depois dessa cagada que foi o Bulldozer é natural que alguns chefes percam a cabeça.

Se esse desenvolvimento em OpenCL não ficar bom, boa parte do esforço no desenvolvimento dos Fusions vai pro ralo.

EribertoTorres · 3 de novembro de 2011

Isso significa: boa parte dos engenheiros irão para outras empresas.

Nav01 · 3 de novembro de 2011

Mas depois dessa cagada que foi o Bulldozer é natural que alguns chefes percam a cabeça.

Embora o Bulldozer não se tenha saído bem em single-thread o FX-8150 só perde para o X6-1100T em 4% no referido quesito, segundo o HT4U.net (link daquele teste intensivo).

Já em MT o FX-8150 bateu o X6-1100T em 16%.

Em jogos vai depender das configurações de vídeo, estando 3% abaixo do X6-1100T no HT4U.net. No Tom's Hardware ficou no nível do X4-980 (3,7GHz), já em configurações de alta qualidade chega a ultrapassar o i7-2600K em alguns cenários.

No geral exceto jogos (índice medido pelo HT4U.net), o índice foi 11% superior ao X6 1100T.

Já no geral incluindo os jogos, o índice do FX-8150 foi 8% superior ao 1100T, mas aí entra a questão da configuração dos jogos. Além do mais é péssimo jogar em baixa resolução, sem filtro anti-serrilhado (AA) e anti-embassamento (AF) e isso é pouco representativo do mundo real.

Quanto aos FX-4100 e FX-6100, pra mim são péssimos produtos. O FX-4170 não está saindo nos reviews e isto é porque certamente não foi lançado ainda (embora o VIX disse que já tenha saído do forno). Creio que a AMD já poderia tê-lo lançado e não o fez ainda porque não quis. O FX-6100 é um produto horroroso com clock de apenas 3,3GHz e também foi outro que apanhou bastante nos reviews. Se contasse pelo menos com o turbo já daria alguma coisa, mas infelizmente o turbo não funciona direito no agendador do Windows 7.

EribertoTorres · 3 de novembro de 2011

A tal esperança é o suposto patch para Linux e o Windows 8. Mas pensemos bem: será que não vai beneficiar também os Intel? Ai o trunfo foi para a caixa do prego.

johannesrs · 3 de novembro de 2011

o que, esses patches de agendadores e turbos? acho difícil, eles tem mais a ver com a geometria esquisita dos módulos.

o que me preocupa é que nunca vai haver suporte a isso nos compiladores da intel.

Evandro · 3 de novembro de 2011

Embora o Bulldozer não se tenha saído bem em single-thread o FX-8150 só perde para o X6-1100T em 4% no referido quesito, segundo o HT4U.net (link daquele teste intensivo).
Já em MT o FX-8150 bateu o X6-1100T em 16%.

Em jogos vai depender das configurações de vídeo, estando 3% abaixo do X6-1100T no HT4U.net. No Tom's Hardware ficou no nível do X4-980 (3,7GHz), já em configurações de alta qualidade chega a ultrapassar o i7-2600K em alguns cenários.

No geral exceto jogos (índice medido pelo HT4U.net), o índice foi 11% superior ao X6 1100T.

Já no geral incluindo os jogos, o índice do FX-8150 foi 8% superior ao 1100T, mas aí entra a questão da configuração dos jogos. Além do mais é péssimo jogar em baixa resolução, sem filtro anti-serrilhado (AA) e anti-embassamento (AF) e isso é pouco representativo do mundo real.

Quanto aos FX-4100 e FX-6100, pra mim são péssimos produtos. O FX-4170 não está saindo nos reviews e isto é porque certamente não foi lançado ainda (embora o VIX disse que já tenha saído do forno). Creio que a AMD já poderia tê-lo lançado e não o fez ainda porque não quis. O FX-6100 é um produto horroroso com clock de apenas 3,3GHz e também foi outro que apanhou bastante nos reviews. Se contasse pelo menos com o turbo já daria alguma coisa, mas infelizmente o turbo não funciona direito no agendador do Windows 7.

Concorda que esses 11% são muito pouca coisa ?

E concorda que o ganho só foi bruto quando há aproveitamento de novos conjuntos de instruções, o que acontece em poucos casos ?

E ainda, concorda que o preço escolhido foi péssimo ?

Eles erraram a mão no produto em vários aspectos, se fosse só um ou outro a situação não seria a de hoje.

Eles sabiam que isso ia ocorrer a uns bons meses atrás, poderiam ter intervido ou ter tomado uma decisão diferente pro resultado não ser o que foi, agora, dificilmente a AMD consegue ter um bom lucro com estes processadores no mercado desktop.

Dragum · 3 de novembro de 2011

Erraram até no nome... 8% de ganho pro X6 com novas instruções só significa uma coisa: ele poderia ser inferior ao X6 se não as tivessem. Isso com litografia nova em...

E vão demitir executivos? Tem que mandar pra rua também o cara que "desenhou" esta M.