AMD Bulldozer / Bobcat / Zambezi - Plataformas.

aziebert · 6 de junho de 2012

São segmentos bem diferentes, um Trinity de 17w será bem mais rápido e bem mais caro que um Brazos de 18w.

E o Trinity de 17w deve equipar apenas ultra-thins "premium" (já que não podemos falar ultrabooks), enquanto o Brazos continuará nos netbooks e notebooks "normais".

Skoker · 6 de junho de 2012

Estranho eles conseguirem fazer um processador bem mais rápido com TDP mínimo e não conseguirem diminuir o TDP do processadores mais fracos. Será que não seria possível uma versão mais básica do Trinity?

Evandro · 6 de junho de 2012

São segmentos bem diferentes, um Trinity de 17w será bem mais rápido e bem mais caro que um Brazos de 18w.
E o Trinity de 17w deve equipar apenas ultra-thins "premium" (já que não podemos falar ultrabooks), enquanto o Brazos continuará nos netbooks e notebooks "normais".

Você lembra se vai ter versão pra tablet ?

Estranho eles conseguirem fazer um processador bem mais rápido com TDP mínimo e não conseguirem diminuir o TDP do processadores mais fracos. Será que não seria possível uma versão mais básica do Trinity?

Até seria, mas teriam que capar o vídeo e o trinity já tem um só módulo, não dá pra cortar o módulo ao meio, além disso demandar novas máscaras para produção, o resultado provavelmente não compensa, é o que o Ziebert disse, estes Trinity de 17W são o filé da produção, eles não são focados pros micros mais baratos, pra isso se tem o brazos.

Adryanss · 6 de junho de 2012

Trinity é 28nm

Brazos 2.0 é 40nm

Estou meio por fora, mas que eu sei é isso, e deve fazer uma baita diferença no consumo, né.

EDIT: além disso, como o Evandro disse (não tinha lido, estou com probleminha ao atualizar a página, não aparecem todas as postagens novas ), o Brazos é a "repa" da produção, já o Trinity de 17W é a "nata", certo?

Evandro · 6 de junho de 2012

O Trinity é 32 nm HKMG SOI, o Brazos é 40 nm Bulk atpe onde sei, iso faz sim bastante diferença, mesmo que o Brazos seja um chip menor que um feto de 8 semanas de idade..

Não Adryans, o Brazos não é o lixão, ele é outra linha completamente diferente, não sei dizer quem é a nata e quem é a coalhada. ^^

Guilherme FW Xavier · 6 de junho de 2012

Acho que só no desktop que não deu certo. AMD coloca mais bulldozer's para servidor no mercado:

http://www.xbitlabs.com/news/cpu/display/20120604235052_AMD_Boosts_Performance_of_Multi_Core_AMD_Opteron_Processors.html

Veja que o AMD Opteron 4240: 6-core 3.4GHz, 95W TDP, deve ser igual ao FX 6200 com menos TDP. E esse AMD Opteron 6278: 16-core 2.4 GHz, 115W TDP, tem TDP perto de um Fx-8100 com o dobro de núcleos. Porque não conseguem isso para desktop?

johannesrs · 6 de junho de 2012

nossa, esse 6278 até me correu uma lágrima de inveja...

EL ETRO · 6 de junho de 2012

Veja que o AMD Opteron 4240: 6-core 3.4GHz, 95W TDP, deve ser igual ao FX 6200 com menos TDP. E esse AMD Opteron 6278: 16-core 2.4 GHz, 115W TDP, tem TDP perto de um Fx-8100 com o dobro de núcleos. Porque não conseguem isso para desktop?

Juro pra você que tem um Opertron 12C que tem TDP de menos de 3W por núcleo(TDP). E ele é Magny-Cours.

O Trinity é 32 nm HKMG SOI, o Brazos é 40 nm Bulk atpe onde sei, iso faz sim bastante diferença, mesmo que o Brazos seja um chip menor que um feto de 8 semanas de idade..
Não Adryans, o Brazos não é o lixão, ele é outra linha completamente diferente, não sei dizer quem é a nata e quem é a coalhada. ^^

Talvez seja a nata da nata mesmo. Ele não era feito com um silício especial(assim como os processadores de ultrabook da intel)? como os caras querem idealizar um tal de ultrabook pra concorrer com os ARM da vida, se precisam de um processador de 300 dólares pra enfrentar(em termos de eficiência) um processador barato igual um arm médio? E ainda enfiar um SSD caríssimo nele!

EduardoS · 6 de junho de 2012

Veja que o AMD Opteron 4240: 6-core 3.4GHz, 95W TDP, deve ser igual ao FX 6200 com menos TDP.

Não, o FX-6200 tem 400MHz a mais no clock base.

E esse AMD Opteron 6278: 16-core 2.4 GHz, 115W TDP, tem TDP perto de um Fx-8100 com o dobro de núcleos. Porque não conseguem isso para desktop?

Porque com 2.4GHz ninguém compraria.

A grande diferença é que em servidores eles podem sacrificar a performance single-thread para por mais núcleos, em desktops não, hoje a perfomance single-thread é o calcanhar de aquiles da AMD, é "só" isso que os impede de lançar processadores no mesmo nível da Intel.

Guilherme FW Xavier · 26 de junho de 2012

Rumores de novos lançamentos com TDP de 125W:

8350 clock > 3.6 do 8150

6300 clock > 3.8 do 6200

4320 clock > 4.1 do 4170

http://www.fudzilla.com/home/item/27670-amd-fx-8350-expected-in-q3

jonny_br · 26 de junho de 2012

Rumores de novos lançamentos com TDP de 125W:
8350 clock > 3.6 do 8150

6300 clock > 3.8 do 6200

4320 clock > 4.1 do 4170

http://www.fudzilla.com/home/item/27670-amd-fx-8350-expected-in-q3

Trabanom, FX-*3** são baseados no novo núcleo (Pilledriver - Vichera), lá do outro tópico.

http://forum.clubedohardware.com.br/amd-piledriver-vishera/981341?t=981341&page=47

sirroman · 27 de junho de 2012

Dedicar decoders para cada núcleo não vai resolver nada, existe um grande ganho em área mantendo eles compartilhados, ainda não estou convencido de que um núcleo realmente seja capaz de manter a execução de mais de 2 instruções por ciclo mesmo operando sozinho, se isso não mudar não tem porque aumentar os decoders.

Também acho (mas no meu caso é chute, "hunch" xD). Mas acredito que eles vão no minimo aumentar a capacidade do decoder, da forma que está falta finesse e deve ter performance ficando na mesa ai.

Lembrando que eles já reduziram as unidades de execução de 3 para 2 já argumentando que na média a quantidade de instruções é essa. Então deve se focar para se aproximar ao máximo a essa média de forma consistente, já que já estão sacrificando uma margem de manobra ai.

1) O BD se sai melhor em testes que estressam os caches.
2) É uma arquitetura voltados a clocks altos, a latência do cache nunca chegaria perto do Sandy Bridge ou K-8.

3) A unidade de load/store foi muito melhorada no Bulldozer, parece estar a frente inclusive do Sandy Bridge, há 40 slots na fila dos loads, um para cada slot no agendador (será que são os mesmos slots?) e isso é suficiente para que alguns acessos ao L2 passe desapercebidos (ao contrário do L2 do Llano, apesar da latência desse último ser apenas 12 ciclos).

Enfim, a arquitetura foi desenvolvida voltada para servidores, nesses sistemas a unidade load/store é muito importante e a AMD parece ter desenvolvido primeiro essa unidade (e muito bem por sinal) e depois feito o resto do processador em volta dela (ai nem tudo ficou muito bom...), os benchmarks mostram o resultado disso, a lógica que a maioria das pessoas parece adotar é: "é diferente da Intel? Então é ruim!", seguido por um grupo que pensa: "20 > 12, lento".

4) Essa até parece óbvio... Reduzir o tamanho do cache é muito, mas muito simples, isso permitira reduzir a latência (uns 18 ciclos se reduzisse para 1MB, talvez 16 se dedicasse 512kB para cada núcleo, mas não muito menos que isso, lembra do item 2?), mas sendo tão simples assim, se a AMD ainda não fez isso, será que podemos concluir que não aumentaria a performance? Tem tanta coisa difícil de mexer que parece insuficiente, vão botar a culpa justo no mais simples?

E a gente volta ao começo: foi feito para clock alto (e não alcançou) e se concentra em workloads server. Pois é.

Estranho eles conseguirem fazer um processador bem mais rápido com TDP mínimo e não conseguirem diminuir o TDP do processadores mais fracos. Será que não seria possível uma versão mais básica do Trinity?

Assim como já falaram sobre a performance e o consumo, especialmente quanto à diferença de processo entre os dois, eu reforço o que o Evandro disse. Eles não otimizaram o chip apenas para a performance, também levaram em conta os custos: o brazos é bem menor do que o trinity, usa um processo mais "simples", e não usa certas tecnologias que aparecem agora com o trinity, como o resonant clock mesh já comentado por aqui.

EduardoS · 27 de junho de 2012

Também acho (mas no meu caso é chute, "hunch" xD). Mas acredito que eles vão no minimo aumentar a capacidade do decoder, da forma que está falta finesse e deve ter performance ficando na mesa ai.

O problema com AVX256? Hum...

For isso não vi teste mostrando que o decoder era um fator limitante, ele é uma unidade de apoio, não executa instruções, então vamos para as ALUs:

Lembrando que eles já reduziram as unidades de execução de 3 para 2 já argumentando que na média a quantidade de instruções é essa. Então deve se focar para se aproximar ao máximo a essa média de forma consistente, já que já estão sacrificando uma margem de manobra ai.

Bem... Se eles estão reduzindo de 3 para 2 eles nunca diriam que faria falta, não concorda?

Do Core Duo para o Core 2 Duo a Intel aumentou as ALUs de 2 para 3, e isso que haviam unidades dedicadas a loads/stores que lidavam com algumas instruções sem precisar de ajuda das ALUs, no K-7/K-8/GH haviam 3 ALUs mas todas as instruções passavam por uma dessas ALUs, no BD em cada núcleo de inteiros só existe 2, e todas as instruções precisam passar por elas.

Se realmente a duas fossem suficientes, por que todos os outros processadores tem mais?

E quanto a ampliar os decoders para aumentar a utilização das ALUs, se elas executam no máximo duas instruções por clock por núcleo e o decoder decodifica 4 instruções por clock para dois núcleos... Parece suficiente, o que se ganha aumentando os decoders?

No K-7/K-8/GH haviam AGUs sobrando.

P) Por que preferiram deixar elas sobrando ao invés de aumentar outras partes do núcleo?

R) Porque as AGUs são mais baratas que outras partes do núcleo, é preferível ter AGUs sobrando do que alguma outra parte gargalar por falta da AGU.

No BD vale o mesmo princípio, o front-end é maior do que os dois núcleos de inteiros juntos, é preferível que o front-end gargale os núcleos do que deixar os núcleos gargalarem o front-end.

E por fim, são médias, e médias com muitos problemas:

1) É média, quer dizer, se em um ciclo forem executadas 3 instruções e no segundo ciclo apenas 1 a média será 2 por ciclo, mas isso não siginifica que caso haja uma limitação de 2 instruções por ciclo essa média será preservada.

2) Foram obtidas a muito tempo com processadores que tinham o susbsitema de memória muito limitado e que por isso ficavam muito tempo esperando a memória sem fazer nada, o que jogava a média para baixo, para ter uma média de digamos 2 IPC nos ciclos que o processador não estivesse esperando a memória ele teria que executar muito mais instruções por clock para compensar, e o subsistema de memória evoluiu muito.

3) Testes práticos provam o contrário, um profiler do Cinebench rodando em uma thread do Sandy Bridge mostra que por diversas vezes o IPC supera 2, não é porque um estudo de 2006 com Core 2 Duo mostra que o IPC não passa de 2 que isso continua válido para o Sandy Bridge...

o brazos é bem menor do que o trinity, usa um processo mais "simples", e não usa certas tecnologias que aparecem agora com o trinity, como o resonant clock mesh já comentado por aqui.

Resonant Clock Mesh faria pouca diferença no Brazos, essa tecnologia só vai realmente valer em clocks mais altos, a 4GHz falam em 5% de ganho, mesmo o Piledriver desativa o RCM quando reduz o clock.

sirroman · 28 de junho de 2012

O problema com AVX256? Hum...
For isso não vi teste mostrando que o decoder era um fator limitante, ele é uma unidade de apoio, não executa instruções, então vamos para as ALUs:

Bem... Se eles estão reduzindo de 3 para 2 eles nunca diriam que faria falta, não concorda?

Do Core Duo para o Core 2 Duo a Intel aumentou as ALUs de 2 para 3, e isso que haviam unidades dedicadas a loads/stores que lidavam com algumas instruções sem precisar de ajuda das ALUs, no K-7/K-8/GH haviam 3 ALUs mas todas as instruções passavam por uma dessas ALUs, no BD em cada núcleo de inteiros só existe 2, e todas as instruções precisam passar por elas.

Se realmente a duas fossem suficientes, por que todos os outros processadores tem mais?

E quanto a ampliar os decoders para aumentar a utilização das ALUs, se elas executam no máximo duas instruções por clock por núcleo e o decoder decodifica 4 instruções por clock para dois núcleos... Parece suficiente, o que se ganha aumentando os decoders?

No K-7/K-8/GH haviam AGUs sobrando.

P) Por que preferiram deixar elas sobrando ao invés de aumentar outras partes do núcleo?

R) Porque as AGUs são mais baratas que outras partes do núcleo, é preferível ter AGUs sobrando do que alguma outra parte gargalar por falta da AGU.

No BD vale o mesmo princípio, o front-end é maior do que os dois núcleos de inteiros juntos, é preferível que o front-end gargale os núcleos do que deixar os núcleos gargalarem o front-end.

E por fim, são médias, e médias com muitos problemas:

1) É média, quer dizer, se em um ciclo forem executadas 3 instruções e no segundo ciclo apenas 1 a média será 2 por ciclo, mas isso não siginifica que caso haja uma limitação de 2 instruções por ciclo essa média será preservada.

2) Foram obtidas a muito tempo com processadores que tinham o susbsitema de memória muito limitado e que por isso ficavam muito tempo esperando a memória sem fazer nada, o que jogava a média para baixo, para ter uma média de digamos 2 IPC nos ciclos que o processador não estivesse esperando a memória ele teria que executar muito mais instruções por clock para compensar, e o subsistema de memória evoluiu muito.

3) Testes práticos provam o contrário, um profiler do Cinebench rodando em uma thread do Sandy Bridge mostra que por diversas vezes o IPC supera 2, não é porque um estudo de 2006 com Core 2 Duo mostra que o IPC não passa de 2 que isso continua válido para o Sandy Bridge...

Não discuto se 2 é a quantidade de ALU/núcleo ideal, só mencionei que foi ESSA a mensagem que a AMD passou antes mesmo do lançamento do BDZ. Se a minha memória não me falha, claro.

E quanto ao decoder, falei em melhorá-lo porque ele só decodifica para um núcleo a cada pulso do clock, alternando entre eles a cada clock. Assim ele acaba decodificando 2 instruções por clock quando teoricamente os dois núcleos poderiam trabalhar 4 instruções por clock. Salvo se eu entendi errado (foi falado antes e tá naquela analise do agner).

Resonant Clock Mesh faria pouca diferença no Brazos, essa tecnologia só vai realmente valer em clocks mais altos, a 4GHz falam em 5% de ganho, mesmo o Piledriver desativa o RCM quando reduz o clock.

Foi a título ilustrativo, quis dizer que o trinity é de certa forma mais avançado tanto na litografia quanto no design, sendo o RCM um exemplo.

EduardoS · 28 de junho de 2012

Não discuto se 2 é a quantidade de ALU/núcleo ideal, só mencionei que foi ESSA a mensagem que a AMD passou antes mesmo do lançamento do BDZ. Se a minha memória não me falha, claro.

Bem... Realmente, a AMD passou essa mensagem, gostaríamos que alguém que a empresa paga para se comunicar com o público se limitasse a falar verdades não é mesmo?

Mas na questão do Bulldozer não foi bem assim, quem muito falou dele foi o John Fruehe, e muito do que ele falou (inclusive contradizendo publicações técnicas da AMD para feiras de tecnologia) se provou mentira, é triste isso mas algumas coisas que você leu sobre o Bulldozer vindo dele podem não ser verdade.

Falando especificamente sobre IPC existe um argumento em defesa dele, ele é o diretor de marketing da divisão de servidores, realmente, em bancos de dados o IPC raramente passa de 1 e se olhar, o desempenho do BD nesses casos não é tão ruim.

Foi a título ilustrativo, quis dizer que o trinity é de certa forma mais avançado tanto na litografia quanto no design, sendo o RCM um exemplo.

E citei aquilo a título informativo, não para ofender.

sirroman · 29 de junho de 2012

Bem... Realmente, a AMD passou essa mensagem, gostaríamos que alguém que a empresa paga para se comunicar com o público se limitasse a falar verdades não é mesmo?
Mas na questão do Bulldozer não foi bem assim, quem muito falou dele foi o John Fruehe, e muito do que ele falou (inclusive contradizendo publicações técnicas da AMD para feiras de tecnologia) se provou mentira, é triste isso mas algumas coisas que você leu sobre o Bulldozer vindo dele podem não ser verdade.

Falando especificamente sobre IPC existe um argumento em defesa dele, ele é o diretor de marketing da divisão de servidores, realmente, em bancos de dados o IPC raramente passa de 1 e se olhar, o desempenho do BD nesses casos não é tão ruim.

Hmmm, justo. Mas eu sinceramente acho que o problema maior dele foi confiar demais em alguém que passou uma informação antes de ser confirmada. Ele falava isso de aumento de IPC beeeem antes da AMD ter as revisões finais do chip (supondo que o atraso do BDZ decorreu dele precisar de várias revisões e tal).

Tipo, eu acho que pregaram ele na cruz por uma questão técnica que ele não tinha nenhum controle. Ele é um cara de marketing e errou feio ao não calcular a consequência do que ele falava (ele era o ÚNICO que falava algo do bulldozer, inclusive em posts no "blog" dele), mas ele tanto foi inocentado que até onde eu sei ele permanece na AMD mesmo depois da demissão em massa da equipe de marketing da AMD.

No caso o que eu acho é que essa informação de instruções/clock foi algo bem específico que foi passado a ele. Como é algo que foi analisado antes (independe de variação na execução do produto, dependendo apenas do SW usado na análise) eu acho que essa informação é razoavelmente correta. Pelo menos nas workloads que a AMD focou com o BDZ como você bem lembrou.

Mas claro, ele também pode ter se enrolado ou ter feito uma "leitura criativa" do que foi passado para ele, mas ai eu já não tenho certeza, não posso afirmar. Isso é o que eu "acho".

E citei aquilo a título informativo, não para ofender.

Claro que eu não me senti ofendido.

Agora me lembrei de perguntar: aonde você viu a documentação que o Piledriver desativa o RCM em clocks baixos? Eu nem imaginava que isso fosse possível.

EduardoS · 29 de junho de 2012

Agora me lembrei de perguntar: aonde você viu a documentação que o Piledriver desativa o RCM em clocks baixos? Eu nem imaginava que isso fosse possível.

No próprio documento apresentando a RCM, mas não vou lembrar do link e nem do parágrafo, se alguém tiver fácil...

Alisson Cristian · 9 de agosto de 2012

Alguem sabe me dizer se o Bulldozer equivale mesmo à um x3 núcleos , ou isso é só detalhes técnicos que não fazem diferença ?

demonstração do FX 6100 :

_________________

|1+1| |1+1| |1+1|

o que significa isso nos processadores da AMD ? alguma coisa do tipo , threads ? (sei que não é , mas me leva a pensar.)

tenho medo de estar investindo na AMD pensando que estou com buffalos , mas que simplesmente estou com os buffalos em chão de vidro .

EribertoTorres · 9 de agosto de 2012

Alguem sabe me dizer se o Bulldozer equivale mesmo à um x3 núcleos , ou isso é só detalhes técnicos que não fazem diferença ?
demonstração do FX 6100 :

_________________

|1+1| |1+1| |1+1|

o que significa isso nos processadores da AMD ? alguma coisa do tipo , threads ? (sei que não é , mas me leva a pensar.)

tenho medo de estar investindo na AMD pensando que estou com buffalos , mas que simplesmente estou com os buffalos em chão de vidro .

Ele tem 3 módulos, que segundo a AMD equivale a 6 núcleos. Cada módulo é composto de 2 unidades de inteiros e uma unidade de ponto flutuante, daí a AMD dizer que ele é hexa core (3 módulos de 2 unidades de inteiros = 6 núcleos).

Leia mais aqui: https://www.clubedohardware.com.br/artigos/Por-Dentro-da-Arquitetura-AMD-Bulldozer/2063

Alisson Cristian · 9 de agosto de 2012

Ele tem 3 módulos, que segundo a AMD equivale a 6 núcleos. Cada módulo é composto de 2 unidades de inteiros e uma unidade de ponto flutuante, daí a AMD dizer que ele é hexa core (3 módulos de 2 unidades de inteiros = 6 núcleos).
Leia mais aqui: https://www.clubedohardware.com.br/artigos/Por-Dentro-da-Arquitetura-AMD-Bulldozer/2063

Então Eriberto Torres , eu já avia lido essa pagina e outros que apresentam o diagrama do Bulldozer , mas a dúvida maior era se na pratica os 6 núcleos são reais ou não ?

pois sei também que ele possui módulos, mas como eu não sou o fabricante , eu não sei se isso equivale à um Phenom II de x6 núcleos , o Bulldozer veio só para entrar com arquitetura 32 nm e algumas coisas a mais que os anteriores como o Phenom II ?

Antes era cada um pra sí , mas se ajudavam quando precisavam , e agora no Bulldozer é duplas que se ajudam também no auto OverClock.

EribertoTorres · 9 de agosto de 2012

Então Eriberto Torres , eu já avia lido essa pagina e outros que apresentam o diagrama do Bulldozer , mas a dúvida maior era se na pratica os 6 núcleos são reais ou não ?
pois sei também que ele possui módulos, mas como eu não sou o fabricante , eu não sei se isso equivale à um Phenom II de x6 núcleos , o Bulldozer veio só para entrar com arquitetura 32 nm e algumas coisas a mais que os anteriores como o Phenom II ?

Antes era cada um pra sí , mas se ajudavam quando precisavam , e agora no Bulldozer é duplas que se ajudam também no auto OverClock.

O fabricante diz que equivale a 6 núcleos, eu prefiro considerar que é um tri-core bombadao, como se fosse um HyperThreading da AMD. Se eles tivessem promovido o produto assim, teria tido menos rejeicao.

O FX nao é ruim de todo, mas o X6 se sai melhor em vários cenários. Se for o caso, espere sair os novos FX (até final de ano), ou espere os APUs Trinitys, que já vem com vídeo (de qualidade) integrado.

Se quiser uma cpu porreta vai de i5 ou i7 e sejas feliz. Se for para jogar, acho que convém esperar e economizar algo para a vga.

Alisson Cristian · 9 de agosto de 2012

O fabricante diz que equivale a 6 núcleos, eu prefiro considerar que é um tri-core bombadao, como se fosse um HyperThreading da AMD. Se eles tivessem promovido o produto assim, teria tido menos rejeicao.
O FX nao é ruim de todo, mas o X6 se sai melhor em vários cenários. Se for o caso, espere sair os novos FX (até final de ano), ou espere os APUs Trinitys, que já vem com vídeo (de qualidade) integrado.

Se quiser uma cpu porreta vai de i5 ou i7 e sejas feliz. Se for para jogar, acho que convém esperar e economizar algo para a vga.

Concordo com você , tomara que a AMD não decepcione os clientes e ganhar fãma de pulíticos, de todo o modo valeu pelas informações .

EribertoTorres · 9 de agosto de 2012

Concordo com você , tomara que a AMD não decepcione os clientes e ganhar fãma de pulíticos, de todo o modo valeu pelas informações .

Quem fez besteira maior ai foi o marketing da AMD, o produto nao seria estão ruim se nao tivesse tido essa nomenclatura fajuda X4,X6 e X8.

Guilherme FW Xavier · 21 de agosto de 2012

Parece que vem ai mais um BDZ: 4130 - 3.8Ghz com turbo de 3.9GHZ (que turbo maravilhoso), 8M de cache e 125W de TDP.

http://www.cpu-world.com//news_2012/2012082001_AMD_FX-4130_CPU_is_available_for_pre-order.html

Evandro · 21 de agosto de 2012

Parece que vem ai mais um BDZ: 4130 - 3.8Ghz com turbo de 3.9GHZ (que turbo maravilhoso), 8M de cache e 125W de TDP.
http://www.cpu-world.com//news_2012/2012082001_AMD_FX-4130_CPU_is_available_for_pre-order.html

125W ?

Cacilds !