AMD Bulldozer / Bobcat / Zambezi - Plataformas.

Nav01 · 1 de agosto de 2011

Este artigo diz que o processamento dos Bulldozers se dará por módulos, não pelos núcleos individualmente: http://www.criminalcafe.com/showthread.php?1546-A-espera-do-Bulldozer-Boatos-noticias-e-muita-ansiedade/page38

Em outras palavras, se um programa for executado, mesmo que ele não seja otimizado para multiprocessamento, os 02 núcleos do módulo onde estiver sendo executado empurrarão o processamento. Se isto for verdade, será uma maravilha.

Agora me enrolei...
Sandy tem FPU 128bits por núcleo, porém escala até 256Bits via AVX.

Bulldozer tem o esquema usado no K8 FMA (fused multiply–add) além de suportar o AVX, o mesmo usado no Sandy Bridge.

Jonny, no próprio link que você passou diz que os registradores SIMD de 128 bits foram expandidos para 256 bits nos Sandy Bridge. Eu acredito que todos os SB com instruções AVX possuem registradores de 256 bits.

sirroman · 1 de agosto de 2011

Agora me enrolei...
Sandy tem FPU 128bits por núcleo, porém escala até 256Bits via AVX.

Bulldozer tem o esquema usado no K8 FMA (fused multiply–add) além de suportar o AVX, o mesmo usado no Sandy Bridge.

Sobre o FMAC, as palavras de Altamir: http://forum.clubedohardware.com.br/amd-bulldozer-bobcat/737190?p=4578336#post4578336

Realmente, como o próprio GT fala na matéria (acredito), a AMD taria com instruções mais completas nisso.

---

Acho que eu acabei perdendo o foco da discussão e posso realmente ter misturado informações antigas com novas.

Primeiro, que eu me lembre, quando o pessoal estava falando sobre a FPU (isso ano passado acho) a gente ainda não tinha tanta informação como hoje. O Sandy Bridge não estava lançado, por exemplo.

Então, enquanto discutíamos o salto em integral da arquitetura (que essencialmente duplicou os núcleos), percebemos que o FP não acompanhou o integral. Os 8 núcleos teriam a performance de 4 núcleos.

Então, fazendo o paralelo sobre as preocupações de antes com a situação atual, em que sabemos os produtos lançados pela Intel, as Sandy de 6 núcleos (SB-E) vai ter no papel 50% a mais de FP com 256bits. Enquanto teoricamente em integral o BDZ estaria muito bem obrigado.

Ou seja, em integral a arquitetura ajuda o BDZ, enquanto em FP, não. Depende da implementação, mas *certamente* o SB(-e) vai ser muito bom nisso e superior ao BDZ.

---- EDIT

Este artigo diz que o processamento dos Bulldozers se dará por módulos, não pelos núcleos individualmente: http://www.criminalcafe.com/showthread.php?1546-A-espera-do-Bulldozer-Boatos-noticias-e-muita-ansiedade/page38
Em outras palavras, se um programa for executado, mesmo que ele não seja otimizado para multiprocessamento, os 02 núcleos do módulo onde estiver sendo executado empurrarão o processamento. Se isto for verdade, será uma maravilha.

Se você fala no sentido do CPU dividir a instrução automaticamente para os dois núcleos dentro do módulo, isso é impossível, até onde eu sei. Lembro que eu até perguntei pro JF e ele falou isso. =/

jonny_br · 1 de agosto de 2011

Este artigo diz que o processamento dos Bulldozers se dará por módulos, não pelos núcleos individualmente: http://www.criminalcafe.com/showthread.php?1546-A-espera-do-Bulldozer-Boatos-noticias-e-muita-ansiedade/page38
Em outras palavras, se um programa for executado, mesmo que ele não seja otimizado para multiprocessamento, os 02 núcleos do módulo onde estiver sendo executado empurrarão o processamento. Se isto for verdade, será uma maravilha.

Em informática, eu exclui a palavra "impossível" mas neste caso, eu pago pra ver.

Jonny, no próprio link que você passou diz que os registradores SIMD de 128 bits foram expandidos para 256 bits nos Sandy Bridge. Eu acredito que todos os SB com instruções AVX possuem registradores de 256 bits.

Lá diz, mas creio que isso só é possível no AVX2, lá para o Haswell.

Sobre o FMAC, as palavras de Altamir: http://forum.clubedohardware.com.br/amd-bulldozer-bobcat/737190?p=4578336#post4578336
Realmente, como o próprio GT fala na matéria (acredito), a AMD taria com instruções mais completas nisso.

---

Acho que eu acabei perdendo o foco da discussão e posso realmente ter misturado informações antigas com novas.

Primeiro, que eu me lembre, quando o pessoal estava falando sobre a FPU (isso ano passado acho) a gente ainda não tinha tanta informação como hoje. O Sandy Bridge não estava lançado, por exemplo.

Então, enquanto discutíamos o salto em integral da arquitetura (que essencialmente duplicou os núcleos), percebemos que o FP não acompanhou o integral. Os 8 núcleos teriam a performance de 4 núcleos.

Então, fazendo o paralelo sobre as preocupações de antes com a situação atual, em que sabemos os produtos lançados pela Intel, as Sandy de 6 núcleos (SB-E) vai ter no papel 50% a mais de FP com 256bits. Enquanto teoricamente em integral o BDZ estaria muito bem obrigado.

Ou seja, em integral a arquitetura ajuda o BDZ, enquanto em FP, não. Depende da implementação, mas *certamente* o SB(-e) vai ser muito bom nisso e superior ao BDZ.

---- EDIT

Se você fala no sentido do CPU dividir a instrução automaticamente para os dois núcleos dentro do módulo, isso é impossível, até onde eu sei. Lembro que eu até perguntei pro JF e ele falou isso. =/

O retrospecto foi excelente, pena que eles sumiram...

Nav01 · 1 de agosto de 2011

---- EDIT

Se você fala no sentido do CPU dividir a instrução automaticamente para os dois núcleos dentro do módulo, isso é impossível, até onde eu sei. Lembro que eu até perguntei pro JF e ele falou isso. =/

Primeiramente, falando no sentido real, não seria dividir uma instrução, pois isso é impossível de qualquer forma.

Mas em se tratando do código do programa, para mim é possível sim.

Imaginemos que o gerente designe 02 colegas de trabalho para uma determinada tarefa. Então o gerente diz: -- Analisem esse projeto, por gentileza. Fulano ficará com o início até pg. 20 e beltrano ficará incumbido de analisar da pg. 21 até a 50.

Olha aí, o gerente representa a unidade de busca, compartilhada entre os 02 núcleos. Os 02 colegas de trabalho são os 02 núcleos, cujas tarefas foram repassadas pela unidade de busca.

Veja na figura abaixo que todo o frontend é compartilhado entre os núcleos. Entenda frontend como todos os componentes do módulo que farão o pré-acolhimento da tarefa, repassando posteriormente para a FPU e para as unidades de inteiros.

https://www.clubedohardware.com.br/fullimage.php?image=41222

Veja nessa outra figura que na descrição do diagrama diz: "Unified Scheduler per core", ou seja, Agendador unificado por núcleo. Eu creio que tais agendadores de inteiros trabalham em conjunto.

https://www.clubedohardware.com.br/fullimage.php?image=41223

Agora surge a principal questão: E a ordem de execução das instruções, como fica?

Aqui uma possível resposta:

Após a execução de instruções de números inteiros, elas serão enviadas para a unidade de retirada, onde o processador irá colocá-las na ordem correta.

Ref: https://www.clubedohardware.com.br/artigos/Por-Dentro-da-Arquitetura-AMD-Bulldozer/2063/5

Veja bem que o que você precisa das unidades de inteiros é basicamente dos resultados, que são os dados já processados. Se estão fora de ordem, aí é só arrumar (tarefa designada à unidade de retirada).

sirroman · 1 de agosto de 2011

Primeiramente, falando no sentido real, não seria dividir uma instrução, pois isso é impossível de qualquer forma.
Mas em se tratando do código do programa, para mim é possível sim.

Imaginemos que o gerente designe 02 colegas de trabalho para uma determinada tarefa. Então o gerente diz: -- Analisem esse projeto, por gentileza. Fulano ficará com o início até pg. 20 e beltrano ficará incumbido de analisar da pg. 21 até a 50.

Olha aí, o gerente representa a unidade de busca, compartilhada entre os 02 núcleos. Os 02 colegas de trabalho são os 02 núcleos, cujas tarefas foram repassadas pela unidade de busca.

Veja na figura abaixo que todo o frontend é compartilhado entre os núcleos. Entenda frontend como todos os componentes do módulo que farão o pré-acolhimento da tarefa, repassando posteriormente para a FPU e para as unidades de inteiros.

https://www.clubedohardware.com.br/fullimage.php?image=41222

Veja nessa outra figura que na descrição do diagrama diz: "Unified Scheduler per core", ou seja, Agendador unificado por núcleo. Eu creio que tais agendadores de inteiros trabalham em conjunto.

https://www.clubedohardware.com.br/fullimage.php?image=41223

Agora surge a principal questão: E a ordem de execução das instruções, como fica?

Aqui uma possível resposta:

Ref: https://www.clubedohardware.com.br/artigos/Por-Dentro-da-Arquitetura-AMD-Bulldozer/2063/5

Veja bem que o que você precisa da unidade de inteiros é basicamente dos resultados, que são os dados já processados. Se estão fora de ordem, aí é só arrumar (tarefa designada à unidade de retirada).

Pois é. Eu também trouxe isso aqui no ano passado, perguntei e tal. A questão é que você quer que o processador analise o código e crie threads sozinho, a nível de hardware. Isso (até agora e até aonde eu sei) é impossível =/. E eu perguntei para o John Fruehe (deve estar lá no meio de um dos posts do blog dele).

A questão é que quem diz "fulano fica com a página 1 até a 20" e etc é o código do programa. Então ele tem que ser otimizado para ser feito em vários threads.

E a questão da ordem de execução, como o GT fala, é porque o CPU é fora-de-ordem, o que existe já para utilizar o máximo possível dos ciclos do CPU (por sinal, se você parar para pensar, o HT da Intel não deixa de ser um CPU "super-fora-de-ordem").

Sambaquy · 1 de agosto de 2011

Pegando carona no tópico, sei que aqui o pessoal está ligado, preciso descolar um notebook de 14" com algum processador novo desses AMD, alguma dica? Tem alguém vendendo no Brasil? A minha irmã não aguenta mais o Asus dela com Atom N520.

wencelldta · 1 de agosto de 2011

Pois é. Eu também trouxe isso aqui no ano passado, perguntei e tal. A questão é que você quer que o processador analise o código e crie threads sozinho, a nível de hardware. Isso (até agora e até aonde eu sei) é impossível =/. E eu perguntei para o John Fruehe (deve estar lá no meio de um dos posts do blog dele).
A questão é que quem diz "fulano fica com a página 1 até a 20" e etc é o código do programa. Então ele tem que ser otimizado para ser feito em vários threads.

E a questão da ordem de execução, como o GT fala, é porque o CPU é fora-de-ordem, o que existe já para utilizar o máximo possível dos ciclos do CP (por sinal, se você parar para pensar, o HT da Intel não deixa de ser um CPU "super-fora-de-ordem").

Cara se for o que eu to pensando vai ser uma bagunça pra organizar tudo haha

Bem galera eu vendo uns orçamentos aqui, hoje em dia pra montar um Sandy Bridge ta saindo quase o mesmo preço de um kit Phenom II X6. Por aqui um X6 1100T ta custando 550 reais (mesmo valor praticamten de um i5 2500k, http://produto.mercadolivre.com.br/MLB-178309525-proc-intel-core-i5-2500k-33ghz-6mb-turbo-max-37ghz-lga115-_JM), caiu esses dias o preço mas voltou a subir.

Respondendo o amigo de cima: Existem notebooks com o E-350, Carrefour, Americanas.com se eu não me engano.

Evandro · 1 de agosto de 2011

http://hothardware.com/News/Llano-Bobcat-Helped-AMD-Nip-Market-Share-From-Intel-During-Q2/

AMD se manteve estável nas cotas de mercado no trimestre passado.

Embora tenha perdido pontos nos servidores, ganhou bastante nos portáteis com o Llano e Zacate, até por isso a Intel reclama de baixa demanda nos chips para netbooks.

A amd também bateu recorde no número de chips produzidos para portáteis.

sirroman · 1 de agosto de 2011

Pegando carona no tópico, sei que aqui o pessoal está ligado, preciso descolar um notebook de 14" com algum processador novo desses AMD, alguma dica? Tem alguém vendendo no Brasil? A minha irmã não aguenta mais o Asus dela com Atom N520.

Tem sim.

http://compare.buscape.com.br/proc_unico?ordem=prec&id=6424&kw=350

Isso é do zacate. Se eu confiasse na Analar ia no dm1z dela (mas esse n é 14'').

jonny_br · 1 de agosto de 2011

HWBOT, site de hospedagem e referência em Overclock, juntamente com a Gigabyte abrem competição de Overclock em APUs "Llano".

http://www.hwbot.org/competition/gigabyte_apu_contest/

Zeca Pagodinho · 1 de agosto de 2011

HWBOT, site de hospedagem e referência em Overclock, juntamente com a Gigabyte abrem competição de Overclock em APUs "Llano".
http://www.hwbot.org/competition/gigabyte_apu_contest/

But many are asking the age-old question, “will it blend”?

Quando li isso, fiquei imaginando aquele senhor simpático colocando uma APU dentro do liquidificador, hehehehehe

Agora falando sério, disponibiliza esse link no setor de overclock para ver se alguém se habilita e ganha a disputa. O segundo e terceiro lugares também ganham um bom prêmio.

Nav01 · 1 de agosto de 2011

Eu havia dito há pouco atrás que alguns programas de benchmarking são enganadores de performance, especialmente o SuperPi e que na verdade a AMD decidiu implementar os módulos dos Bulldozers com 02 unidades de inteiros e apenas 01 de FPU justamente porque a FPU, no mundo real, passa boa parte do tempo ociosa.

Encontrei algo a respeito, nas palavras de John Fruehe, que inclusive afirmou que 90% do que é processado é inteiro, especialmente jogos.

Link: http://www.xtremesystems.org/forums/showthread.php?270041-Bulldozers-first-screens&p=4840028&viewfull=1#post4840028

sirroman · 2 de agosto de 2011

Charlie falando que os clocks do BDZ não estão muito bons.

Ferrou-se!

http://semiaccurate.com/forums/showpost.php?p=126888&postcount=242

Zeca Pagodinho · 2 de agosto de 2011

Charlie falando que os clocks do BDZ não estão muito bons.
Ferrou-se!

http://semiaccurate.com/forums/showpost.php?p=126888&postcount=242

O que será que ele quis dizer com isso? :confused:

Eu havia dito há pouco atrás que alguns programas de benchmarking são enganadores de performance, especialmente o SuperPi e que na verdade a AMD decidiu implementar os módulos dos Bulldozers com 02 unidades de inteiros e apenas 01 de FPU justamente porque a FPU, no mundo real, passa boa parte do tempo ociosa.
Encontrei algo a respeito, nas palavras de John Fruehe, que inclusive afirmou que 90% do que é processado é inteiro, especialmente jogos.

Link: http://www.xtremesystems.org/forums/showthread.php?270041-Bulldozers-first-screens&p=4840028&viewfull=1#post4840028

Então quer dizer que as unidades de inteiros dos processadores da AMD são melhores do que a dos processadores Intel, de um modo geral, visto que se saem muito bem rodando jogos?

Evandro · 2 de agosto de 2011

O que será que ele quis dizer com isso? :confused:

Que os clocks alcançados até o momento estão abaixo do esperado para os TDPs planejados e/ou o Yield dos wafers não está sendo suficiente para que os modelos mais fortes sejam comercializados agora.

Então quer dizer que as unidades de inteiros dos processadores da AMD são melhores do que a dos processadores Intel, de um modo geral, visto que se saem muito bem rodando jogos?

Quem manda nos jogos é a placa de vídeo, e repare que a AMD precisa de clocks maiores pra conseguir o mesmo desempenho, então, é o contrário.

Nav01 · 2 de agosto de 2011

Então quer dizer que as unidades de inteiros dos processadores da AMD são melhores do que a dos processadores Intel, de um modo geral, visto que se saem muito bem rodando jogos?

Não. Teoricamente acredito que os Phenom são mais fracos que os Sandy tanto em inteiros como em FPU.

Entretanto os futuros Bullldozer deverão vir mais fortes por meio de processamento paralelizado, por contar com 08 unidades de inteiros.

Enquanto editando a mensagem, recebi e-mail informando que alguem havia postado antes (Evandro).

Realmente os processadores atuais da AMD são piores de inteiros em relação aos Sandy, mesmo em jogos, levando-se em consideração o que John Fruehe disse. Entretanto, ele estava se referindo à arquitetura do Bulldozer, que deve vir com maior poder poder de processamento de inteiros, o que representa uma grande evolução em relação aos atuais Phenom. Nesse sentido que estou dizendo sim, certamente serão bem competitivos em relação aos Sandy.

Mas em se tratando de jogos, é como o Evandro disse, quem manda é a placa de vídeo.

EDIT/

Esclarecendo melhor ainda, John Fruehe estava esclarecendo porque se pode considerar que cada módulo de um Bulldozer possui 02 núcleos. Embora haja apenas 01 FPU no módulo, ela não representa mais que 10% do processamento geral. Alguns no fórum estavam alegando que o Bulldozer rotulado "octacore" possui apenas 04 núcleos por justificarem que para cada unidade de inteiro deve haver uma outra de ponto flutuante.

Zeca Pagodinho · 2 de agosto de 2011

Que os clocks alcançados até o momento estão abaixo do esperado para os TDPs planejados e/ou o Yield dos wafers não está sendo suficiente para que os modelos mais fortes sejam comercializados agora.

I am hearing not good things about about the Interlagos clocks. Not confirmed, but a good source.

-Charlie

Ele está falando dos Interlagos, que são processadores para servidores. Se esses processadores já estão no mercado, talvez ele esteja falando dos ajustes de TDP variável e o resultado desses ajustes... Se é isso, não afeta o que serão os Bulldozer para desktop, penso.

Nav01 · 2 de agosto de 2011

É isso mesmo Zeca. Trata-se do Interlagos.

O Sirro devia estar mangando do falatório do Charlie (às vezes é melhor ficar calado). Mas concordo que o Sirro não foi claro.

sirroman · 2 de agosto de 2011

O que será que ele quis dizer com isso? :confused:

Quis dizer exatamente o que você falou depois. =P

I am hearing not good things about about the Interlagos clocks. Not confirmed, but a good source.
-Charlie

Ele está falando dos Interlagos, que são processadores para servidores. Se esses processadores já estão no mercado, talvez ele esteja falando dos ajustes de TDP variável e o resultado desses ajustes... Se é isso, não afeta o que serão os Bulldozer para desktop, penso.

Bem, afetar, afeta. Já que é a mesmo arquitetura e o mesmo processo. Parece que o 32nm da GF n tá bom (como falaram antes).

MAS... Eu já chutava quando do anúncio do atraso que a AMD ia pegar essa primeira revisão "bugada" e jogar no mercado server, que usa clock menor. Nesse sentido, sim, pode não afetar em nada.

Vamos esperar para ver qual a revisão desses interlagos... e se a nova revisão traz bons resultado...

É isso mesmo Zeca. Trata-se do Interlagos.
O Sirro devia estar mangando do falatório do Charlie (às vezes é melhor ficar calado). Mas concordo que o Sirro não foi claro.

Ah, é vero. hehe. É que, se for da AMD e o Charlie falou, pode ter 99% de certeza que está certo.

Mas a minha reação ("ferrou!") foi porque eu não percebi que ele falava do interlagos e não do Zambezi. Foi mal. xD

Aproveitando. Nav, se a AMD conseguir repetir a otimização que fizeram com o Dirt3, a gente até pode esperar muita coisa mesmo com os BDZ em jogos!

Nav01 · 2 de agosto de 2011

Aproveitando. Nav, se a AMD conseguir repetir a otimização que fizeram com o Dirt3, a gente até pode esperar muita coisa mesmo com os BDZ em jogos!

Observando como o processamento em paralelo de um Phenom se saiu diante dos SB (tendo em vista que em monotarefa perde feio), e considerando-se que o Bulldozer deve trazer um maior poder de processamento por núcleo e ainda com 08 unidades de inteiros trabalhando, acredito que o processamento paralelizado nos BDZ faça uma diferença bem significativa nos jogos otimizados para pelo menos 06 núcleos em diante.

Zeca Pagodinho · 2 de agosto de 2011

A respeito do processo de 32nm, que é novo, está sendo implementado a partir dessa nova linha de processadores, era esperado que fosse um pouco problemático ou já era para sair estourando?

A gente vê processadores com clock mais alto sendo vendidos somente ao final do ciclo daquela litografia, isso seria explicado por uma melhora do processo de fabricação, menor índice de erros, isso é até mencionado nos artigos do GT. Entretanto, no lado da Intel, a impressão que tenho é que os processadores já saem de fábrica com um processo melhor acabado, processadores que podem oferecer todo o seu potencial já de saída, não são necessários meses até que a técnica de produção seja apurada. Em outras palavras, parece que do lado de lá eles "fazem o trabalho de casa" e com a AMD o "trabalho é feito durante as aulas".

É mais ou menos por aí ou tem outra explicação mais plausível?

Veloria · 2 de agosto de 2011

Roadmap de processadores para servidor da AMD até 2013.

Questões:

Por que o processo de 28nm que está sendo desenvolvido pela Globalfoundries agora, só virá em 2013?

Por que a AMD vai usar 28nm em seus processadores?

Zeca Pagodinho · 2 de agosto de 2011

MAS... Eu já chutava quando do anúncio do atraso que a AMD ia pegar essa primeira revisão "bugada" e jogar no mercado server, que usa clock menor. Nesse sentido, sim, pode não afetar em nada.

Vamos esperar para ver qual a revisão desses interlagos... e se a nova revisão traz bons resultado...

Estive lendo um fórum português em que citavam matéria do XbitLabs. Nessa matéria havia essa informação, de que o lançamento para servidores seria anterior ao lançamento para Desktops devido a necessidade de melhoramentos do yield... aqui me perco um pouco. Yield seria a capacidade de um processador alcançar clocks mais altos, a capacidade desse processador alcançar rendimentos maiores por clock ou as duas coisas juntas?

As revisões não diriam respeito à melhora do processo de fabricação e sim a uma melhora da litografia, correto?

Veloria · 2 de agosto de 2011

A respeito do processo de 32nm, que é novo, está sendo implementado a partir dessa nova linha de processadores, era esperado que fosse um pouco problemático ou já era para sair estourando?
A gente vê processadores com clock mais alto sendo vendidos somente ao final do ciclo daquela litografia, isso seria explicado por uma melhora do processo de fabricação, menor índice de erros, isso é até mencionado nos artigos do GT. Entretanto, no lado da Intel, a impressão que tenho é que os processadores já saem de fábrica com um processo melhor acabado, processadores que podem oferecer todo o seu potencial já de saída, não são necessários meses até que a técnica de produção seja apurada. Em outras palavras, parece que do lado de lá eles "fazem o trabalho de casa" e com a AMD o "trabalho é feito durante as aulas".

É mais ou menos por aí ou tem outra explicação mais plausível?

Boa parte dos problemas da AMD vem do fato de ela implementar uma nova arquitetura em um novo processo, ao contrário da Intel, que implementa uma nova arquitetura em um processo já maduro, para então dar um shrink/update/boost com a adoção de um processo menor em um mesmo ciclo de arquitetura (lê-se "Tick Tock").

Evandro · 2 de agosto de 2011

Zeca, Yield é a grosso modo o rendimento do wafer, quantos chips saem funcionais dentre os produzidos.

Na verdade, acho que usei o termo errado na mensagem anterior, porque os chips podem ser funcionais mas não conseguem alcançar os clocks desejados pela AMD sem estuyprar o TDP.

Roadmap de processadores para servidor da AMD até 2013.

Questões:

Por que o processo de 28nm que está sendo desenvolvido pela Globalfoundries agora, só virá em 2013?

Por que a AMD vai usar 28nm em seus processadores?

Meu pitaco:

- Porque ele deve ser terminado até o começo de 2012, aí não casa com o roadmap da AMD.

- Boa pergunta. Pular pra 22 nm não vai ser fácil, pode ser que eles façam agora as mudanças anualmente.

Boa parte dos problemas da AMD vem do fato de ela implementar uma nova arquitetura em um novo processo, ao contrário da Intel, que implementa uma nova arquitetura em um processo já maduro, para então dar um shrink/update/boost com a adoção de um processo menor em um mesmo ciclo de arquitetura (lê-se "Tick Tock").

E também a Intel tem grana (e pessoal) pra melhorar bastante o processo antes dele sair, coisa que a AMD não tem.