Ir ao conteúdo
  • Cadastre-se

AMD Bulldozer / Bobcat / Zambezi - Plataformas.


Posts recomendados

  • Membro VIP
Eu acho sinceramente que o estardalhaço em cima desta afirmação está sendo muito grande.

A AMD não iria ficar trocentos anos desenvolvendo um arquitetura pra conseguir apenas 12,5% de desempenho no clock a clock.

Será mesmo ?

Com o Barcelona foi perto disso.. ok, ele não foi totalmente inovador.

Pelas análises que foram feitas em cima das especificações (alu e fpu) chega-se a crer que no clock a clock o bulldozer será hipoteticamente 33% mais rápido que os atuais K10. Sem falar das provaveis melhorias em circuitos de predição, cache, etc.

Também diziam barbaridades do Barcelona, lembra ? Pelas análises teóricas, ele deveria triturar os Core 2..

Não jogando praga, só lembrando o passado recente. ;)

Essas melhorias em gerencimento de energia eu acho que serão um dos destaques do BDZ.

Link para o comentário
Compartilhar em outros sites

Será mesmo ?

Com o Barcelona foi perto disso.. ok, ele não foi totalmente inovador.

Não dá pra comparar inovações do Barcelona em relação aos K8, com inovações do Bulldozer em relação aos Deneb.

Também diziam barbaridades do Barcelona, lembra ? Pelas análises teóricas, ele deveria triturar os Core 2..

Não jogando praga, só lembrando o passado recente. ;)

Essas melhorias em gerencimento de energia eu acho que serão um dos destaques do BDZ.

Pela primeira vez desde o surgimento do K7, a AMD se propôs a rever completamente a arquitetura. Estou analisando apenas o pouco que foi postado até agora pelo Citavia.de, que não deixa margem a grandes conclusões, mas uma coisa que é possível afirmar é que as melhores muito dificilmente serão limitadas a 12.5%.

O próprio Barcelona em relação ao K8 nos casos mais extremos (que não eram maioria) era 30% mais forte..

Link para o comentário
Compartilhar em outros sites

Se não me engano 16 núcleos significa 16 blocos de inteiros, ou seja, cada bloco de inteiros é 12,5 % mais rápido que um bloco de inteiros K8 em aplicações de servidores. Isso é bastante até...
Mas não deverá ser o suficiente pra concorrer com a Sandy.. peraí, você disse K8, de K8 pra K10 isso não mudou ?

Evandro, tu não acha que 12,5% por núcleo não é um valor bom para bater de frente com o/a sandy não? considerando que ele tem 33% a mais no nº de núcleos da um UP legal.

Link para o comentário
Compartilhar em outros sites

será? mesmo sendo uma nova arquitetura com um projeto aparentemente diferente do q vinha sendo feito?

12,5% parece pouco para tanto tempo gasto, acredito q o atual PhII com algumas melhoras chegaria nesse patamar, ainda mais com 32nm+HK/MG

Ele talvez chegasse a 12,5% só na frequência, mas como aumentar os núcleos nesse caso? E se aumentassem os núcleos, como aumentar a frequência? 12,5% é muito para se tirar na microarquitetura... nenhum avanço do Core deve ter conseguido mais do que 5% de ganho em geral.

quanto foi o pulo da última geração/revisão do Pentium-IV para os primeiros Core?

Depende muito da aplicação. Mas não é mais que 50% na maioria... embora, obviamente, o consumo tenha caído.

Esqueci deste detalhe, obrigado por lembrar.

Mas não deverá ser o suficiente pra concorrer com a Sandy.. peraí, você disse K8, de K8 pra K10 isso não mudou ?

Erro... quando disse K8, queria dizer K10.

Eu acho sinceramente que o estardalhaço em cima desta afirmação está sendo muito grande.

A AMD não iria ficar trocentos anos desenvolvendo um arquitetura pra conseguir apenas 12,5% de desempenho no clock a clock.

Pelas análises que foram feitas em cima das especificações (alu e fpu) chega-se a crer que no clock a clock o bulldozer será hipoteticamente 33% mais rápido que os atuais K10. Sem falar das provaveis melhorias em circuitos de predição, cache, etc.

33%? Tem que ter muita melhoria para conseguir isso... de qualquer modo, essa comparação do JF foi feita para servidores, e deve ser encarada como tal. Não tem tanta relevância para desktops. Para servidores, um sistema com o mesmo custo e consumo e 50% mais performance é um avanço razoável. Diria que nessa escala existem muitas limitações externas sobre a performance, e de qualquer modo esse tipo de aplicação apresenta características diferentes em relação as que usamos.

Também diziam barbaridades do Barcelona, lembra ? Pelas análises teóricas, ele deveria triturar os Core 2..

As análises teóricas consideravam que o Barcelona rodaria a uns 3 GHz... e aí ele trituraria o Core 2 muito bem.

Link para o comentário
Compartilhar em outros sites

  • Membro VIP

Pela primeira vez desde o surgimento do K7, a AMD se propôs a rever completamente a arquitetura. Estou analisando apenas o pouco que foi postado até agora pelo Citavia.de, que não deixa margem a grandes conclusões, mas uma coisa que é possível afirmar é que as melhores muito dificilmente serão limitadas a 12.5%.

O próprio Barcelona em relação ao K8 nos casos mais extremos (que não eram maioria) era 30% mais forte.

Concordo contigo, eu também espero mais pelo pouco que vi e entendi. ^_^

Evandro' date=' tu não acha que 12,5% por núcleo não é um valor bom para bater de frente com o/a sandy não? considerando que ele tem 33% a mais no nº de núcleos da um UP legal.[/quote']

Sim, mas seriam 12 contra 16, e neste caso, os Westmere estão muito fortes, o Sandy deverá ser mais rápido que eles, então a AMD teria que aparecer com algo bombástico pra ter competitividade boa e não ficar minguada em faixas de preços inferiores e com vendas menores. ;)

As análises teóricas consideravam que o Barcelona rodaria a uns 3 GHz... e aí ele trituraria o Core 2 muito bem.

Mas ainda perderia no clock a clock.. :chicote: (eu sei que o que importa é o preço, mas tem suas vantagens ganhar no clock a clock)

Se a AMD tivesse descoberto o TLB antes e se tivesse abusado da agressividade dos preços no lançamento e não no final, os Phenom teriam sido mais bem aceitos. (ou menos criticados hehe)

Link para o comentário
Compartilhar em outros sites

Sim, mas seriam 12 contra 16, e neste caso, os Westmere estão muito fortes, o Sandy deverá ser mais rápido que eles, então a AMD teria que aparecer com algo bombástico pra ter competitividade boa e não ficar minguada em faixas de preços inferiores e com vendas menores.;)

No mercado de servidores, eu diria que o Sandy Bridge não consegue encarar um processador 50% mais rápido que os atuais Magny Cours. O Magny Cours encara o Westmere em aplicações de servidores...

Mas ainda perderia no clock a clock.. :chicote: (eu sei que o que importa é o preço, mas tem suas vantagens ganhar no clock a clock)

Perder no "clock a clock" é irrelevante... se você tem o mais ou menos o mesmo consumo, o mesmo preço, o mesmo tamanho e uma plataforma parecida, o fato de você vencer seu adversário é o que importa. Se você quer fazer isso com o dobro da frequência ou com metade dela, aí é com você...

Por exemplo, os Pentiums 4 Northwood "C" ganhavam claramente dos Athlon XP 3200+ em vários aspectos, e o fato de que um usava frequências muito mais altas não tirava os méritos deles.

Se a AMD tivesse descoberto o TLB antes e se tivesse abusado da agressividade dos preços no lançamento e não no final, os Phenom teriam sido mais bem aceitos. (ou menos criticados hehe)

Sim... mas daí eles teriam de atrasar o lançamento. De qualquer modo, a perda de frequência foi a maior falha da arquitetura. Como eu disse, a 3 GHz o Phenom seria o melhor processador do mercado para quase tudo...

Link para o comentário
Compartilhar em outros sites

  • Membro VIP

Quem falou em clock a clock?

Que eu saiba ninguém citou clocks, existe margem para o Bulldozer ter a pena 1GHz com uma performance por clock brutal mas também tem margem para que ele atinja 4GHz com performance por clock ridícula, ninguém sabe qual o clock que ele foi projetado, pode ter sido 5GHz tipo Power6 ou 2GHz tipo Itanium 2, e não é isso que vai deixar o chip bom ou ruim.

Para quem vai apenas usar o processador o clock não faz diferença nenhuma, 50% mais rápido que o atual MC faz.

Ainda quanto a performance por clock do Bulldozer, dois núcleos compartilham unidades, quem faz isso procura economizar transistores e/ou reduzir o consumo ao invés de garantir uma boa performance individual do núcleo, um forte indício de que a performance extra por núcleo veio de clock extra.

Por outro lado cada núcleo tem 4 unidades de inteiros (adoraria, mas ainda duvido) o que não combina muito bem com econmizar transistores.

Link para o comentário
Compartilhar em outros sites

  • Membro VIP

pelo que um diretor disse, comparar um BDZ de 16 núcleos com um X12 atual, o ganho será de 50% em desempenho com aumento de 33% no número de núcleos.

Isso nos dá semi brochantes 12,5% ?!?!?!?!?!

Se eu entendi bem um BDZ de 8 núcleos 16 cores, seria 50% mais rápido que um MagnyCours. Se for isto mesmo, pode ficar mais brochado ainda, pois está longe de ser 12,5%. Afinal das contas, os 12,5% são ganhos com mais núcleos, pois se adicionar mais 4 núcleos no k10, oBDZ não será 50% mais rápido, e sim somente 12,5% geral, que divido pelos 16 cores, dá menos de 1% de ganho por core :wacko:.

No entanto, com o comentário muito bem lembrado tanto do Thiago quanto do Eduardos, podemos voltar para a estaca de que "ainda é cedo para dizer algo", pois não sabemos qual a forma de comparação foi utilizada e muito menos a eficiencia energetica.

Link para o comentário
Compartilhar em outros sites

Os caras do Xtreme Systems entrevistaram JF-AMD (diretor de marketing) e perguntaram porque a AMD não está soltando nada sobre o bulldozer.

Segundo eles, a resposta do JF foi que a AMD queria evitar o efeito osborne, que a grosso modo seria evitar que os produtos atuais encalhem nas prateleiras pela espera do lançamento.

Em tempo, comparando um X4 atual com um Bulldozer quad modular (8 núcleos) já teremos de cara em aplicativos que usem todos os núcleos, 100% de aumento na potência. Somando isto as melhorias de arquietetura eu espero pelo menos 130-150% de desempenho a mais de um Bulldozer em cima de um X4.

Resta saber como estes processadores vão se comportar em termos de IPC, em programas mal otimizados e jogos.

Link para o comentário
Compartilhar em outros sites

  • Membro VIP
Quem falou em clock a clock?

Que eu saiba ninguém citou clocks, existe margem para o Bulldozer ter a pena 1GHz com uma performance por clock brutal mas também tem margem para que ele atinja 4GHz com performance por clock ridícula, ninguém sabe qual o clock que ele foi projetado, pode ter sido 5GHz tipo Power6 ou 2GHz tipo Itanium 2, e não é isso que vai deixar o chip bom ou ruim.

Para quem vai apenas usar o processador o clock não faz diferença nenhuma, 50% mais rápido que o atual MC faz.

Ainda quanto a performance por clock do Bulldozer, dois núcleos compartilham unidades, quem faz isso procura economizar transistores e/ou reduzir o consumo ao invés de garantir uma boa performance individual do núcleo, um forte indício de que a performance extra por núcleo veio de clock extra.

Por outro lado cada núcleo tem 4 unidades de inteiros (adoraria, mas ainda duvido) o que não combina muito bem com econmizar transistores.

Eu disse :unsure:, estou oensando em clocks baixos e semelhantes aos atualmente utilizados ou até menores, nada de 4 GHz ou mais, mesmo que seja um processo de fabricação mais avançado.

Falha minha, desculpe. ^_^

Se eu entendi bem um BDZ de 8 núcleos 16 cores, seria 50% mais rápido que um MagnyCours. Se for isto mesmo, pode ficar mais brochado ainda, pois está longe de ser 12,5%. Afinal das contas, os 12,5% são ganhos com mais núcleos, pois se adicionar mais 4 núcleos no k10, oBDZ não será 50% mais rápido, e sim somente 12,5% geral, que divido pelos 16 cores, dá menos de 1% de ganho por core :wacko:.

No entanto, com o comentário muito bem lembrado tanto do Thiago quanto do Eduardos, podemos voltar para a estaca de que "ainda é cedo para dizer algo", pois não sabemos qual a forma de comparação foi utilizada e muito menos a eficiência energetica.

Seria o contrário não ? eu considerei 16 conra 12, se forem 8 núcleos teremos 8 contra 12, então com 33% a menos de núcleos ele teria 50% a mais de desempenho, isso seria MUITO. Os 12,5 seria por núcleo, como o cidadão a AMD disse: um BDZ de 16 núcleos será 50% mais rápido que um K10.5 com 12 núcleos.

Provavelmente o cara se refere a componentes de mesmo consumo e/ou faixa de preço, mas, você tem razão, ainda é muito cedo pra dizer algo, se a AMD continuar silenciosa (como foi outras vezes), só poderemos falar depois dos testes oficiais.

Link para o comentário
Compartilhar em outros sites

Os caras do Xtreme Systems entrevistaram JF-AMD (diretor de marketing) e perguntaram porque a AMD não está soltando nada sobre o bulldozer.

Segundo eles, a resposta do JF foi que a AMD queria evitar o efeito osborne, que a grosso modo seria evitar que os produtos atuais encalhem nas prateleiras pela espera do lançamento.

Posta o link da entrevista.

Link para o comentário
Compartilhar em outros sites

Os caras do Xtreme Systems entrevistaram JF-AMD (diretor de marketing) e perguntaram porque a AMD não está soltando nada sobre o bulldozer.

Segundo eles, a resposta do JF foi que a AMD queria evitar o efeito osborne, que a grosso modo seria evitar que os produtos atuais encalhem nas prateleiras pela espera do lançamento.

Em tempo, comparando um X4 atual com um Bulldozer quad modular (8 núcleos) já teremos de cara em aplicativos que usem todos os núcleos, 100% de aumento na potência. Somando isto as melhorias de arquietetura eu espero pelo menos 130-150% de desempenho a mais de um Bulldozer em cima de um X4.

Resta saber como estes processadores vão se comportar em termos de IPC, em programas mal otimizados e jogos.

acho q querem evitar o efeito "virada de mesa" da intel, se vier 50% a mesma alcança fácil o bdz (no clock a clock/núcleo). Pode ate ser q eles consigam ter um bom desempenho no multicore, mas não acredito q escale tão bem... principalmente em programas não otimizados, creio q neste ponto eles devem lançar algo q transforme dois núcleos em um, é o que aparentemente vem sendo mostrado, se não estou enganado

outra coisa é q a AMD não consegue ainda lançar rapidamente um produto, mesmo depois de tantos anos pesquisando e trabalhando no processo de "desenho". A intel já deixa vazar porque seus produtos estão em estoque e só não liberaram o sandy ainda devido aos estoques dos core2 e pela falta de um concorrente, tá até de certa forma intelXintel -_-

se vier 150% é o mínimo necessario pra ter uma folga por um tempo (uns 6 meses ou 1ano, com sorte vai mais)

Link para o comentário
Compartilhar em outros sites

Pessoal não sei se to postando no lugar certo, pois ainda sou novato quando o assunto é processadores, mas será que vocês poderiam me falar um pouco sobre o AMD Phenom™ II Quad-Core Móbile P920 1,6 GHz, qual o equivalente dele da intel e se ele tem alguma função similar ao turbo boost.

Obrigado.

Link para o comentário
Compartilhar em outros sites

"From a performance standpoint, if you compare our 16-core Interlagos to our current 12-core AMD Opteron 6100-series processors (code named “Magny Cours”) we estimate that customers will see up to 50% more performance from 33% more cores. This means we expect the per core performance to go in the right direction - up,"

Não sei quanto a vocês, mas eu não li em momento algum ele citar algo tipo "at same clock".

Como o EduardoS citou, com a falta de informações sobre esses novos processadores, essa colocação nada mais é que um "tiro no escuro". Não sabemos nada sobre clocks, consumo, custos de produção, etc.

O processador pode vir a ter pouco ganho de desempenho...mas consumindo uma mixaria, ou pode pode ter pouco ganho de desempenho...mas com clocks bem mais baixos.

Acho que ainda é cedo para tirar alguma conclusão.

Além disso, eu acho que depois do fiasco do Barcelona, a AMD vai ficar na dela, e se possível, deixar alguma surpresa de alto desempenho somente pro lançamento do "bixo".

Link para o comentário
Compartilhar em outros sites

Se eu entendi bem um BDZ de 8 núcleos 16 cores, seria 50% mais rápido que um MagnyCours. Se for isto mesmo, pode ficar mais brochado ainda, pois está longe de ser 12,5%. Afinal das contas, os 12,5% são ganhos com mais núcleos, pois se adicionar mais 4 núcleos no k10, oBDZ não será 50% mais rápido, e sim somente 12,5% geral, que divido pelos 16 cores, dá menos de 1% de ganho por core :wacko:.

Não é assim que funciona. Supondo que o Magny Cours tenha ganho uma pontuação de 100 (só para facilitar), o Bulldozer ganhou uma pontuação de 150. Se dividirmos a pontuação pelo número de núcleos (o que pode ou não dar um resultado útil, dependendo da aplicação, da plataforma e do processador), teremos que cada núcleo do MC conseguiu uns 8,3 pontos, e que cada núcleo Bulldozer conseguiu uns 9,4 pontos.

Portanto, cada núcleo Bulldozer é aproximadamente 12,5 % mais rápido que cada núcleo MC, NESSA E SOMENTE NESSA situação que mediram.

No entanto, com o comentário muito bem lembrado tanto do Thiago quanto do Eduardos, podemos voltar para a estaca de que "ainda é cedo para dizer algo", pois não sabemos qual a forma de comparação foi utilizada e muito menos a eficiência energetica.

Sim.

Quem falou em clock a clock?

O pessoal daqui, por isso esclareci.

Ainda quanto a performance por clock do Bulldozer, dois núcleos compartilham unidades, quem faz isso procura economizar transistores e/ou reduzir o consumo ao invés de garantir uma boa performance individual do núcleo, um forte indício de que a performance extra por núcleo veio de clock extra.

Isso seria contraproducente na redução do consumo :)...

Por outro lado cada núcleo tem 4 unidades de inteiros (adoraria, mas ainda duvido) o que não combina muito bem com econmizar transistores.

Claro que existe um ponto de ótimo, mas eu acredito que a melhor opção para obter boa performance de inteiros single-thread é aumentar os recursos de execução, investir na melhora do acerto médio nas especulações e ser mais conservador em todo o resto, principalmente frequência, especulação e front-end. Mas isso é só um chute mesmo.

A ideia é a seguinte: unidades de inteiros são baratas. O hardware para utilizá-las bem não é tão barato, por outro lado. A ideia é não utilizá-las bem mesmo. Com isso você obviamente economiza em hardware para facilitar o aproveitamento dos recursos, como hardware de execução fora de ordem, buffers de memória, etc. Em segundo lugar, você especula menos. Para terminar, como o front-end é desacoplado do back-end, em teoria é possível dimensionar o front-end de acordo com a média de ocupação do back-end, e com isso seu front-end fica bem menor do que o aparentemente necessário. O mesmo se aplica aos recursos de memória.

Com essa economia, você consegue colocar dois núcleos de inteiros em cada módulo, assim aumentando seu poder de fogo em aplicações otimizadas. Claro que isso exige que você aumente alguma coisa de capacidade nas partes compartilhadas: por exemplo, seu front-end tem que aguentar em média dois núcleos, assim como seu subsistema de memória. Mas por outro lado isso também tem vantagens: assim como em um SMT, em aplicações não-otimizadas você fica com um monte de front-end, memória e coisas compartilhadas para gastar em um único thread. A diferença, claro, é que seu processador não terá tantos recursos de execução, mas isso não deveria fazer tanta diferença.

Existem diversos "buracos" nessa minha teoria: ponto flutuante, mais dados sobre o funcionamento do front-end e do back-end, etc. Mas acho que faz algum sentido.

Em tempo, comparando um X4 atual com um Bulldozer quad modular (8 núcleos) já teremos de cara em aplicativos que usem todos os núcleos, 100% de aumento na potência. Somando isto as melhorias de arquietetura eu espero pelo menos 130-150% de desempenho a mais de um Bulldozer em cima de um X4.

Resta saber como estes processadores vão se comportar em termos de IPC, em programas mal otimizados e jogos.

Se pensarmos em uma disputa Phenom II X6 x BDZ X8 usando aplicativos otimizados para multi-thread, eu espero pelo menos 50% de vantagem para o Bulldozer, provavelmente mais. Em aplicativos não otimizados para multi-thread, alguém poderia esperar uma vantagem de 12,5%. Mas isso não vai acontecer, por diversos motivos:

1- Como vários núcleos de inteiros estarão dormentes, cada aplicativo tende a ter um módulo para si, com todos os recursos compartilhados. Isso deve aumentar o desempenho em alguma coisa...

2- Por ter mais dois núcleos, núcleos mais rápidos, e uma plataforma similar, o BDZ X8 deve aumentar mais de desempenho quando diminuírem os threads, por questões de ocupação de subsistema de memória.

3- O Bulldozer deve ter uma implementação do Turbo mais decente, e cada núcleo consumirá menos.

Tudo isso só deve valer para inteiros.

Eu disse :unsure:, estou oensando em clocks baixos e semelhantes aos atualmente utilizados ou até menores, nada de 4 GHz ou mais, mesmo que seja um processo de fabricação mais avançado.

Eu também não acredito em frequências mais altas, mas não as descarte... de qualquer modo "clock a clock" não é relevante.

Provavelmente o cara se refere a componentes de mesmo consumo e/ou faixa de preço, mas, você tem razão, ainda é muito cedo pra dizer algo, se a AMD continuar silenciosa (como foi outras vezes), só poderemos falar depois dos testes oficiais.

Foi confirmado que os Bulldozers para servidores manteriam a plataforma e o TDP dos atuais, se não me engano.

acho q querem evitar o efeito "virada de mesa" da intel, se vier 50% a mesma alcança fácil o bdz (no clock a clock/núcleo). Pode ate ser q eles consigam ter um bom desempenho no multicore, mas não acredito q escale tão bem... principalmente em programas não otimizados, creio q neste ponto eles devem lançar algo q transforme dois núcleos em um, é o que aparentemente vem sendo mostrado, se não estou enganado

Eles já disseram que esse tipo de coisa não irá acontecer, e para falar a verdade nem tem como acontecer. Dá para usar dois núcleos para executar uma thread, mas de forma extremamente dispendiosa com poucos resultados, e mesmo isso com um grande esforço.

outra coisa é q a AMD não consegue ainda lançar rapidamente um produto, mesmo depois de tantos anos pesquisando e trabalhando no processo de "desenho". A intel já deixa vazar porque seus produtos estão em estoque e só não liberaram o sandy ainda devido aos estoques dos core2 e pela falta de um concorrente, tá até de certa forma intelXintel -_-

A Intel adora falar...

se vier 150% é o mínimo necessario pra ter uma folga por um tempo (uns 6 meses ou 1ano, com sorte vai mais)

150% é 2,5 vezes mais desempenho, isso é completamente absurdo...

Link para o comentário
Compartilhar em outros sites

  • Membro VIP
Eu disse :unsure:, estou oensando em clocks baixos e semelhantes aos atualmente utilizados ou até menores, nada de 4 GHz ou mais, mesmo que seja um processo de fabricação mais avançado.

Isso tem muito mais a ver com projeto do que processo.

Hoje a AMD compete com os 240mm² da Intel com 700mm², eles precisam melhorar a performance/watt/mm² e alterar o clock alvo é a maneira mais fácil de conseguir isso, se o Bulldozer fica com um tamanho de die mais razoável tipo 400mm² 50% mais performance que o MC vai ser excelente, terá sido muito melhor do que a Intel conseguiu na passagem dos 45nm para os 32nm, quer dizer, a AMD terá conseguido uma grande melhora arquitetural, se for outro monstrengo a AMD ta perdida...

Isso seria contraproducente na redução do consumo :)...

Sabe que sou um dos que discordam disso... Estagios mais curtos exigem menos tensão, reduz clock e tensão do Power 7 para ficar nos 125W dos x86, ainda terá um clock mais alto e performance "apropriada".

A ideia é a seguinte: unidades de inteiros são baratas. O hardware para utilizá-las bem não é tão barato, por outro lado. A ideia é não utilizá-las bem mesmo. Com isso você obviamente economiza em hardware para facilitar o aproveitamento dos recursos, como hardware de execução fora de ordem, buffers de memória, etc. Em segundo lugar, você especula menos. Para terminar, como o front-end é desacoplado do back-end, em teoria é possível dimensionar o front-end de acordo com a média de ocupação do back-end, e com isso seu front-end fica bem menor do que o aparentemente necessário. O mesmo se aplica aos recursos de memória.

Com essa economia, você consegue colocar dois núcleos de inteiros em cada módulo, assim aumentando seu poder de fogo em aplicações otimizadas. Claro que isso exige que você aumente alguma coisa de capacidade nas partes compartilhadas: por exemplo, seu front-end tem que aguentar em média dois núcleos, assim como seu subsistema de memória. Mas por outro lado isso também tem vantagens: assim como em um SMT, em aplicações não-otimizadas você fica com um monte de front-end, memória e coisas compartilhadas para gastar em um único thread. A diferença, claro, é que seu processador não terá tantos recursos de execução, mas isso não deveria fazer tanta diferença.

Existem diversos "buracos" nessa minha teoria: ponto flutuante, mais dados sobre o funcionamento do front-end e do back-end, etc. Mas acho que faz algum sentido.

Sim faz sentido, quando junta dois núcleos nesse módulo as partes mais caras e menos sensíveis a latência deveria ser compartilhadas para aumentar a utilização dessas (que se preocupa se a utilização de unidades baratas fica em 10%?), a fpu que é uma dessas partes cara é compartilhada, apostava alto que o front-end do Bulldozer também seria mas informações mais recentes sugerem que não, e 4 unidades de inteiros apesar de baratas ainda parece muito para quem esteja tentando economizar transistores.

Se pensarmos em uma disputa Phenom II X6 x BDZ X8 usando aplicativos otimizados para multi-thread, eu espero pelo menos 50% de vantagem para o Bulldozer, provavelmente mais. Em aplicativos não otimizados para multi-thread, alguém poderia esperar uma vantagem de 12,5%. Mas isso não vai acontecer, por diversos motivos:

Nessa comparação existe um item contra o BDZ, o Magny Cours está no limite inferior da frequência/consumo, da para aumentar "muito" a frequência aumentando "pouco" o consumo e o X6 é um exemplo disso, não acredito que o BDZ já vai ser lançado tão perto desse limite ou seja, a vantagem das versões desktop deve ser menor.

Link para o comentário
Compartilhar em outros sites

  • Membro VIP
Não é assim que funciona. Supondo que o Magny Cours tenha ganho uma pontuação de 100 (só para facilitar), o Bulldozer ganhou uma pontuação de 150. Se dividirmos a pontuação pelo número de núcleos (o que pode ou não dar um resultado útil, dependendo da aplicação, da plataforma e do processador), teremos que cada núcleo do MC conseguiu uns 8,3 pontos, e que cada núcleo Bulldozer conseguiu uns 9,4 pontos.

Portanto, cada núcleo Bulldozer é aproximadamente 12,5 % mais rápido que cada núcleo MC, NESSA E SOMENTE NESSA situação que mediram.

Thiagão, grande xará, pensei muito nisto e também havia chegado neste calculo. Mas estamos fazendo uma comparação injusta nesta divisão, pois é um aumento de pontos sim, porém quero te mostrar outro ângulo.

Como temos 33% a mais de núcleos e 50% de desempenho, vou diminuir a quantidade de núcleos para 12 também afim de efeitos de comparação equiparáveis. Fazendo regra de 3 simples:

16 - 150

12 - x

Total = 112,5%

Resumindo: na aplicação que ele teve maior desempenho, com a mesma quantidade de núcleos, houve uma melhora, geral, de 12,5%. Numa escala de passagem simetrica do trabalho dos núcleos, este resultado implica realmente que são 12,5% de desempenho a mais por núcleo. Mas se for um trabalho linear (porém vai totalemten contra o conceito de multithread), vai dar 1% de desempenho somente para cada núcleo.

Link para o comentário
Compartilhar em outros sites

então o grande impacto nas proximas geraçoes bdz/sandy vai ser mesmo as tais instruções AVX? tá parecendo q as ideias pra dar um up na cpu tá acabando... com estão "pouco" a mais em performance teorica

no caso da amd eles vão por o tal XOP com AVX ou só tem esta última?:confused:

uma dúvida: se as gpus já rodam fullhd e tudo mais, o q vai fazer o AVX????

Link para o comentário
Compartilhar em outros sites

então o grande impacto nas proximas geraçoes bdz/sandy vai ser mesmo as tais instruções AVX? tá parecendo q as ideias pra dar um up na cpu tá acabando... com estão "pouco" a mais em performance teorica

no caso da amd eles vão por o tal XOP com AVX ou só tem esta última?:confused:

uma dúvida: se as gpus já rodam fullhd e tudo mais, o q vai fazer o AVX????

se você não pensar somente em desktops e sim nos servidores, verá que você não sabe de nada, mas que tudo que eles põe tem algum sentido :lol::lol:

Link para o comentário
Compartilhar em outros sites

Isso tem muito mais a ver com projeto do que processo.

No caso da comparação Bulldozer x Sandy Bridge sim, a diferença de projeto entre os dois é muito grande e eu não me surpreenderia tanto se um tivesse muito mais ou menos frequência que o outro.

Hoje a AMD compete com os 240mm² da Intel com 700mm², eles precisam melhorar a performance/watt/mm² e alterar o clock alvo é a maneira mais fácil de conseguir isso, se o Bulldozer fica com um tamanho de die mais razoável tipo 400mm² 50% mais performance que o MC vai ser excelente, terá sido muito melhor do que a Intel conseguiu na passagem dos 45nm para os 32nm, quer dizer, a AMD terá conseguido uma grande melhora arquitetural, se for outro monstrengo a AMD ta perdida...

Eu acho que isso acontecerá... pelo pouco que a AMD forneceu de informações, eu diria que o Bulldozer terá 50% mais performance com mais ou menos o mesmo tamanho que o MC, mas escalado pelo processo novo. Isso daria os 400 mm² que você pediu :).

Sabe que sou um dos que discordam disso... Estagios mais curtos exigem menos tensão, reduz clock e tensão do Power 7 para ficar nos 125W dos x86, ainda terá um clock mais alto e performance "apropriada".

Eu não duvido que dê para fazer um processador com o mesmo consumo que os x86s atuais mas com mais estágios de pipeline... OK, não acho que seja nem de longe a melhor ideia, mas vamos ignorar isso porque minhas luvas de amianto ficaram em casa.

Agora, aumentar frequência, isso com certeza aumenta o consumo... em programas otimizados, é quase sempre uma melhor opção aumentar o número de núcleos do que aumentar a frequência, se você só se preocupa com performance por consumo. Só que também temos de analisar performance por área, e nesse aspecto é muito mais complicado concluir alguma coisa generalizada. A ideia do CMP, combinada a mudança de processo, pode ajudar muito nisso.

Sim faz sentido, quando junta dois núcleos nesse módulo as partes mais caras e menos sensíveis a latência deveria ser compartilhadas para aumentar a utilização dessas (que se preocupa se a utilização de unidades baratas fica em 10%?), a fpu que é uma dessas partes cara é compartilhada, apostava alto que o front-end do Bulldozer também seria mas informações mais recentes sugerem que não, e 4 unidades de inteiros apesar de baratas ainda parece muito para quem esteja tentando economizar transistores.

Eu li algumas informações do Citavia, ainda acho que não são tão conclusivas. De qualquer modo, pelo que entendi é bem provável que a AMD tenha desenvolvido o decodificador para suportar o dobro de performance em situações bem específicas, com instruções fáceis de decodificar, enquanto o caso geral se mantém com a performance normal de 4 instruções por ciclo.

EDIT: Outra opção seria algum tipo de "trace cache"/"loop detector"...

As unidades de inteiros, diria, estão ali para dar boa performance em aplicações single-threaded (que ocupam módulos inteiros com apenas um thread) e ao mesmo tempo aproveitar algum pico de ocupação em aplicações mais otimizadas...

Se a AMD acha que vale a pena em relação ao (relativamente pequeno) gasto de área e ao (também pequeno, ainda mais com "clock gating") gasto de consumo, o único problema que sobra é a dificuldade em aumentar mais a frequência... e sim, essa é uma tentativa descarada de suportar minha hipótese do Bulldozer de baixa frequência.

Nessa comparação existe um item contra o BDZ, o Magny Cours está no limite inferior da frequência/consumo, da para aumentar "muito" a frequência aumentando "pouco" o consumo e o X6 é um exemplo disso, não acredito que o BDZ já vai ser lançado tão perto desse limite ou seja, a vantagem das versões desktop deve ser menor.

Esse é o Bulldozer X16, imagino que a AMD tenha diminuido frequência/consumo por módulo ao máximo com ele... afinal, quem compra um X16 não está muito interessado em performance por núcleo.

Resumindo: na aplicação que ele teve maior desempenho, com a mesma quantidade de núcleos, houve uma melhora, geral, de 12,5%. Numa escala de passagem simetrica do trabalho dos núcleos, este resultado implica realmente que são 12,5% de desempenho a mais por núcleo. Mas se for um trabalho linear (porém vai totalemten contra o conceito de multithread), vai dar 1% de desempenho somente para cada núcleo.

Se fosse uma aplicação single-threaded, então o Bulldozer seria 50% mais rápido nessas condições, só isso, não precisa de divisões :)... mas não é o caso, o Fruehe é especialista em marketing de servidores. Com certeza a aplicação em questão é multi-threaded, e das boas.

então o grande impacto nas proximas geraçoes bdz/sandy vai ser mesmo as tais instruções AVX? tá parecendo q as ideias pra dar um up na cpu tá acabando... com estão "pouco" a mais em performance teorica

Para algumas aplicações que dependem muito da performance teória do SIMD, sim. Mas na maioria acho que o aumento do número de núcleos e melhorias diversas, principalmente no subsistema de memória dominarão o embate.

no caso da amd eles vão por o tal XOP com AVX ou só tem esta última?:confused:

uma dúvida: se as gpus já rodam fullhd e tudo mais, o q vai fazer o AVX????

Provavelmente XOP+AVX. Respondendo a pergunta, tudo que roda com ponto flutuante e usa SIMD: coisas como codificação de vídeo, alguma bagaça em jogos, computação técnica bem otimizada, talvez mais alguma coisa...

No caso das AVX vai ser complicado mostrarem pra que vieram nos servidores...

Alguém vai usar? Se eu fosse gerente e visse alguém usando daria uma baita bronca...

Link para o comentário
Compartilhar em outros sites

  • Membro VIP
Alguém vai usar? Se eu fosse gerente e visse alguém usando daria uma baita bronca...

Se o compilador suportasse de forma mais inteligente, talvez, se essas instruções fossem melhor planejadas talvez os compiladores suportassem de forma mais inteligente.

As instruções SIMD da Intel parecem ter sido formuladas pelo Aaron e ele parece só se importar com compressão de video, praticamente para todo o resto falta "aquela" instrução.

Link para o comentário
Compartilhar em outros sites

Se o compilador suportasse de forma mais inteligente, talvez, se essas instruções fossem melhor planejadas talvez os compiladores suportassem de forma mais inteligente.

Sim, mas em aplicações para servidores "normais" o ganho ainda seria pequeno... e só o fato de não poder rodar em algumas combinações de sistemas operacionais me parece mais que suficiente para desconsiderar a ideia e meter uma bica em quem considerou, SE minha aplicação fosse uma dessas aplicações para servidores "normais".

As instruções SIMD da Intel parecem ter sido formuladas pelo Aaron e ele parece só se importar com compressão de video, praticamente para todo o resto falta "aquela" instrução.

Compressão de vídeo deve ser o alvo deles mesmo... mas não tem tanta coisa assim no mercado doméstico que use SIMD, ou tem? Compressão de vídeo é "o benchmarck" de SIMD doméstico atualmente.

Link para o comentário
Compartilhar em outros sites

ah, assim, só uma dúvida, AVX é uma instrução usada em ponto flutuante certo?

se for, ela seria usada por pessoas que lidam muito com gráfico. Edição de vídeos, imagens, etc... Foi nisso que pensei, porque não se trata apenas de rodar fullhd.

Agora se ela não for isso que eu penso, esqueci, eu não disso nada :D

Link para o comentário
Compartilhar em outros sites

Visitante
Este tópico está impedido de receber novas respostas.

Sobre o Clube do Hardware

No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas comunidades sobre tecnologia do Brasil. Leia mais

Direitos autorais

Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

×
×
  • Criar novo...

Ebook grátis: Aprenda a ler resistores e capacitores!

EBOOK GRÁTIS!

CLIQUE AQUI E BAIXE AGORA MESMO!