AMD Bulldozer / Bobcat / Zambezi - Plataformas.

EL ETRO · 3 de setembro de 2010

Ahn... finalmente entendi o que a AMD quer implementar com esse two strong threads.
Agora, é real essa proposta de dividir uma "thread pesada" em dois núcleos, já no nível de chip ("forçando uso de mais núcleos"), ou seria necessário fazer isso no nível de software, como aparentemente funciona hoje em dia?

Há um tempo atrás vi em um blog de tecnologia que a Intel também estava tentando fazer isso em seus processadores, para utilizar todos os núcleos em programas não otimizados para multicore.

sirroman · 3 de setembro de 2010

valeu lfmetalicus. Se alguém tiver informação mais precisa/técnica, acho que todo mundo agradeceria.

Agora, uma outra dúvida de desentendido no assunto...

Ponto Flutuante é a operação por excelência das placas gráficas? Por que eu li em uma das matérias postadas aqui que aparentemente a ideia é utilizar a mesma arquitetura atual do bulldozer nos futuros fusion, só que no caso se removeria os 2x128bits de ponto flutuante e colocaria o "núcleo gráfico".

Evandro · 3 de setembro de 2010

Meu caro, está escrito que o Llano é um K8 drásticamente modificado e que esta modificação fez com que ficasse -em alguns aspectos, - acima do K10.5. Eu diria que é um K10.6 ou 10.7

Eu acho que o fud errou e não quer admitir.. não faz sentido ser K8, poderia até ser um K10, mas K8 nem quad nativo é.

Ponto Flutuante é a operação por excelência das placas gráficas? Por que eu li em uma das matérias postadas aqui que aparentemente a ideia é utilizar a mesma arquitetura atual do bulldozer nos futuros fusion, só que no caso se removeria os 2x128bits de ponto flutuante e colocaria o "núcleo gráfico".

Sim, elas fazem bastante, mas não só elas, as CPUs também fazem mas não da mesma forma.

Os Fusion futuros com certeza serão Bulldozer, a AMD capruchou bastante no poder de inteiros e nem tanto no de ponto flutuante, quando grudarem uma GPU ali eles conseguirão um bom desempenho em alguns tipos de operações, mas não em todas. (Já explicaram as diferenças entre a FPU de uma VGA e de uma CPU aqui, mas, me contento em saber que são diferentes. )

ThiagoLCK · 3 de setembro de 2010

Eu acho que o fud errou e não quer admitir.. não faz sentido ser K8, poderia até ser um K10, mas K8 nem quad nativo é.

Na verdade o Fud não errou. Ele só não é capaz de interpretação de texto, diria.

A questão é a seguinte, para a imprensa, a nomenclatura da AMD é a seguinte:

Núcleo dos K5 => K5

Núcleo dos K6 => K6

Núcleo dos Athlons originais até os Bartons => K7

Núcleo dos Athlons 64 pré-Phenom => K8

Núcleo dos Phenoms => K10, ou K8L, como era chamado antes.

Núcleo dos Phenoms 45 nm => K10.5

Núcleo dos Bulldozers => Bulldozer mesmo...

Mas os engenheiros da AMD, e a própria empresa, internamente, não usam essa mesma nomenclatura. Se você olhar nos CVs dos engenheiros que trabalharam no Bulldozer, verá que eles chamam a arquitetura de K10, ou Bulldozer. Na verdade a nova política da AMD desde os Phenoms é abandonar a nomenclatura Kx (e outras nomenclaturas numéricas, são muito reveladoras) e usar codinomes, de modo similar a Intel, que abandonou a nomenclatura Px.

Núcleo dos K5 => K5

Núcleo dos K6 => K6

Núcleo dos Athlons originais até os Bartons => K7

Núcleo dos Athlons 64 e Phenoms => K8, os Phenoms são chamados de "família Stars" ou "Hounds"...

Núcleo dos Bulldozers => Bulldozer ou, não oficialmente, K10.

Assim, quando alguém da AMD diz que o Llano usará um núcleo K8, não quer dizer necessariamente que usará um núcleo de Athlon 64 Clawhammer... quer dizer apenas que não usará um núcleo Bulldozer ou Bobcat.

sirroman · 3 de setembro de 2010

Sim, elas fazem bastante, mas não só elas, as CPUs também fazem mas não da mesma forma.
Os Fusion futuros com certeza serão Bulldozer, a AMD capruchou bastante no poder de inteiros e nem tanto no de ponto flutuante, quando grudarem uma GPU ali eles conseguirão um bom desempenho em alguns tipos de operações, mas não em todas. (Já explicaram as diferenças entre a FPU de uma VGA e de uma CPU aqui, mas, me contento em saber que são diferentes. )

Entendi, é questão de aumentar a eficiência, já que vai juntar as duas peças, porque não remover o desnecessário em cada uma e usar o que ela é melhor para no final ganhar em eficiência? Certo?

E talvez aquela imagem photoshoppada (que se entendi mostra 4 módulos que tem diferentes tamanhos, 2 pequenos e 2 grandes) até fizesse sentido em um Bulldozer fusion. Que tal usar 2 módulos em que seria utilizada a VGA para algumas operações de ponto flutuante e nos outros dois FP de CPU direcionado para as operações em que as VGA são fracas? Faz sentido?

Aviso a quem ler: eu NÃO SOU ENTENDIDO, estou inventando isso pelo que eu ACHO que poderia ser feito, na minha visão de leigo: não sei PN disso tudo. Não achem que isso aí é verdade.

Galvatron · 4 de setembro de 2010

http://www.gamevicio.com.br/i/noticias/53/53185-confirmado-amd-bulldozer-incompativel-com-socket-am3/index.html

preparem o bolso, e vendam seus AM3, ainda bem que não mudei de plataforma, assim só gasto uma vez

soullforged · 4 de setembro de 2010

http://www.gamevicio.com.br/i/noticias/53/53185-confirmado-amd-bulldozer-incompativel-com-socket-am3/index.html
preparem o bolso, e vendam seus AM3, ainda bem que não mudei de plataforma, assim só gasto uma vez

Agente já sabia, velhinho...

lucas vilela · 4 de setembro de 2010

tão lascado quem comprou assus crosshair v num vai ser compativel

ThiagoLCK · 4 de setembro de 2010

Entendi, é questão de aumentar a eficiência, já que vai juntar as duas peças, porque não remover o desnecessário em cada uma e usar o que ela é melhor para no final ganhar em eficiência? Certo?

A questão é que não existe uma sobreposição total entre as duas unidades. Existem coisas que jamais valerá a pena fazer nas GPUs, e também existem coisas que a GPU faz de forma excepcional...

Pelo menos é isso que parece, considerando que AMD e Intel apresentaram extensões relativamente caras e dependentes de software para dobrar os MACHOFLOPS (FMAC, da AMD e vetores de 256 bits em hardware, da Intel), que mostram que ainda se acredita na VFPU da CPU como um veículo de HPC e outras aplicações.

E talvez aquela imagem photoshoppada (que se entendi mostra 4 módulos que tem diferentes tamanhos, 2 pequenos e 2 grandes) até fizesse sentido em um Bulldozer fusion. Que tal usar 2 módulos em que seria utilizada a VGA para algumas operações de ponto flutuante e nos outros dois FP de CPU direcionado para as operações em que as VGA são fracas? Faz sentido?

É uma ideia interessante, existem implementações similares e muito se fala a respeito de núcleos assimétricos (é a tendência de coisas como, SOCs, APUs e extensões AES-NI e de codificação e decodificação de vídeo), mas nesse caso específico não sei se o ganho seria grande o suficiente.

Veja que é essencial para um x86 doméstico possuir alguma VFPU (por questões de compatibilidade). Compartilhar essa VFPU é aceitável, ter uma VFPU mais fraca também é possível, mas não ter nenhuma seria um sério problema, e acho que o ganho com menos recursos seria pequeno demais.

De qualquer modo, a imagem com certeza foi modificada, o cache parece ter sido comprimido na "raça".

EduardoS · 4 de setembro de 2010

Pelo menos é isso que parece, considerando que AMD e Intel apresentaram extensões relativamente caras e dependentes de software para dobrar os MACHOFLOPS (FMAC, da AMD e vetores de 256 bits em hardware, da Intel), que mostram que ainda se acredita na VFPU da CPU como um veículo de HPC e outras aplicações.

Os 256 bits que não foram adotados pela AMD e nem são unanimidade na Intel, mas a Intel não tem uma GPU que preste é ou isso ou entregar o mercado para a nVidia e AMD.

Já as FMAC eram um tanto quanto óbvias, só deus sabe porque a Intel não adicionou antes...

ps: Ainda da para salvar a x86, cria outro prefixo tipo AVX endereçando 32 registradores, os 16 mais baixos são as metades menos significativas dos registradores AVX, os 16 mais altos as metades mais significativas, precisão quadrupla e temos CPUs que complementam GPUs ao invés de tentar competir (em vão) no mundo paralelo.

Gun'ss · 4 de setembro de 2010

perae... EduardoS tu ta dizendo que se o bonde continuar a andar nesse ritmo o x86 vai realmente perder mercado para as GPUs?

Sempre ouvi todos dizendo que apesar das GPUs serem bem mais velozes, são menos flexíveis e por isso não são uma boa saída.

Explica isso ai direito, pode?

EduardoS · 4 de setembro de 2010

Tem uma área onde as CPUs são imbatíveis, algorítimos puramente sequenciais ou com um pouco de paralelismo mas muita dispersão, que é o caso do que a maior parte dos computadores no mundo faz o que vetores fazem (SSE e AVX) é aumentar o desempenho de algorítimos com muito paralelismo, mas nessa área as CPUs são muito ruins e as GPUs muito boas, SSE ainda é relativamente barato, AVX é caro, com a AVX a Intel começa a sair do terreno onde as CPUs são muito boas e querer brigar em um terreno onde as GPUs são muito boas.

O risco disso é CPUs caras de fabricar porque incluem uma extensão que não serve pra nada... Mas não, GPUs não vão aposentar as CPUs que nem um carinha de olhos puxados sonha.

Gun'ss · 4 de setembro de 2010

ta, vamos por partes.

BDZ e SB vem com AVX para tentar entrar em uma área onde não são boas, pois não foram feitas para isso, ou seja, remendo. Ok?! Porém nem todos os calculos "bons" no paralelismo usam vetores tornando essas extenções uma tentativa, eficaz ou não, de entrar nesse mercado.

Resumo é esse então da história... interessante

sirroman · 4 de setembro de 2010

A questão é que não existe uma sobreposição total entre as duas unidades. Existem coisas que jamais valerá a pena fazer nas GPUs, e também existem coisas que a GPU faz de forma excepcional...

Talvez seja questão de custo benefício e de mercado-alvo. Digamos que existam 5 operações, CPU vale a pena em 2, GPU em 3, então, à primeira vista, vale mais a pena tirar o FP do CPU e jogar a GPU;

Ou ainda, digamos que em um mercado alvo seja necessário alta eficiência nas exatas 2 operações em que CPU é eficiente... deixa o FP do CPU.

---

Será que a AMD (e a Intel) vão garantir uma boa sinergia entre a GPU discreta e a on die? Acredito que isso deveria ser uma prioridade no mercado high-end que procura extrair o máximo dos PCs, quem sabe assim a proposta do Fusion possa realmente se tornar onipresente.

Seria uma ótima jogada para AMD já que ela seria a única que produz tanto CPU quanto GPU, a melhor construção seria simplesmente, em termos de eficiência, uma full AMD. Até a remoção da marca ATI seria uma cartada de mestre nesse caso, não?

Gun'ss · 4 de setembro de 2010

exatamente por isso que ela "matou" o logo da ATI

ThiagoLCK · 4 de setembro de 2010

Já as FMAC eram um tanto quanto óbvias, só deus sabe porque a Intel não adicionou antes...

O VHDL do scheduler, do ROB e das RSs da P6 foi gravado em algum diamante... é **** modificar aquilo.

ps: Ainda da para salvar a x86, cria outro prefixo tipo AVX endereçando 32 registradores, os 16 mais baixos são as metades menos significativas dos registradores AVX, os 16 mais altos as metades mais significativas, precisão quadrupla e temos CPUs que complementam GPUs ao invés de tentar competir (em vão) no mundo paralelo.

Boa ideia. Até a RF disso é provavelmente mais simples que a do AVX... vai explicar para Intel, eles gostam é de MACHOFLOPS mesmo.

perae... EduardoS tu ta dizendo que se o bonde continuar a andar nesse ritmo o x86 vai realmente perder mercado para as GPUs?
Sempre ouvi todos dizendo que apesar das GPUs serem bem mais velozes' date=' são menos flexíveis e por isso não são uma boa saída.

Explica isso ai direito, pode? [/quote']

Vale a pena usar a CPU em tarefas sequenciais, tarefas com muitos desvios ou coisas relativamente baratas que não valem o esforço e o tempo necessário para arrastar todos os dados pelo PCI-E. Mas se você tiver que se esforçar para usar vetores de 256 bits (AVX), provavelmente vale mais a pena mandar tudo para a GPU logo...

A FMAC da AMD também requer recompilação para ser aproveitada (quer dizer, houve boatos mas são extremamente improváveis a essa altura)... a diferença é que se seu código for capaz de usar FMACs, provavelmente uma recompilação ou umas mudanças rápidas bastarão, vetores maiores são uma modificação de estrutura de dados, que sempre requer mais trabalho. EduardoS, confirma o que eu disse?

O risco disso é CPUs caras de fabricar porque incluem uma extensão que não serve pra nada... Mas não, GPUs não vão aposentar as CPUs que nem um carinha de olhos puxados sonha.

Pessoalmente eu acredito que no futuro a tendência é que acabem enfiando uma unidade vetorial gigante comandada distantemente pela CPU, em um arranjo de coprocessamento... afinal de contas, Intel e AMD mandam no maior mercado, e se for para integrar alguém a GPU será a vítima.

Talvez seja questão de custo benefício e de mercado-alvo. Digamos que existam 5 operações, CPU vale a pena em 2, GPU em 3, então, à primeira vista, vale mais a pena tirar o FP do CPU e jogar a GPU;

Antigamente essa era uma boa ideia, mas hoje em dia metade da pastilha é cache, diminui um pouco que você perde pouco desempenho em muitas aplicações e salva as 2 em que vale a CPU.

Agora, quando você começa a tacar unidades e registradores/RSs/ROBs de 256 bits, a coisa deixa de valer a pena. Por isso a AVX não é uma filhote do EduardoS...

EduardoS · 5 de setembro de 2010

Talvez seja questão de custo benefício e de mercado-alvo. Digamos que existam 5 operações, CPU vale a pena em 2, GPU em 3, então, à primeira vista, vale mais a pena tirar o FP do CPU e jogar a GPU;

Quando a GPU é rápida ela é muito rápida, mas quando ela é lenta ela é muito lenta... Deixa as FP no processador também, para a GPU deixe apenas os vetores, inteiros e de ponto-flutuante.

A FMAC da AMD também requer recompilação para ser aproveitada (quer dizer, houve boatos mas são extremamente improváveis a essa altura)... a diferença é que se seu código for capaz de usar FMACs, provavelmente uma recompilação ou umas mudanças rápidas bastarão, vetores maiores são uma modificação de estrutura de dados, que sempre requer mais trabalho. EduardoS, confirma o que eu disse?

A Intel jura que não mas é a maioria dos casos.

Gun'ss · 5 de setembro de 2010

The future is Fusion. Lendo o que vocês dizem isso faz cada vez mais sentido.

AMD deu um passo bem maior que a Intel sem nem mesmo ela (intel) saber?

jonny_br · 5 de setembro de 2010

Eu perguntaria mais, não está nascendo ai uma alternativa pra x86, mantendo a compatibilidade? ou estou boiando?

sirroman · 5 de setembro de 2010

Quando a GPU é rápida ela é muito rápida, mas quando ela é lenta ela é muito lenta... Deixa as FP no processador também, para a GPU deixe apenas os vetores, inteiros e de ponto-flutuante.

Isso no contexto de uma GPU discreta ou em um sistema de módulos assimétricos como o Bulldozer Fusion *pode* ser?

Se a filosofia do Bulldozer está sendo compartilhar o máximo possível, tirando o a primeira vista desnecessário, então parece que ele vai realmente ser assimétrico... Poderia-se até dizer que o Fusion 8 núcleos seria formado por 2 super-módulos compostos cada um por 2 módulos assimétricos, um com GPU e outro com FP-CPU, cada módulo assimétrico contendo dois núcleos CPU?

Apenas dois ("núcleos") GPU nessa arquitetura seriam suficientes para uma qualidade gráfica in die realmente interessante, suficiente para "matar o mercado de GPU low-end" como vi falarem do Sandy Bridge?

ThiagoLCK · 5 de setembro de 2010

Se a filosofia do Bulldozer está sendo compartilhar o máximo possível, tirando o a primeira vista desnecessário, então parece que ele vai realmente ser assimétrico... Poderia-se até dizer que o Fusion 8 núcleos seria formado por 2 super-módulos compostos cada um por 2 módulos assimétricos, um com GPU e outro com FP-CPU, cada módulo assimétrico contendo dois núcleos CPU?

Por questões de compatibilidade todos os núcleos x86 tem que suportar FP. E se é para suportar FP, é melhor suportar bem, ou você pode causar problemas para o sistema operacional...

Apenas dois ("núcleos") GPU nessa arquitetura seriam suficientes para uma qualidade gráfica in die realmente interessante, suficiente para "matar o mercado de GPU low-end" como vi falarem do Sandy Bridge?

Os núcleos gráficos não estão diretamente ligados aos módulos/núcleos, a conexão é via XBAR/equivalente Intel... e as GPUs low-end (a nível de Radeons 54xx) são surpreendentemente lentas, o Sandy Bridge empata com elas e o Llano provavelmente terá boas chances contra as Radeon 56xx.

sirroman · 6 de setembro de 2010

Como seria então uma arquitetura assimétrica? Ela em tese poderia ser melhor/mais eficiente?

ThiagoLCK · 6 de setembro de 2010

Como seria então uma arquitetura assimétrica? Ela em tese poderia ser melhor/mais eficiente?

Existem várias idéias... por exemplo, você poderia combinar alguns módulos de dois núcleos, similares aos atuais Bulldozers, com uma boa quantidade de cache e execução fora de ordem, com alguns módulos mais "leves", mais similares a um Atom otimizado ou um núcleo Niagara, com menos cache e suporte a multithreading. Ou incluir algum tipo de unidade SIMD acoplada a um núcleo simples para controle, similar a uma GPU ou Cell...

Só se deve tomar cuidado com a compatibilidade (todos os núcleos x86 devem suportar a arquitetura inteira) e com a distribuição de recursos (nada muito complicado, a divisão entre os núcleos deve ser bem clara)...

Por exemplo, eu não acredito que a sua ideia de diminuir a capacidade de ponto flutuante de alguns módulos valha tanto a pena atualmente... Mas no futuro, com módulos já diferentes uns dos outros, diferenciar por velocidade em PF será até óbvio, já que dependendo das características do núcleo e do mercado rodar PF pesado em um núcleo será besteira, e com módulos maiores e um maior número deles por pastilha, essa diferenciação começa a valer a pena.

ThiagoLCK · 7 de setembro de 2010

O Hans de Vries fez uma comparação entre Ontario e Pineview. Não sei até que ponto está correta, até porque a imagem do Ontario é da última camada, não das primeiras... mas se for verdade a AMD certamente conseguiu uma densidade bastante boa. O tamanho da GPU parece bater com o tamanho esperado de um Cedar com algumas coisas retiradas.

http://www.chip-architect.com/news/AMD_Ontario_Bobcat_vs_Intel_Pineview_Atom.jpg