AMD Bulldozer / Bobcat / Zambezi - Plataformas.

Evandro · 26 de agosto de 2010

Amigo, não tem ilusão... São dois núcleos que compartilham apenas o cache L2, e as unidades de ponto flutuante. Não são 1 núcleo e 2 threads. São dois núcleos. Pense neles como irmãos siameses que compartilham alguns orgãos mas têm cérebros independentes.

Realmente, muito boa analogia.

Eu não sei com relação ao Sandy Bridge nem quanto ao Core ix, mas com certeza esse processador será mais poderoso que os i7... É bem simples, em aplicações multi-thread o Phenom X6 1090T normalmente empata ou fica entre um i7940 e i7965. Com o aumento de mais 2 núcleos, fora melhoria internas, além das instruções SSE4.1 e SSE4.2, somado ao redimensionamento completo da unidade de inteiros, o pau vai comer.

Ahm, mas a falta das SSE4.x é tão determinante assim pra segurar o desempenho do Phenom ? O subsistema de memória e as unidades de Inteiros não são mais importantes ?

100% eu acho que é muita coisa, a AMD já teria cantado esse ovo.

já já vai ficar difícil de dizer quantos núcleos cada processador tem... ta tudo ficando difundido que vai ficar que nem as GPUs. Cada uma com "Z" SMs' date=' "Y" ROPs, etc... vamos contar "X" INT, "Y" FP...[/quote']
Tem gente que pensa que os i7 são octa core, que os quads são dois núcleos reais e dois virtuais e que os dual tem um de cada, parece que isso está escrito por aí no google com tanta convicção que eu não sei se consegui convencer um amigo meu da verdade verdadeira.

Mas que vai ter malandro vendendo "óquitacór com oitomega de quéx de treigigarrértiz", vai.

Descobrindo agora e me interessando por aprender sobre o que vai vir por ai da AMD e da INTEL (no que consta as arquiteturas).
Agora, só por desencargo de consciência, li razoavelmente sobre o Bulldozer, nova arquitetura da AMD, já a nova da Intel seria a Sandy Bridge, certo? Não achei uma matéria "por dentro da arquitetura Sandy Bridge" na página principal. Foi feito algum? Qual vai ser a resposta da Intel contra o Bulldozer?

Eu não ia fazer upgrade tão cedo mesmo, mas estou bastante curioso sobre isso tudo. Se eu for fazer up, acho que só quando tiver assentado tudo, quem sabe quando a ddr4 tiver um preço razoável.

Exceto se uma catástrofe acontecer ou se eu tiver com dinheiro sobrando, ou der a louca em mim hehehe. \o/

A Intel segue o caminho dela sem pensar muito na AMD desde que sairam os Core 2 Duo (se nem na época do P4 ela caiu, não vai ser agora que está com o rabo cheio de $$), de lá pra cá ela avançou duas gerações na frente da AMD, o Sandy Bridge pelo que vi até agora, não será algo totalmente novo como o Bulldozer e sim um Nehalem/Westmere melhorado (e provavelmente, com ótimo resultado).

Se o "Pai Soulforged" estiver certo, O Sandy vai ter que rebolar muito, mesmo se forem 30 a 50%, a briga ainda será muito boa.

Ah sim, é que você tinha citado sobre 16 "núcleos" anteriormente.

Mas esse tem pinta de serem dois chips na mesma peça, eles viráo pro "soquetão".

Mas será que não vai ter jeito de lançar uma versão Desktop com 8 blocos não? Eu imaginei que pelo custo de produção menor, menor consumo e menor tamanho do die isso fosse mais possível. Ou ao menos para Servers deve sair um processador desses, já que se encaixa dentro dos "33% mais núcleos" que a AMD citou em relação ao MGC.

Pra servidores é esse aí mesmo que a AMD fala, comparado com o X12 que é o topo de linha hoje.

No desk, se conseguirem colocar 8 blocos em um chip só, é capaz de vir, mas, pra que ?

Só se eles fizerem como fizeram nos X6, foco em servidores e depois, quem sabe, vai pro "mundo civil".

Como não previram nada disso nos roadmaps, acho que esse chip ou não será tão pequeno quanto pensamos, ou não vai dar pra colocar isso tudo no socket.

O custo e em partes o consumo vão depender do tamanho da criança, e isso até agora não vazou. Eu chuto que ele será menor/igual ao Deneb e que vaai operar em clocks semelhantes, de 2.6 a 3.6 GHz.

[Modo Mau ON]

Sobre a retrocompatibilidade, sempre fiquei com "pé atrás" em relação à isso, e acho que a AMD vai fazer segridinho até quando puder para que mais pessoas comprem kits AMD pensando na retrocompatibilidade.

[Modo Mau OFF]

:lol:

Empresa tem que dar lucro..

arcmatrixnt · 26 de agosto de 2010

Amigo, não tem ilusão... São dois núcleos que compartilham apenas o cache L2, e as unidades de ponto flutuante. Não são 1 núcleo e 2 threads. São dois núcleos. Pense neles como irmãos siameses que compartilham alguns orgãos mas têm cérebros independentes.
Eu mantenho minha previsão: Pelo menos 100% de desempenho em cima do Phenom X6 1090T.

Eu não sei com relação ao Sandy Bridge nem quanto ao Core ix, mas com certeza esse processador será mais poderoso que os i7... É bem simples, em aplicações multi-thread o Phenom X6 1090T normalmente empata ou fica entre um i7940 e i7965. Com o aumento de mais 2 núcleos, fora melhoria internas, além das instruções SSE4.1 e SSE4.2, somado ao redimensionamento completo da unidade de inteiros, o pau vai comer.

pois é, são dois núcleos "siameses", estão usando duas técnicas: CMT e SMT, onde é vantagem compartilhar você tem uma união (porém não está muito claro ainda, parece que é possível acessar cada uma das duas unidades de 128bits individualmente na FPU ou uma única de 256bits)

a unidade de inteiros é completamente independente, são duas e é aí onde eles falam dessa comparação do ganho frente a uma unidade do PhenomII, acredito que vai ser assim: programa otimizado para mthread-> cada módulo divide os núcleos nas tarefas; programa não otimizado-> cada módulo vira um só núcleo.

pelo visto seria como se tivessem pego um núcleo do PhenomII e dividessem em dois núcleos

na verdade até agora não falaram de desempenho real e sim de uma comparação de rendimento de threads comparando o tratamento delas no núcleo tradicional do PhII versus o do bdz

soullforged · 26 de agosto de 2010

Realmente, muito boa analogia.
Ahm, mas a falta das SSE4.x é tão determinante assim pra segurar o desempenho do Phenom ? O subsistema de memória e as unidades de Inteiros não são mais importantes ?

100% eu acho que é muita coisa, a AMD já teria cantado esse ovo.

Evandro, a grande birra dos Phenons frente aos Cores é sua unidade de inteiros, que perde de forma nada elegante para aqueles. O redimensionamento dela só em questão de números já deve permitir um aumento de 33% (apenas em termos de adição de componentes) vs. AMD64.

Por outro lado, além dos circuitos de pré-busca e da unidade de interios dos Cores serem muito bons, as instruções SSE4 foram um calo grande no calcanhar dos K10, até porque sabemos que uma coisa é a AMD propor um subset de instruções e ele ser adotado pelo mercado, outra coisa bem diferente é se o criador do subset for empresa azul...

Tocando neste assunto, outra coisa que precisa ser revista é o controlador de memória, bem como o circuito de pré-busca, sobre o qual não ficamos sabendo muita coisa ainda. Se o NB continuar funcionando há apenas 2,0ghz sem melhoria nenhuma no tocante a arquitetura, a AMD vai continuar tomando porrada em banda de memória em relação a Intel. Só lembrando que o NB é onde fica o cache L3 e qualquer melhoria neste sentido afetará diretamente a menira como se comporta este nível de cache.

Mas acredito (desta vez, pois com o barça eu não acreditava) que os bulldozers não ficarão dever nada aos seus congêneres da Intel, porém, há menos que a AMD tenha uma carta na manga (como um bulldozer hexamodular para desktops), seu problema serão as versões extremes vindas de Santa Clara.

Evandro · 26 de agosto de 2010

Evandro, a grande birra dos Phenons frente aos Cores é sua unidade de inteiros, que perde de forma nada elegante para aqueles. O redimensionamento dela só em questão de números já deve permitir um aumento de 33% (apenas em termos de adição de componentes) vs. AMD64.
Mas além dos circuitos de pré-busca e da unidade de interios do Core serem muito bons, as instruções SSE4 da Intel foram um calo grande no calcanhar dos K10, até porque sabemos que uma coisa é a AMD propor um subset de instruções e ele ser adotado pelo mercado, outra coisa bem diferente é se o criador do subset for empresa azul...

Tocando neste assunto, outra coisa que precisa ser revista é o controlador de memória, bem como o circuito de pré-busca, sobre o qual não ficamos sabendo muita coisa ainda.

Mas acredito (desta vez, pois com o barça eu não acreditava) que os bulldozers não ficarão dever nada aos seus congêneres da porém, há menos que a AMD tenha uma carta na manga, seu problema será as versões extremes vindas de Santa Clara.

obrigado pela ótima explicação.

Guilherme FW Xavier · 26 de agosto de 2010

A meu ver, o BZ virá bem na fita. Porque? Desde que se anunciou o acordo de licença cruzada, tanto AMD quanto a concorrencia, tem direito de acesso a tudo o que diz respeito ao desenvolvimento de CPU's com tecnologia X86. Assim, a AMD aprendeu como fazer melhor o que tinha, mas para não dizer que era cópia, teve esse trabalho todo para chegar a esse BZ modular.

Gun'ss · 26 de agosto de 2010

a AMD tinha acesso a tudo sobre X86 e a Intel a X86-64. O grande lance era que a AMD tinha que pagar royalties à Intel, para poder usar a tecnologia x86. Agora tanto VIA, quanto AMD não precisam pagar nada já que todas fazem parte do desenvolvimento dessa tecnologia.

Fora o lance de transparência e outras cosítas. Não acredito muito nessa "transparência", mas ao menos é alguma coisa.

Resumindo, não acho que o Bulldozer tem esse jeitão somente para diferenciar, e sim para ser o começo de uma Arquitetura que vai ser usada por no mínimo uns 5~7 anos pela AMD. Vejo ele como um "Plano Piloto", o primeiro filho dessa nova roupagem.

soullforged · 26 de agosto de 2010

pois é, são dois núcleos "siameses", estão usando duas técnicas: CMT e SMT, onde é vantagem compartilhar você tem uma união (porém não está muito claro ainda, parece que é possível acessar cada uma das duas unidades de 128bits individualmente na FPU ou uma única de 256bits)

Pelo que deu a entender elas são unidades separadas que funcionaram inicialmente como 128bits, mas no caso de AVX se transformarão em uma de 256bits. Como o GT falou, parece que o AVX da AMD é mais completo que o da Intel por integrar também instruções do subconjunto SSE5 que estava sendo desenvolvido pela primeira.

a unidade de inteiros é completamente independente, são duas e é aí onde eles falam dessa comparação do ganho frente a uma unidade do PhenomII, acredito que vai ser assim: programa otimizado para mthread-> cada módulo divide os núcleos nas tarefas; programa não otimizado-> cada módulo vira um só núcleo.

Eu meio que ando pensado diferente. Pelo menos no caso da unidade de interios, não tem como o sistema interpretar aquilo tudo como um só. O próprio SO se encarregará de tratá-la como cores independentes.

pelo visto seria como se tivessem pego um núcleo do PhenomII e dividessem em dois núcleos

Não apenas isto. Tem muito mais coisa melhorada em reação ao núcleo do K10. A unidade de inteiros passou de 03 para 04 alus. Circuitos de pre-busca devem ser melhorados. A esturutra do cache L1 foi modificada, indicando que cada linha terá seu cache separado de 16KB, ao invés de tratar o cache L1 de dados como um só... e por ai vai. O impacto disto só com primeiros testes mesmo.

na verdade até agora não falaram de desempenho real e sim de uma comparação de rendimento de threads comparando o tratamento delas no núcleo tradicional do PhII versus o do bdz

Pois é. O pior é que com essa questão de módulos/núcleos complicada um pouco ou muito a forma de analisar.

Eu diria que apenas pelo dobro de núcleos, um quado modular zambezi já deveria ser cerca de 80%-100% mais poderoso que um Deneb de 04 núcleos, fora toda a modificação da arquitetura.

Wait and see...

Gun'ss · 26 de agosto de 2010

Eu diria que apenas pelo dobro de núcleos, um quado modular zambezi já deveria ser cerca de 80%-100% mais poderoso que um Deneb de 04 núcleos, fora toda a modificação da arquitetura.
Wait and see...

lembrando que o "quadro modular" será vendido como octa-core

EduardoS · 26 de agosto de 2010

Amigo, não tem ilusão... São dois núcleos que compartilham apenas o cache L2, e as unidades de ponto flutuante. Não são 1 núcleo e 2 threads. São dois núcleos. Pense neles como irmãos siameses que compartilham alguns orgãos mas têm cérebros independentes.

Ainda compartilham o front-end, cache de instruções decodificadores, preditor de desvios, etc.

Quando um engenheiro da Intel propôs algo assim por lá ele chamou o "módulo" de "núcleo", chamar de "módulo" ou "núcleo" é mais questão de marketing e licenciamento do que uma questão técnica, pelo que já vi da Intel qualquer coisa que compartilhe mais do que o cache é um núcleo só, outros são mais flexíveis.

Diria que esse é um mal sinal e que as versões para servidores terão pouco L3, se fossem monstros realmente bons para OLTP dariam mais importância ao Oracle, por outro lado a Oracle aumentaria o preço das licenças...

Eu mantenho minha previsão: Pelo menos 100% de desempenho em cima do Phenom X6 1090T.

Pela versão desktop de 8 núcleos? Quer apostar? Deixo minhas fichas nos 40%.

Evandro, a grande birra dos Phenons frente aos Cores é sua unidade de inteiros, que perde de forma nada elegante para aqueles. O redimensionamento dela só em questão de números já deve permitir um aumento de 33% (apenas em termos de adição de componentes) vs. AMD64.

A unidade de inteiros (escalares, que é as que tiveram o "aumento" que você citou) é pau a pau com os Cores, os dois possuem 3 ALUs, o Phenom 3 AGUs e não sofrem com read-modify-write e read-execute, os Cores possuem AGU/LS separada que pode executar instruções independentes mas sofrem com read-execute e especialmente com read-modify-write, a maior parte das instruções dessas unidades é mais rápida nos Phenom, em programas de criptografia em geral os Phenom se saem melhor (especialmente se o software em questão faz uso de mul e carry), e isso tudo comparando núcleo por núcleo e clock por clock.

Onde os Core realmente são melhores é no subsistema de memória, em especial o i7, o SMT deles ajuda mais a mascarar latências do que a preencher as unidades de inteiros e nos aplicativos geralmente colocados no pote dos "inteiros" (ex: web servers, compactadores de arquivo, compiladores) o subsistema de memória é mais importante do que as unidades de inteiros em si.

Por outro lado, além dos circuitos de pré-busca e da unidade de interios dos Cores serem muito bons, as instruções SSE4 foram um calo grande no calcanhar dos K10, até porque sabemos que uma coisa é a AMD propor um subset de instruções e ele ser adotado pelo mercado, outra coisa bem diferente é se o criador do subset for empresa azul...

SSE4.x quando muito ajuda em um benchmark escolhido dos reviews a dedo para mostrar que elas existem, tem poucas instruções, muito específicas, poucas realmente úteis e dessas a maior parte foi tão mal implementada nos Nehalem/Westmare que só ajudam em pouquíssimos casos.

E além do mais, a adoção delas foi baixa, ninguém sentiu falta delas quando a Intel deixou de fora das linhas mais baixas...

Pelo que deu a entender elas são unidades separadas que funcionaram inicialmente como 128bits, mas no caso de AVX se transformarão em uma de 256bits. Como o GT falou, parece que o AVX da AMD é mais completo que o da Intel por integrar também instruções do subconjunto SSE5 que estava sendo desenvolvido pela primeira.

Leve esse "se transformarão" com cautela, a AMD não disse como foi feito, ao invés de transformar duas unidades de 128 bits em uma de 256 bits é muito mais simples transformar uma instrução de 256 bits em uma de 128 bits... E a AMD já fez algo similar nos tempos do K-8.

Ah, o que essas unidades tem a mais é as FMAC, propostas nas SSE5, depois propostas pela primeira versão das AVX que depois foram alteradas (capadas...), as instruções que a AMD vai implementar são parecidas com a primeira versão, mas no prefixo XOP.

Eu meio que ando pensado diferente. Pelo menos no caso da unidade de interios, não tem como o sistema interpretar aquilo tudo como um só. O próprio SO se encarregará de tratá-la como cores independentes.

Pro SO isso é transparente, mesmo no caso dos i7 as unidades de inteiros serem compartilhadas não faz diferença nenhuma pro SO.

Não apenas isto. Tem muito mais coisa melhorada em reação ao núcleo do K10. A unidade de inteiros passou de 03 para 04 alus.

2 ALUs e 2 AGUs, mas independentes, na verdade esse é um ponto que eu gostaria de maiores esclarecimentos, 2 AGUs independentes para apenas 2 ALUs é exagero, TALVEZ elas possam fazer algo mais, é a única forma de não ser um exagero...

indicando que cada linha terá seu cache separado de 16KB

Em relação aos K10 núcleo por núcleo, clock por clock isso é um retrocesso, por outro lado deve permitir que o BD atinja clocks maiores.

Eu diria que apenas pelo dobro de núcleos, um quado modular zambezi já deveria ser cerca de 80%-100% mais poderoso que um Deneb de 04 núcleos, fora toda a modificação da arquitetura.

Perai, antes era 100% sobre um 1090T, agora 80%-100% sobre um Deneb? Bem... O chute agora parece mais realista...

ps: Toda a modificação da arquitetura não teve como prioridade aumentar a performance por núcleo por clock...

soullforged · 27 de agosto de 2010

antes era 100% sobre um 1090T, agora 80%-100% sobre um Deneb? Bem... O chute agora parece mais realista...
ps: Toda a modificação da arquitetura não teve como prioridade aumentar a performance por núcleo por clock...

É o fato de escrever sem ler. No caso eu estava pensando no X6 porque estava escrevendo algo sobre ele em outra página.

Minha comparação em termos de número era pra ser com o 965 BE...

Child of Sin · 27 de agosto de 2010

Fudzilla ficando doido?? Eles citaram (e reclamaram bastante) pois "ficaram sabendo" que o Llano usaria a arquitetura K8 como base. Oras, mas todos já sabemos que vai ser utilizado a K10.5 como base.

Pior os caras nos comments "malhando" o site...

http://www.fudzilla.com/processors/processors/the-heart-of-amds-llano-is-k8

Evandro · 27 de agosto de 2010

Fudzilla ficando doido?? Eles citaram (e reclamaram bastante) pois "ficaram sabendo" que o Llano usaria a arquitetura K8 como base. Oras, mas todos já sabemos que vai ser utilizado a K10.5 como base.
Pior os caras nos comments "malhando" o site...

http://www.fudzilla.com/processors/processors/the-heart-of-amds-llano-is-k8

Internet é terra sem lei..

E mesmo que seja um K8, e daí ? O que importa é o desempenho/consumo e preço, se um chip desses chega no mercado a 90 dólares eu quero ver quem vai reclamar..

soullforged · 27 de agosto de 2010

Fim das dúvidas sobre retrocompatibilidade:

Sin más preámbulo aquí la respuesta oficial de AMD:
Cuando inicialmente diseñamos Bulldozer esperábamos que sea compatible con AM3, pero a lo largo del proceso de desarrollo, nos dimos cuenta que teníamos que tomar una decisión sobre la algunas de las características que queríamos incorporar a Bulldozer. Bien podríamos proporcionar soporte a AM3 y renunciar a algunas de las capacidades de la nueva arquitectura Bulldozer o, podríamos elegir el socket AM3+ el que permitirá a Zambezi basado en Bulldozer, tener un mayor rendimiento y características.

La mayoría del público que adquiere equipos nuevos no actualizará sus procesadores, pero los entusiastas sí. Cuando hicimos el análisis nos quedó claro que los clientes que tenían más probabilidades de actualizar una placa madre AM3 a un Bulldozer querrían las características y potencia que sólo puede ser entregados por el nuevo socket AM3+.

Si nos preguntan ¿Por qué no hacer las 2 cosas? O ¿Por qué no hacen un segundo modelo que sólo funcione en AM3? En primer lugar, porque eso aumentaría considerablemente el costo y la infraestructura de llevar el producto al mercado, lo que incrementaría el costo del producto (tanto para AMD como para sus socios). En segundo lugar, la adición de un producto adicional, duplicaría el tiempo involucrado en muchas de las fases de desarrollo.

Así que al final, proveer la compatibilidad con AM3 derivaria en ofrecer un producto con menos características, más caro, y más tarde al mercado. En su lugar, se escogió el camino del nuevo socket AM3+, un camino con el que esperamos ofrecer un producto de mejor precio, con un mayor rendimiento, más características, y a tiempo.

Cuando observamos el mercado de las actualizaciones de AM3, estaba claro que la mayoría de la gente estaba más interesada en un producto basado en AM3 serían los entusiastas. Se trata de un tipo de clientes que sabemos que no están dispuestos a conformarse con la segunda mejor cuando se trata de rendimiento, para los que sin duda necesitamos asegurarles que con nuestra nueva arquitectura podrían satisfacer sus necesidades más exigentes, tanto un alto rendimiento como una gran capacidad de overclock. Creemos que ellos verán eso en AM3+.

Fonte: http://www.chw.net/2010/08/zambezi-es-incompatible-con-el-socket-am3/

Não foi o que eu queria escutar, mas pelo menos a resposta foi sensata.

johannesrs · 27 de agosto de 2010

Só pra rir entre as lágrimas da má notícia, segue a tradução do google:

Quando o inicialmente esperado Bulldozer projetado para ser compatível com AM3, mas durante o processo de desenvolvimento, percebemos que tínhamos que tomar uma decisão sobre algumas das características que nós quisemos acrescentar um Bulldozer.

Bem AM3 poderá prestar apoio e dar-se alguns dos recursos da nova arquitetura Bulldozer ou, poderíamos escolher o socket AM3 + que permitem Bulldozer com base Zambeze, tem maior desempenho e funcionalidades.

A maioria do público que compra de novos computadores não atualizam seus processadores, mas sim o entusiasmo.

Quando fiz a análise, ficou claro que os clientes estavam mais propensos a atualizar uma placa mãe AM3 seria como um trator e as características de poder que só pode ser emitido pelo novo socket AM3 +.

Se perguntar, 'Por que não fazer duas coisas?

Ou por que não fazer um segundo modelo que só funciona no AM3?

Primeiro, porque isso aumentaria o custo e infra-estrutura para colocar o produto no mercado, aumentando assim o custo do produto (tanto para AMD e seus parceiros).

Por outro lado, a adição de um produto adicional, o dobro do tempo envolvido em vários estágios de desenvolvimento.

Então, no final, fornecer oferecer suporte AM3 resultaria em um produto com menos recursos, mais caro, e mais tarde ao mercado.

Em vez disso, eles escolheram o caminho do novo socket AM3 +, um caminho que esperamos oferecer um produto de baixo preço, com maior desempenho, mais recursos, e no tempo.

Quando olhamos para o mercado de atualizações AM3, ficou claro que a maioria das pessoas estavam mais interessados em um produto baseado em AM3 seria entusiasta.

É um tipo de clientes que sabem que não estão dispostos a se contentar com o segundo melhor quando se trata de desempenho, para o qual certamente precisamos para garantir que a nossa nova arquitetura poderia satisfazer as suas mais exigentes, de alto desempenho, tanto como grande capacidade de overclock.

Nós acreditamos que eles vão ver que em + AM3.

sirroman · 27 de agosto de 2010

Acho que agora a principal questão é se os futuros processadores vão ser compatíveis com o AM3+, não é verdade?

Pessoal, eu sou altamente leigo nisso tudo, dava para vocês darem uma explicada superficial sobre o que significa, para o usuário comum, 1) um enfoque maior ou menor em ponto-flutuante; 2) um enfoque maior ou menor em ALU/AGU; 3) Qual a diferença entre ALU e AGU e porque " 2 AGUs independentes para apenas 2 ALUs é exagero".

Não quero ser chato nem nada (afinal deve ser um saco explicar essas coisas), nem sonho em trabalhar com isso, mas tenho interesse e curiosidade, sabe? Ah! Por favor, poderia ser uma resposta mais completa que "programas mais comuns usam isso ou aquilo"?

Agradeço desde já. []s

jonny_br · 27 de agosto de 2010

Internet é terra sem lei..
E mesmo que seja um K8, e daí ? O que importa é o desempenho/consumo e preço, se um chip desses chega no mercado a 90 dólares eu quero ver quem vai reclamar..

Concordo plenamente, quando voltaram atrás de P786 para P686 foi tudo azul celestial e olha que se brincar é um dos chips mais econômicos que há.

__________________________________________________________________

Para mim não ficou claro se vou poder usar meu Athlon II no soquet AM3+

soullforged · 27 de agosto de 2010

Acho que agora a principal questão é se os futuros processadores vão ser compatíveis com o AM3+, não é verdade?

Os primeiros rumores dão por conta que os processadores atuais serão compatíveis com as novas placas. A impossibilidade dos Bulldozers serem instalados em placas atuais diz respeito à necessidade de um projeto elétrico mais robusto, provavelmente porque adicionaram mais funções dentro do CPU. Atualmente as cpu's utilizam um processo dividido em 02 fases sendo uma para o northbridge interno e outra para os núcleos x86/64.

1) um enfoque maior ou menor em ponto-flutuante

.

Grosso modo serve para realizar operações com números não inteiros. Por exemplo. A divisão de 33 por 7 vai retonar no sistema decimal: 4,714285714285714. Outra forma por exemplo é multiplicar 4,5466742521 por 2,456347986... Isto é um número de ponto flutuante.

2) um enfoque maior ou menor em ALU/AGU

ALU - Vou deixa a explicação mais detalhada para alguém mais capacitado, mas de forma simples, a ALU (unidade lógica e aritmética) serve para realizar operações com números inteiros, retonando resultados em números também inteiros. 4/2 = 2.

AGU - De acordo com Gabriel Torres, Store Address: Unidade de armazenamento de endereços, processa instruções que solicitam dados a serem escritos na memória RAM. Esta unidade é também conhecida como Unidade de Geração de Endereços (AGU, Address Generator Unit). Este tipo de instrução usa tanto as unidades Store Address e Store Data ao mesmo tempo.

A coisa é mais complicada. Pense que além das 04 operações básicas, processadores executam operações lógicas, comparações, além das instruções básicas x86-x64, e instruções dos subsets SSE1, 2 etc. e ainda pra ficar mais legal, tudo vem no sistema hexadecimal (0,1,2,3,4,5,6,7,8,9,10,A,B,C,D,E,F).

São coisas que um curso de lógica de programação (nem sei se ainda existe isto) ou muita leitura devem lhe ajudar a entender. Eu to enferrujado neste assunto. Programei na época do Clipper 5, quando era adolescente e ainda mais por hobby.

3) Porque " 2 AGUs independentes para apenas 2 ALUs é exagero".

Bom, esta eu deixo pro EduardoS, porque eu também estou boiando...

Ramon Neves · 27 de agosto de 2010

Quando o inicialmente esperado Bulldozer projetado para ser compatível com AM3, mas durante o processo de desenvolvimento, percebemos que tínhamos que tomar uma decisão sobre algumas das características que nós quisemos acrescentar um Bulldozer. Bem AM3 poderá prestar apoio e dar-se alguns dos recursos da nova arquitetura Bulldozer ou, poderíamos escolher o socket AM3 + que permitem Bulldozer com base Zambeze, tem maior desempenho e funcionalidades. A maioria do público que compra de novos computadores não atualizam seus processadores, mas sim o entusiasmo. Quando fiz a análise, ficou claro que os clientes estavam mais propensos a atualizar uma placa mãe AM3 seria como um trator e as características de poder que só pode ser emitido pelo novo socket AM3 +.
Se perguntar, 'Por que não fazer duas coisas? Ou por que não fazer um segundo modelo que só funciona no AM3? Primeiro, porque isso aumentaria o custo e infra-estrutura para colocar o produto no mercado, aumentando assim o custo do produto (tanto para AMD e seus parceiros). Por outro lado, a adição de um produto adicional, o dobro do tempo envolvido em vários estágios de desenvolvimento.

Então, no final, fornecer oferecer suporte AM3 resultaria em um produto com menos recursos, mais caro, e mais tarde ao mercado. Em vez disso, eles escolheram o caminho do novo socket AM3 +, um caminho que esperamos oferecer um produto de baixo preço, com maior desempenho, mais recursos, e no tempo.

Quando olhamos para o mercado de atualizações AM3, ficou claro que a maioria das pessoas estavam mais interessados em um produto baseado em AM3 seria entusiasta. É um tipo de clientes que sabem que não estão dispostos a se contentar com o segundo melhor quando se trata de desempenho, para o qual certamente precisamos para garantir que a nossa nova arquitetura poderia satisfazer as suas mais exigentes, de alto desempenho, tanto como grande capacidade de overclock. Nós acreditamos que eles vão ver que em + AM3.

Sinceramente olhando por esse lado eu gostei da troca do soquet se é para ter mais desempenho...

O ponto ruim é que é mais um gasto com placa mãe nova, mais agora vem a dúvida, quando sera lançada essas placas mãe com esse novo soquet??

Gun'ss · 27 de agosto de 2010

junto com o Bulldozer

EduardoS · 28 de agosto de 2010

AGU - De acordo com Gabriel Torres, Store Address: Unidade de armazenamento de endereços, processa instruções que solicitam dados a serem escritos na memória RAM. Esta unidade é também conhecida como Unidade de Geração de Endereços (AGU, Address Generator Unit). Este tipo de instrução usa tanto as unidades Store Address e Store Data ao mesmo tempo.

Bem... Não exatamente, os processadores da Intel transformaram as AGUs/LS em Store Address, Store Data e Load Data/Address, cada instrução que solicita dados da memória principal usa a terceira unidade, cada instrução que grava usa as duas primeiras, a primeira e a última são unidades capazes de calcular endereços de memória, a segunda é capaz de enviar dados à memória (na verdade, à unidade LS) e a terceira é capaz de buscar.

Nos processadores da AMD, só tem as AGUs, e elas só calculam endereços, tanto para operações de escrita, quanto leitura, as operações em si são efetuadas pelas unidades LS, os K-7/8/10 possuem 3 AGUs, o que é um grande exagero já que nunca serão usadas ao mesmo tempo, mas elas são presas a uma ALU e não podem ser compartilhadas com outras, então esse exagero se faz necessário (de qualquer jeto, AGUs são baratas...), no Bulldozer o número de AGUs foi reduzida para duas, aparentemente separadas das ALUs (por isso as ALUs poderiam compartilhar a AGU se só existisse uma ou se existissem mais ALUs) e aparentemente também capazes de realizar tanto operações de escrita quanto leitura, mas isso ainda é incerto, pode ser que escrita e leitura tenha sido separadas como é o caso da Intel, ou do Bobcat...

porque " 2 AGUs independentes para apenas 2 ALUs é exagero".

Simplesmente porque AGUs não são tão usadas quanto ALUs, os processadores da Intel possuem 3 ALUs mas apenas 2 "AGUs", quer dizer, nem duas porque uma só serve para leitura e a outra pra escrita, e eles estão muito bem assim, o Bulldozer terá menos ALUs e o mesmo número de AGUs mas (aparentemente) AGUs mais poderosas.

soullforged · 28 de agosto de 2010

EduardoS, porque você acha que o cache de dados em 16KiB dedicado a cada uma das linhas da unidade de inteiros é um retrocesso?

Qual será o impacto disto na arquitetura?

EL ETRO · 28 de agosto de 2010

Estou achando que desta vez a competição vai ficar acirrada entre SBxBull, acredito nas mudanças que estão sendo feitas na arquitetura nova da AMD(o desempenho por área de silício nos PhenomII é um pouco preocupante, se olharmos para a concorrência). Não sou tão entusiasta a ponto de entender tão corentemente a esquematização das ALUs, AGUs, a FPU modificada e o acesso aos vários níveis de cache e como isso afetaria o desempenho do processador, mas me baseando em algumas informações mais fáceis, vejo que com a melhora do desempenho por clock, vão conseguir alcançar os processadores da Intel(pelo menos o Clock-a-Clock dos Nehalem/Westmere).

Eu aposto algo como 17-18% de melhora no desempenho(segundo os calcúlos do pessoal aqui do fórum(pra mim eles vão ficar um pouco atrás do Nehalem)), entretanto talvez consigam o desempenho utilizando de muito menos silicío, e consumindo menos energia(amém! 125W é extravagante demais para concorrer contra os 95W dos i5 750-760, e o meio ambiente agradece também ).

EduardoS · 28 de agosto de 2010

EduardoS, porque você acha que o cache de dados em 16KiB dedicado a cada uma das linhas da unidade de inteiros é um retrocesso?

Não é bem que eu ache que foi um retrocesso, só uma cosa que me deixa com o pé atrás, a grande vantagem dos processadores fora de ordem é lidar com latências imprevisíveis mas ainda assim, tem limite, o scheduler não consegue detectar mudanças na latência esperada das instruções tão rápido, o que pode acontecer com um L1 muito pequeno é o scheduler não agendar de forma muito eficiente deixando bolhas no caminho, as vezes um L1 maior com latência maior fica mais rápido justamente pelo scheduler conseguir agendar as instruções de forma mais eficiente, claro, aqui também existem limites, um L1 com latência de 20 ciclos vai ser lento e não tem muito o que o scheduler, as vezes precisa assumir o risco de mais "misses" para não aumentar muito a latência, se ele rodasse a uns 20GHz e só tivesse 8kB de L1 acho que ainda seria aceitável, nesse clock mesmo com um L1 pequeno também acho que seria difícil uma latência menor do que uns 10 ciclos, o agendador ainda teria que fazer mágica.

Mas... Isso é um problema que a AMD deve ter quebrado a cabeça para resolver, o BD foi feito para rodar em um clock maior que o K10 e para isso precisavam fazer alguns sacrifícios e resolver alguns problemas, o L1 é um desses problemas e não é fácil de resolver.

arcmatrixnt · 28 de agosto de 2010

Mas... Isso é um problema que a AMD deve ter quebrado a cabeça para resolver, o BD foi feito para rodar em um clock maior que o K10 e para isso precisavam fazer alguns sacrifícios e resolver alguns problemas, o L1 é um desses problemas e não é fácil de resolver.

lembro de ter lido que a intel batalhou muito pra aumentar a previsao pra manter os caches com os dados necessarios o maior tempo possível, inclusive a redução no tamanho do L1 dos processadores e até mesmo uma construção onde o cache copia os dados da L2 foi implementado, no P4 eles reduziram ainda mais e ainda teve um cache pequeno e rápido embutido, melhoraram a tal previsao de desvio ou coisa parecida e ficou nisso

a amd vem desde o K7 com um L1 duplo, independente e que não copia dados da L2 (64Kdados+64Kinstruc+256/512KnaL2). Sera que agora mudaram as estrategias e viram que é melhor um L1 pequeno com previsao aperfeiçoada?

soullforged · 28 de agosto de 2010

Saindo do técnico e indo pro ramo do achismo, acho que o modelo de cache L1 64 + 64 vem desde o os K7 com a mesma estrutura. Acredito que a parte de engenharia da AMD tenha mesmo quebrado cabeça para encontrar uma forma de aproveitar melhor a forma como trabalham seus caches.

É bem provável que como o arcmatrixnt citou, os caches predicados por linha possam copiar dados diretos da L2. Porém com o nível de informação que temos até agora, nada disto passa do mais puro chute.

Vamos ter que aguardar muito ainda pra ver o desempenho do Bulldozer. Mas no geral, estou esperançoso, algo que não houve com o anúncio dos K8L, depois K10 aka Agena/Barcelona.