Ir ao conteúdo
  • Cadastre-se

AMD Barcelona


Evandro

Posts recomendados

  • Membro VIP

Perae.. os quad batem os dual "lineramente", pontuação marromenos dobrada.

O teste que o EduardoS colocou (muito obrigado !) tem uma pontuação próxima ao da notícia, e o "current processor" mandou 42 mil pontos com menos clock e os mesmos 4 núcleos ?

É johanners, teus cálculos vão acabar bem mais rápido hehehehehe

E mesmo sendo o Sandra, é um bom indicativo ou não esse resultado ?

Ainda acho que vem mais logo logo.. jaja vou ver o que o fudzilla tem..

EDIT-

Acho que essa semana vai ser agitada, para as VGAs..

Link para o comentário
Compartilhar em outros sites

bom, eu não espero muito porque, pelo q eu lembro de ter visto algum tempol atrás, boa parte das novidades dos K10 seríam equivalentes às novidades dos Core2.

Basicamente, o "grosso" mesmo da diferença estaria "apenas" na controladora interna de memória.

Como essa era a diferença K8 X P4 e nem lá se tinha DOBRO de performance... A AMD teria q estar tirando leite de pedra "só" pelo fato de ser quad-nativo.

Dado q, até onde eu sei, o SANDRA em si NÃO É um teste em paralelo, correto?

Sim, Xita, na minha FASN8 que é meu sonho de consumo atual os cálculos íam acabar rapidinho... :)

e também acho q esta semana não vem mais nada de notícia quente de cpu (exceto corte de preços da "concorrente"), só gpu... :P

Link para o comentário
Compartilhar em outros sites

Basicamente, o "grosso" mesmo da diferença estaria "apenas" na controladora interna de memória.

a senhorr estarr ignorrando a barrramento de comunicação do prrocessadorra?

na época dos k8 vs p4 o fsb ainda dava conta, na época do x2 vs PD ficou grave, e hoje essa gravata está mais apertada e a situação tende a piorar com o aumento do número de núcleos

dependendo de como o sandra se beneficiou do novo kit "L3 + IMC nova" esse resultado pode estar super inflado

como eu citei sobre o bench do meu Sempron, pode significar uma vantagem peculiar apenas... que pode não acontecer na hora que vier um programa de verdade

-------

Edit, aproveitando que meu post ainda é o último:

vi pelo ss que o clock de base é 266... se eu pegar uma mobo am2 (no caso do não-FX) com default no bios e por esse processador, ele vai por 266... não corre risco de "puf" na placa-mãe se o mult do htt estiver no valor padrão?

Link para o comentário
Compartilhar em outros sites

  • Membro VIP
depende muito do ponto de vista e do otimismo

eu sou otimista, acredito que é um bom presságio, mas apóio quem disser "ninguém vai comprar um processador pra ficar rodando sandra 24h por dia"

Você vai? :lol:

Brincadeiras a parte o Sandra não serve para nada, quando lançaram o Core 2 alguns testes do Sandra diziam que ele era de 2 a 3 vezes mais rápido que um X2 de mesma frequência, por coincidência eram os testes de multimídia.

bom, eu não espero muito porque, pelo q eu lembro de ter visto algum tempol atrás, boa parte das novidades dos K10 seríam equivalentes às novidades dos Core2.

E realmente são, pega o melhor que o K-8 tem com o melhor que o Core 2 tem... Deve dar algo bom não é? Só faltou igualar a quantidade de cache.

Basicamente, o "grosso" mesmo da diferença estaria "apenas" na controladora interna de memória.

Como essa era a diferença K8 X P4 e nem lá se tinha DOBRO de performance... A AMD teria q estar tirando leite de pedra "só" pelo fato de ser quad-nativo.

A AMD citou 20% no SpecInt e 50% no SpecFp no mesmo clock para uma workstation com 2 quad-core, apesar de parecer alto não é tanta coisa assim.

Mesmo o Anand dizendo o contrário, o K-8 não é um processador fraco, contra dois Woodcrest no mesmo clock ele lidera o SpecFp e perde por pouco no SpecInt, um ganho de 25% em cada é suficiente para atingir o que a AMD diz.

O Cloverton esta longe de ser perfeito, o FSB atrapalha bastante e ele não consegue bater 8 núcleos do K-8 no mesmo clock, e isso que para ter 8 núcleos precisa de 4 sockets, uma configuração que não é tão perfeita assim, 8 núcleos em apenas 2 sockets (Quad core nativo) seria bem melhor.

Os 10%-15% que vão faltar para completar o que a AMD diz vem das melhoras nos núcleos (nem tanto no L3 ou controladora de memória).

Sobre o desempenho dos desktops a AMD ainda não disse nada, mas da para imaginar como vai ser clock por clock, nos benchs onde o K-8 ja era mais rápido o Agena não vai trazer grande ganho, nos benchs que abusam das SSEx (audio, video, photoshop, etc) ele mata a vantagem do Core 2, a diferença de um para outro pode variar, ele deve conseguir boa vantagem onde é usado ponto-flutuante, mas onde for usado inteiros não da para ter certeza, nos jogos o L3 e a controladora devem ajudar, um L2 com uma latência um pouco menor tambem, e quem sabe ainda sobra algum trabalho para as melhoras no núcleo, mas o L2 do core 2 ainda é maior e não da para ter certeza que o Agena vai conseguir superar essa diferença, vai depender do jogo, na média deve superar.

Dado q, até onde eu sei, o SANDRA em si NÃO É um teste em paralelo, correto?

Errado, o resultado do Sandra é proporcional ao clock e ao número de núcleos (exceto se tiver HyperThreading).

dependendo de como o sandra se beneficiou do novo kit "L3 + IMC nova" esse resultado pode estar super inflado

Não se beneficiou, um dos motivos que o Sandra não serve para nada é que ele roda todo a partir do L1 (pouco comum em aplicações reais).

vi pelo ss que o clock de base é 266... se eu pegar uma mobo am2 (no caso do não-FX) com default no bios e por esse processador, ele vai por 266... não corre risco de "puf" na placa-mãe se o mult do htt estiver no valor padrão?

Existe a possibilidade do ss estar errado...

Link para o comentário
Compartilhar em outros sites

e, infelizmnete, já foi divulgado no dailytech q esse xcreen é fake.

legal é q o screen antigo, só com o cpu-z e sem benchs, o "repórter" jura q ainda apóia os caras q enviaram pra ele.

mas interessante saber q o sandra saberia aproveitar os n núcleos. :)

em suma: após o lançamento dos barcelona e agena, a intel vai ter que apelar pra política de preços porque os processadores serão mais ou menos equivalente segundo o esperado em aplicações reais.

suponto porém uma vantagem significativa, pelo menos 20% pra amd, isso vai dar folego pra amd poder não ter q reduzir preços com excesso de violência mais.

Pelo bem do projeto Fusion: q o Barcellona venha e venha bem!

obs.: qual a data q vocês esperam pro lançamento oficial? ou será q a amd vai esperar até a computex (esperado) pra só APRESENTAR eles (desastre!)?

Link para o comentário
Compartilhar em outros sites

Novidades. Boas e Ruins:

Novidades Boas:

Plataforma móvel pra atacar Santa Rosa: http://www.theinquirer.net/default.aspx?article=39691

Mais das placas-mãe pra K10; PCI-E 20.0: http://www.theinquirer.net/default.aspx?article=39690

AMD Performance Library para Quad-Cores (Barcellona?) em testes: http://www.theinquirer.net/default.aspx?article=39686

Novidades Ruins:

Barecellona adiado (NÃÃÃÃOOOOO!!!!!)????: http://www.fudzilla.com/index.php?option=com_content&task=view&id=1029&Itemid=1

Xeon Quad Core 45nm na Computex: http://www.fudzilla.com/index.php?option=com_content&task=view&id=1025&Itemid=1

Link para o comentário
Compartilhar em outros sites

Minha esperança: q realmnete toda a plataforma nova da AMD seja páreo não pra plataforma atual da intel, mas pra próxima.

infelizmente, a amd vai obrigar até EU a ter kentsfield em casa desse jeito... e olha q eu queria era um agena fx, fasn8! :P

mas essa ideia de plataforma é ótima. se bem q não goste de notes e gostar ainda menos da ideia deles baixando de preço e destroçando o mercado desktop...

mas até agora a amd tá negando o atraso...

Link para o comentário
Compartilhar em outros sites

Fudzilla também diz q vai atrasar o barcellona.

mas também diz q os phenom x4 e fx estão "on schedule" e q os phenom x2 vão ADIANTAR pra este natal ainda! :D

http://www.fudzilla.com/index.php?option=com_content&task=view&id=1045&Itemid=1

http://www.fudzilla.com/index.php?option=com_content&task=view&id=1045&Itemid=1

Em todo o caso, isso significa que o meu PC novo está ficando bem estrangulado de tempo também, e q só um milagre nos permitirá a compra de um cluster de Barcellonas em função desses atrasos... :(

Link para o comentário
Compartilhar em outros sites

Notícia "Boa"; NÚMEROS!

Hard Barcelona numbers appear

AMD HAD A little briefing today with a demo of Barcelona. The systems it showed were identical 4S AMD development platforms running DDR2 memory and HE (65W) chips. Nothing was changed between the two platforms other than the BIOS.

The Opteron machine on the left was started first and the Barcelona box finished in far less time. The raw results were about 2200 pixels per second on the Opteron while the Barcelona hit "just over" 4000 on the POV Bench.

Double the cores, same memory bandwidth, no speeds given. Not being a POV expert, I can't say how it scales, or really relate this to much. As an exercise for our readership, can someone work this backwards and tell me about what the clocks here are?

Bom, é bom ver algum número, mas é ruim ver esses números pra mim. A priori, estamos falando que o Barcellona com 4 núcleos nesse bench foi APENAS 82% mais rápido que um Opteron de 2 núcleos, sob condições absolutamente equivalentes.

Alguém aí sabe o quanto o quad-core da intel ganha em cima dos seus dual-core, pra gente começar a fazer projeções?

Além disso:

K10, Barcelona to start shipping in Q3

Not in late Q2

Sourcesclose to the company confirmed that the next generation Opteron, also known as Barcelona, won't start shipping in late Q2 as some expected.

Q3 sounds more realistic as AMD is still working to ramp out the production and the silicon is already out for a while. Q3 will definitely mean the start of recovery for AMD and by late Q3 the company should be getting back in shape.

Ou seja, os K10 devem sair virtualmente ao mesmo tempo que a intel reduzir seus preços mesmo... :(

Link para o comentário
Compartilhar em outros sites

é um programa de renderização, q q eu saiba é sofisticado ao ponto de merecer paralelização.

Mas os testes postados pelo Eduardo mostram que não dá pra usar o povRay muito como teste... Se bem, pelo q tá mostrado, voltam as esperanças de minha parte dom os Barcellonas.

Pena q eles tão demorando tanto, SACO! :P

Link para o comentário
Compartilhar em outros sites

Novidades: C2Q NÃO PRESTA pra atividades q tenham muita transferência de dados entre os 4 cores por causa do, adivinhem, FSB.

Isso quer dizer q: Os Barcellona e os Phenon FX e X4 estão se tornando opções bem melhores, *especialmente* pra nós, usu[ários de programas de simulação como o próprio GROMACS:

GROMACS not scaling well with Core4 Quad technology CPUs

Can anybody give me any ideas which might help me optimize my new cluster for a more linear speed increase as I add computing cores? The new intel Core2 CPUs are inherently very fast, and my mdrun simulation performance is becoming asymptotic to a value only about twice the speed I can get from a single core.

I have included the log output from mdrun_mpi when using 5 cores at the foot of this email. But here is the system overview

My cluster system which comprises two computers running Fedora Core 6 and MPI-GAMMA. Both have Intel Core2 CPUs running at 3GHz core speed (overclocked). The main machine now has a sparkling new Core2 Quad 4-processor CPU and the remote still has a Core2-duo dual core CPU.

Networking hardware is crossover CAT6 cables. The GAMMA software is connected thru one Intel PRO/1000 board in each computer, with MTU 9000. A Gigabit adapter with Realtek chipset is the primary Linux network in each machine, with MTU 1500. For the common filesystem I am running NFS on a mounted filesystem with "async" declared in the exports file. The mount is /dev/hde1 to /media and then /media is exported via NFS to the cluster machine. File I/O does not seem to be a bottleneck.

With mdrun_mpi I am calculating a 240aa protein and ligand for 10,000 time intervals. Here are the results for various combinations of one, two, three, four and five cores.

One local core only running mdrun:      18.3 hr/nsec    2.61 Gflops
Two local cores: 9.98 hr/nsec 4.83 Gflops
Three local cores: 7.35 hr/nsec 6.65 Gflops
Four local cores (one also controlling) 7.72 hr/nsec 6.42 Gflops
Three local cores and two remote cores: 7.59 hr/nsec 6.72 GFlops
One local and 2 remote cores: 9.76 hr/nsec 5.02 GFlops

I get good performance with one local core doing control, and three doing calculations, giving 6.66 Gflops. However, adding two extra remote cores only increases the speed a very small amount to 6.72 Gflops, even though the log (below) shows good task distribution (I think).

Is there some problem with scaling when using these new fast CPUs? Can I tweak anything in mdrun_mpi to give better scaling?

Sincerely

Trevor

------------------------------------------

Trevor G Marshall, PhD

School of Biological Sciences and Biotechnology, Murdoch University, Western Australia

Director, Autoimmunity Research Foundation, Thousand Oaks, California

Patron, Australian Autoimmunity Foundation.

------------------------------------------

        M E G A - F L O P S   A C C O U N T I N G

Parallel run - timing based on wallclock.
RF=Reaction-Field FE=Free Energy SCFE=Soft-Core/Free Energy
T=Tabulated W3=SPC/TIP3p W4=TIP4p (single or pairs)
NF=No Forces

Computing: M-Number M-Flops % of Flops
-----------------------------------------------------------------------
LJ 928.067418 30626.224794 1.1
Coul(T) 886.762558 37244.027436 1.4
Coul(T) [W3] 92.882138 11610.267250 0.4
Coul(T) + LJ 599.004388 32945.241340 1.2
Coul(T) + LJ [W3] 243.730360 33634.789680 1.2
Coul(T) + LJ [W3-W3] 3292.173000 1257610.086000 45.6
Outer nonbonded loop 945.783063 9457.830630 0.3
1,4 nonbonded interactions 41.184118 3706.570620 0.1
Spread Q Bspline 51931.592640 103863.185280 3.8
Gather F Bspline 51931.592640 623179.111680 22.6
3D-FFT 40498.449440 323987.595520 11.7
Solve PME 3000.300000 192019.200000 7.0
NS-Pairs 1044.424912 21932.923152 0.8
Reset In Box 24.064040 216.576360 0.0
Shift-X 961.696160 5770.176960 0.2
CG-CoM 8.242234 239.024786 0.0
Sum Forces 721.272120 721.272120 0.0
Bonds 25.022502 1075.967586 0.0
Angles 36.343634 5924.012342 0.2
Propers 13.411341 3071.197089 0.1
Impropers 12.171217 2531.613136 0.1
Virial 241.774175 4351.935150 0.2
Ext.ens. Update 240.424040 12982.898160 0.5
Stop-CM 240.400000 2404.000000 0.1
Calc-Ekin 240.448080 6492.098160 0.2
Constraint-V 240.424040 1442.544240 0.1
Constraint-Vir 215.884746 5181.233904 0.2
Settle 71.961582 23243.590986 0.8
-----------------------------------------------------------------------
Total 2757465.194361 100.0
-----------------------------------------------------------------------

NODE (s) Real (s) (%)
Time: 408.000 408.000 100.0
6:48
(Mnbf/s) (GFlops) (ns/day) (hour/ns)
Performance: 14.810 6.758 3.176 7.556

Detailed load balancing info in percentage of average
Type NODE: 0 1 2 3 4 Scaling
-------------------------------------------
LJ:423 0 3 41 32 23%
Coul(T):500 0 0 0 0 20%
Coul(T) [W3]: 0 0 32 291 176 34%
Coul(T) + LJ:500 0 0 0 0 20%
Coul(T) + LJ [W3]: 0 0 24 296 178 33%
Coul(T) + LJ [W3-W3]: 60 116 108 106 107 86%
Outer nonbonded loop:246 42 45 79 85 40%
1,4 nonbonded interactions:500 0 0 0 0 20%
Spread Q Bspline: 98 100 102 100 97 97%
Gather F Bspline: 98 100 102 100 97 97%
3D-FFT:100 100 100 100 100 100%
Solve PME:100 100 100 100 100 100%
NS-Pairs:107 96 91 103 100 93%
Reset In Box: 99 100 100 100 99 99%
Shift-X: 99 100 100 100 99 99%
CG-CoM:110 97 97 97 97 90%
Sum Forces:100 100 100 99 99 99%
Bonds:499 0 0 0 0 20%
Angles:500 0 0 0 0 20%
Propers:499 0 0 0 0 20%
Impropers:500 0 0 0 0 20%
Virial: 99 100 100 100 99 99%
Ext.ens. Update: 99 100 100 100 99 99%
Stop-CM: 99 100 100 100 99 99%
Calc-Ekin: 99 100 100 100 99 99%
Constraint-V: 99 100 100 100 99 99%
Constraint-Vir: 54 111 111 111 111 89%
Settle: 54 111 111 111 111 89%

Total Force: 93 102 97 104 102 95%


Total Shake: 56 110 110 110 110 90%


Total Scaling: 95% of max performance

Finished mdrun on node 0 Sun May 27 07:29:57 2007

Hi Trevor,

It's probably due to memory bandwidth limitations, as well as Intel's design.

Intel managed to get quad cores to market by gluing together two dual-core chips. All communication between them has to go over the front side bus though, and all eight cores in a system share the bandwidth to memory.

This can become a problem when you're running in parallel, since all eight processes are communicating (=using the bus bandwidth) at once, and have to share it. You will probably get much better performance by running multiple (8) independent simulations.

Essentially, there's no such thing as a free lunch. Intel's quad-core chips are cheap, but have the same drawback as their first generation dual-core chips. AMD's solution with real quad-cores and on-chip memory controllers in Barcelona is looking a whole lot better, but I also expect it to be quite a bit more expensive.

You might want to test the CVS version for better scaling. The lower amount of data communicated there might improve performance a bit for you.

Cheers,

Erik

Link para o comentário
Compartilhar em outros sites

  • Membro VIP

Sem querer defender o FSB mas...

O problema do cara acima não parece estar relacionado a banda de memória, e sim a forma que ele configurou o cluster dele para rodar o Folding@Home.

A sim, o FSB segura bastante o Cloverton, vai ser fácil para o Barcelona no mercado de servidores.

Os Nehalem prometem, vamos ver como vai ser a briga com os Shangai daqui a pouco mais de um ano (data de lançamento prevista para os dois...).

Link para o comentário
Compartilhar em outros sites

q raio de programa q te prende, evandro?

mas acho q o proglema não é esse não, eduardo. existe um "problema"! no gromacs paralelo q ele entope muito fácil uma rede gigabit de transferência de dados entre os nodos em cada passada de simulação. o cúmulo é a fsb ter o mesmo problema! estamos falando do gromacs rodando entre os cores de uma única m´quina, é ridícula essa performance, e igual a q se tem em rede gigabit sem o "ordered-all-to-all" (desenvolvido pro gromcas só ESTE ano) aplicado. :P

Desse jeito, meu próximo micro tem mais chances de ser um phenom. FX dual processado, ou "só" X4? :D

e duas semanas ainda pra computex.... :(

Link para o comentário
Compartilhar em outros sites

Arquivado

Este tópico foi arquivado e está fechado para novas respostas.

Sobre o Clube do Hardware

No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas comunidades sobre tecnologia do Brasil. Leia mais

Direitos autorais

Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

×
×
  • Criar novo...

 

GRÁTIS: ebook Redes Wi-Fi – 2ª Edição

EBOOK GRÁTIS!

CLIQUE AQUI E BAIXE AGORA MESMO!