Ir ao conteúdo

EduardoS

Membro VIP
  • Posts

    6.875
  • Cadastrado em

  • Última visita

Tudo que EduardoS postou

  1. Ainda fico com o pé atrás em relação a boa CPU, mas a GPU realmente será boa.
  2. O problema é que boa parte dessa melhora vem da GPU, não da CPU...
  3. Quando falarem que na verdade são 1,5 bilhões de transistores eu até acredito... 2 bilhões é mais provável que 1,2 bilhões....
  4. 1,2 bilhões é muito pouco, só de cache já vai 1 bilhão, não da para fazer um módulo tão complexo com apenas 50 milhões de transistores.
  5. Os resultados peguei da pagina do SPEC, a conta foi só assumir escalabilidade por núcleo e clock sendo linear...
  6. Ta mais com cara de 4.2GHz para clock base... Ou um turbo que funcione. É GROMACS? Já publicaram os resultados do SpecFp, no GROMACS: Westmare-EP (12 núcleos, 3.46GHz): 332 Magny Cours (24 núcleos, 2.5GHz): 398 Interlagos (32 núcleos, 2.6GHz): 426 Os de cima são todos sistema 2P, para o Sandy Bridge: Sandy Bridge (4 núcleos, 3.5GHz): 127 Partindo do resultado do Interlagos será que podemos chutar o resultado do FX-8150 em 147? Partindo do Magny Cours chuto 131 para o Phenom II X6 1100T...
  7. Em servidores o Bulldozer até que se saiu bem... A performance single-thread está fraca, mas de resto está ok, passou o Westmare-EP, chegou bem perto do Westmare-EX e parece apto para competir com o Sandy Bridge-EP que será lançado ano que vem, vai ser uma briga dura, se a GF colaborar... Alguns benchs (todos com 2 soquetes e melhor resultado, a quantidade de memória varia, mas só realmente afeta os TPC): TPC-E Westmare-EX 1560,70 Westmare-EP 1284,14 Interlagos 1232,84 Magny Cours 887,38 TPC-C Westmare-EP 1024380 Interlagos 1046759 Magny Cours 705652 SAP 2 Tier Westmare-EX 36600 Westmare-EP 28480 Interlagos 31720 Magny Cours 24430 SpecInt_rate Westmare-EX 553 Westmare-EP 421 Interlagos 543 Magny Cours 430 SpecFp_rate Westmare-EX 378 Westmare-EP 274 Interlagos 403 Magny Cours 337 SPECjbb2005 Westmare-EX 1408935 Westmare-EP 975257 Interlagos 1253827 Magny Cours 981948 O mais irônico é que a performance em bancos de dados por thread até supera o Westmare-EX, a questão ai vai para o lado do licenciamento, os principais bancos de dados hoje são licenciados por núcleo, vão abrir uma exceção para o Interlagos? Se não abrirem, porde atirar no maldito marketeiro que chamou isso ai de 16-core... ele já passou pela Intel, não vai voltar. Ele saiu em agosto, não foi no corte recente, e provavelmente saiu porque qui$.
  8. Ziebert, a única coisa ai que o Sandy Bridge-EP não oferece é FMA, de resto o BD vai ter que ganhar na raça...
  9. É o mínimo que se espera... Se suas espectativas não foram muito afetadas pelos FX... Um ganho pequeno... Vai depender de outras mudanças para superar o Llano. O problema é que não é a FPU o motivo da surra nos jogos...
  10. Quero um hibrido que funcione, e não quero deixar os rins por isso e nem esperar até depois do mundo acabar...
  11. yields baixos também significam clocks baixos e pocessadores capados, o que joga o preço para baixo.
  12. Não... A vantagem de utilizar instruções SIMD é que, o espaço ocupado pelo decodificardor e agendador é muito maior que o espaço ocupado pelas unidades de execução, pela imagem abaixo da para ver isso: Em ambos os lados de onde está escrito "Floating-Point Unit" existem quatro retangulos com o topo branco, cada um desses é uma FMA de 64 bits, cada par opera em conjunto, os retangulos brancos abaixo do texto são os arquivos de registradores, o que está entre os arquivos de regsitradores as unidades MMX e acima do texto (mas ainda abaixo da linha azul) é o agendador, o decodificar fica bem em cima, é tudo que fica acima da linha azul... Duplicar a "largura" da FPU é fácil, é só duplicar as FMAs, MMXs e arquivos de registradores, fazer uma FPU de 128 bits processar duas instruções 64 bits é complicado, precisa duplicar o agendador e todo o decodificador... Pela imagem também é possível ver que, se a AMD quisesse, aumentar a FPU para 256 bits não precisaria muito espaço extra, o grande problema dessa opção parece ser o consumo, mesmo ocupando pouco espaço essas FMAs consomem mais que Cadilac desregulado...
  13. Nav01, precisão dupla são 64 bits, simples 32 bits. Contei 4 operações porque a FMAC em si consiste duas, uma multiplicação e uma adição.
  14. Vejo que tentei simplificar demais... Onde está "operação" troque por "instrução", e no caso, eram apenas instruções de soma ou multiplicação. O número de operações é um pouco maior, como as unidades são SIMD e 128 bits da 4 operações por ciclo por FMA para precisão dupla (2 somas e 2 multiplicações) ou 8 operações por ciclo por FMA para precisão simples, o folding@home usa precisão simples e, ao contrário do Cinebench, usa vetores. Não cada FMA só executa uma instrução por ciclo mas uma das instruções que ela executa (a famosa FMA) faz multiplicações e somas.
  15. Estou ciente de todos os porblemas do F@H quanto a benchmarks. ILP baixa significa dependencia de instruções é dentro da mesma thread. Com baixa ILP ambos deixarão unidades vazias, esperando que algumas instruções terminem, o SandyBridge tem latências menores que o Bulldozer por isso essas instruções terminam antes.
  16. Hum... Uns 70% é FPU. Se o HT ajuda muito é um sinal de que o ILP (a "independencia" entre as instruções) é baixo e por isso o programa deixa unidades vazias, é um dos "melhores casos" para processadores estreitos como o Bulldozer, ainda assim o ganho de 16% por thread sobre o Thuban no mesmo clock apesar das latências mais altas da FPU foi impressionante, talvez esse ganho seja mérito do subsistema de memória, em relação ao Sandy Bridge eu esperaria um desempenho por thread por clock um pouco menor, alguém tem números?
  17. Não leve os comentários do Cliff tão a sério...
  18. Li a original e depois a notícia, a AMD falou uma coisa o jornalista escreveu outra... A AMD já tinha dito que pretendia entrar nesse mercado mas a competição com os Mac Book Air seria difícil.
  19. Um transistor pode consumir de dois modos, consumo estático e dinâmico, O estático é o que ele sempre consome, é proporcional ao quadrado da tensão, "leakage" e tal, mas em geral é pequeno por transistor. O dinâmico é o que ele consome quando muda de estado, é proporcional ao quadrado da tensão e ao clock (número de mudanças de estado), esse é o principal. Caches não mudam de estado com frequência, então o consumo predominante neles é o estático, e o consumo estático é baixo, os 16MB de cache que o Bulldozer tem de L2 e L3 não devem consumir nem 10W, alias, esse é um dos motivos deles adorarem colocar mais cache em chips caros, caches consomem pouco então é uma forma fácil de aumentar a performance e performance por watt. E no caso da GPU, pelo clock e tensão mais baixa que o núcleo principal ela deve consumir bem menos, não da para comparar com o processo da TSMC porque esse não é SOI. Não encontrei o quote do Barts, enfim... Ele era mais eficiente porque era melhor balanceado, algo que também parece faltar no Bulldozer...
  20. @Zie: te respondo depois. Vocês estão contando a "FMISC" como FPU, a FMISC não faz nada comparável às FMACS do Bulldozer, nessa comparação só pode usar a FADD e FMUL, quer dizer, duas FPUs por núcleo do K10. Exatamente. No Phenom se só existir somas ele fica limitado a uma operação por ciclo, se só existirem multiplicações também, uma operação ciclo, para atingir duas operações por ciclo só se for 50% soma e 50% multiplicação, no Bulldozer as FPUs fazem as duas operações, sendo só soma são duas por ciclo, só multiplicação duas por ciclo, qualquer proporção entre uma e outra são duas operações por ciclo.
  21. A grosso modo os testes do Sandra não dizem m**** nenhuma. Esses testes que dizem "integer" usam as unidades MMX, não as unidades de inteiros. Aqui ao menos usa a unidade de inteiros. E a pergunta que fica no ar, que diabos o Sandra faz? Qual a tarefa que ele executa? Mandelbrot? Sem saber a tarefa é difícil julgar qualquer coisa. O que os benchs sintéticos fazem? É o mesmo que aplicações no mundo real? Cada núcleo possui duas ALUs, cada módulo dois núcleos, quatro ALUs. Tanto o Thuban quanto o Sandy Bridge em FPU por núcleo tem uma unidade de multiplicação e unidade de adição, o módulo do Bulldozer tem duas unidades FMAC, que podem fazer, multiplicações, adições e multiplicações fundidas com adições.
  22. 1) Não é fácil de fazer; 2) Algumas tentativas que houvi falar em outras arquiteturas foram um fiasco. Não me referi a você e nem a ninguém desse forum, mas ao Charlie que parece querer ensinar os engenheiros a fazer um processador, não é a primeira vez que ele fala mais do que deve. Estão em linhas com outros caches com mesmo clock e tamanho. Essa crítica acredito ser irrefutável... O segredo é não falar muito Não sei porque o Bulldozer é tão lento, se fosse para chutar (além da óbvia falta de clock) eu chutaria na falta de força bruta, mas não é algo que eu va insunuar que os engenheiros da AMD são incompetentes e que eu sei como consertar o Bulldozer. E o que mais me incomoda, o Charlie critica a primeira coisa que viu pela frente e que seria fácil de arrumar se fosse o problema (e, sendo assim, já teriam testado e arrumado...) sendo que testes me dizem que isso não é uma qualidade e não um problema... 12 ciclos para o Phenom II e 20 ciclos para o Bulldozer, mas o L2 do Bulldozer é maior e visa clocks mais altos. No fim, é o esperado. Compressão de arquivos se beneficiam muito de todos os caches. Ai que ta... Com 2MB de L2 ele quase sempre vai achar o que precisa no L2... Reduziria a latência em 2, 3 talvez 4 ciclos, não pela metade, e criaria mais trafico de snoop, quer dizer, se fosse tão simples, já teriam feito... Voltando ao ponto do L2, o Bulldozer tem uma estrutura de caches muitíssimo parecida com a do Pentium 4 Prescott, 16kB de L1 write-trought com 4 ciclos de latência e 2MB de L2 com 20 ciclos de latência (acredito que no P4 seja mais, algo como 27 ciclos), a lembrança do fiasco P4 faz achar que o Bulldozer é a mesma coisa, e na época até eu critiquei o cache do P4 (mas não foi só pelo cache) a estrutura também é pouco usual porque outros processadores tem 32 kb enquanto os antigos AMD tem 64kB, mas... O Bulldozer tem mais do dobro da performance de um Pentium 4 no mesmo clock no 7-zip, quer dizer, talvez quase três vezes mais, se o cache fosse problema um benchmark desses teria um resultado horrível, e parecido com o do P4 por causa das latência, mas não... O L1 do Bulldozer é pequeno (alta taxa de cache-miss) e a latência do L2 é alta (o que sugere uma penalidade alta), mas se considerar outras partes do chip: 1) No Phenom haviam muitos casos onde, quando uma operação ia para o L2 ela travava outras independentes, no Bulldozer isso quase nunca acontece; 2) No Pentium 4 uma instruções era enviada para as unidades de execução 6 ciclos antes de saber se os dados estarão disponíveis, no caso de um miss essas instruções precisavam ser reenviadas para execução ocupando o lugar de instruções úteis, no Bulldozer a instruções só é enviada para execução quando os dados estão disponíveis e ela não atrapalha ninguém enquanto espera; 3) Outras arquiteturas tem caches L1 maiores mas tem 2, 4 e até 8 threads por core, a quantidade de L1 por thread não é maior que no Bulldozer; 4) Finalmente, a quantidade de acessos simultâneos ao L2 no Bulldozer é muito alta. Conclusão, no benchmark que mais depende de um bom subsistema de memória (caches, unidades load/store, controlador de memória) mesmo bem abaixo do clock alvo o Bulldozer é tão bom ou até melhor que o Sandy Bridge, por que tanta crítica logo na área onde o Bulldozer é bom? Só por que a AMD fez diferente de tudo mundo e achou uma solução diferente (e por sinal, muito boa) para o problema?
  23. Incrível como todo mundo agora virou engenheiro... Que tal partir do pressuposto que se algo fosse fácil já teriam feito? Depois um pouco mais de base para os argumentos...

Sobre o Clube do Hardware

No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas comunidades sobre tecnologia do Brasil. Leia mais

Direitos autorais

Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

×
×
  • Criar novo...

LANÇAMENTO!

eletronica2025-popup.jpg


CLIQUE AQUI E BAIXE AGORA MESMO!