Ir ao conteúdo

aziebert

Membro Pleno
  • Posts

    353
  • Cadastrado em

  • Última visita

Tudo que aziebert postou

  1. Discordo, EduardoS. Pelo que vejo, a maioria das aplicações que usa até 4 threads dependem mais de ALU que de FPU, então faz mais sentido concentrá-los nos núcleos de poucos módulos que alocar o primeiro núcleo de cada módulo primeiro, como é feito nos i7. Mesmo se o Turbo não for suficiente para compensar o impacto no desempenho do compartilhamento de recursos do módulo, isso será muito importante nos notebooks com Trinity para economizar energia.
  2. Correto, Zeca Pagodinho. O "turbo médio" do 8120 é 3.4GHz, enquanto o "turbo máximo" é 4GHz. Assim o nosso 2x seria a 3.4GHz e o 1.8x teria um complemento de 1.17 o que dá 2.11x. Que bate com o que vemos nos testes avaliando o comportamento do Bulldozer no Windows 8, cerca de 10% de ganho. Com possibilidade de aumentar mais um pouquinho se o programa compartilhar muitos dados entre os threads (o que será feito pelo cache L2).
  3. Zeca Pagodinho, como o EduardoS falou há algumas páginas, esse "HT reverso" não funcionaria pois programas single thread dificilmente tem ILP (Instruction Level Paralelism) suficiente para aproveitar um monte de unidades de execução. edit: mais algumas considerações sobre os números acima. Esses são índices máximos/teóricos/ideais. Na prática (na maioria dos casos) o rendimento de 2 threads rodando em 2 núcleos do mesmo módulo fica entre 1.4x e 1.5x Bem melhor que o ganho do Hyper Threading (2 threads rodando dentro do mesmo núcleo) que dá no máximo 1.3x mas na média dá 1.15x. O tio JF fez umas estimativas nesse sentido, quem quiser ver: http://www.xtremesystems.org/forums/showthread.php?267050-What-to-Expect-From-AMD-at-ISSCC-2011&p=4755711#post4755711 E o behardware fez testes práticos (inclusive comparando o ganho do CMT do Bulldozer com o do HT do SandyBridge e os 2 núcleos físicos a mais de um Phenom II X6 (contra um Phenom II X4): http://www.behardware.com/articles/842-9/amd-fx-8150-and-fx-6100-bulldozer-arrives-on-am3.html Esse teste ilustra isso à perfeição (alias, ainda não porque todos os testes foram feitos com clock padrão e o Turbo desligado, se fosse feito no Windows 8 com o Turbo ligado, em vários casos a coluna da direita seria superior a 100%) Observe que ao rodar um programa de 4 threads nos 4 núcleos de 2 módulos (coluna da direita) contra rodar os mesmos 4 threads em 1 núcleo de cada módulo (o segundo núcleo de cada módulo estava desabilitado, coluna do meio) houve muito pouca perda (em média menos de 20%). Enquanto que ao rodar programas heavy multithread em 4 núcleos, cada um em um dos 4 módulos (coluna do meio), e usando todos os núcleos (8 núcleos, 4 módulos, coluna da esquerda) houve ganhos substanciais (em média 40%). Os poucos casos onde a coluna da esquerda é inferior a 100% são os que esse patch do Windows 7 visa corrigir.
  4. Hausak, desculpe mas acho que você entendeu justamente o contrário. Supondo um programa de 2 threads. Dar preferência a executar um thread em um núcleo de cada módulo não necessariamente sempre traz benefícios (em desempenho). Pois se dois threads forem executados nos dois núcleos do mesmo módulo perderão muito pouco rendimento (versus em um núcleo de cada módulo) e poderão compartilhar dados pelo cache L2. Da mesma forma, se forem executados em um núcleo de cada módulo, ganharão muito pouco rendimento, mas não poderão compartilhar dados pelo L2 e sim pelo L3 (mais lento). Foi o caso do WinRAR (que usa apenas 4 threads e depende muito do compartilhamento de dados) que perdeu desempenho com o patch. Além disso, como o Windows 8 estará preparado para aproveitar corretamente os Bulldozer, dando preferência a executar os threads nos núcleos do mesmo módulo, mantendo os demais módulos completamente desligados para fazer Turbo nos módulos ativos. edit: uns números para exemplificar cada caso: (obs: são minhas estimativas/chutes, não leve muito a sério) Supondo que 1x seja o rendimento de 1 thread em usando um núcleo de um módulo só para si (o segundo núcleo do módulo está ocioso) Com 2 threads em um núcleo de cada módulo teríamos um rendimento teórico de 2x Com esses mesmos 2 threads em 2 núcleos do mesmo módulo, segundo a AMD teríamos um rendimento de 1.8x Mas fazendo isso (supondo que os demais módulos estão ociosos/desligados) podemos aproveitar o Turbo ao máximo, o que (dependendo do processador) pode nos dar um ganho de 29% (de 3.1GHz para 4GHz no FX-8120, por exemplo), portanto em vez de 1.8x teríamos 1.8x 1.29 = 2.32x Ou seja, a estratégia de usar primeiro ambos núcleos de cada módulo (mantendo os demais desligados para poder fazer Turbo nos núcleos ativos, a estratégia que será usada pelo Windows 8) apresenta um rendimento 32% maior que usando 2 núcleos em módulos separados (com cada thread tendo um módulo todo para si, que é o que esse patch para o Windows 7 propoe) Sim, mas são muito raros os programas que usam muita FPU em poucos threads. É mais provável que os programas que usam muita FPU usem todos os núcleos/threads do processador. Alias, acho que o WinRAR é um desses poucos casos.
  5. Hausak, fazer núcleos em módulos diferentes compartilharem dados pelo L3 com a mesma velocidade de núcleos dentro do mesmo módulo compartilham pelo L2 é meio que impossível, o L3 é mais lento porque é maior e acessado por vários núcleos, enquanto o L2 é menor e acessado por apenas 2 núcleos... O problema não é a arquitetura, mas o agendador do Windows. Esse patch não é ideal mas vejo como uma solução simples da Microsoft para oferecer um pouco de ganho aos usuários do Bulldozer. O Windows 8 é que será capaz de aproveitá-los corretamente, "preenchendo" os módulos antes de acordar os demais. Como a penalidade por utilizar ambos núcleos dentro do módulo é pequena (há pouca diferença de desempenho entre 2 threads rodando em um núcleo de cada módulo ou nos dois núcleos do mesmo módulo) e assim o Turbo poderá ser melhor aproveitado, essa estratégia trará mais desempenho e menor consumo de energia.
  6. Pelo que eu vi esse patch faz o windows reconhecer os Bulldozer como 4 núcleos / 8 threads e adota a mesma estratégia dos i7: aloca um processo para o primeiro núcleo de cada módulo antes de começar a usar o segundo núcleo de cada módulo. O que é justamente o contrário do que a AMD recomenda... Alguns casos podem se beneficiar ligeiramente dessa estratégia, já que programas que usam até 4 threads, cada thread terá um módulo inteiro para si. Mas isso não fará com que o processador aproveite muito mais o Turbo. Pelo visto isso só acontecerá no Windows 8 mesmo. Agora o que me preocupa é que em alguns casos ele pode perder desempenho. Tudo bem que são menos comuns que os casos onde o patch trará benefícios, mas no WinRAR, por exemplo, que usa poucos threads e depende de muita comunicação entre eles. Antes dependia um pouco da sorte, de coincidir dos threads caírem em núcleos vizinhos (do mesmo módulo) assim eles podiam compartilhar dados pelo cache L2 do módulo. Agora é certeza que isso não vai acontecer, os threads vão cair um em cada módulo e eles terão que compartilhar dados pelo cache L3 (bem mais lento). O resultado (abaixo), o desempenho no Winrar caiu pela metade! http://www.octeamdenmark.com/forums/nyheder/9028-microsoft-klar-med-hotfix-til-bulldozer.html edit: Por outro lado, há relatos de melhora em jogos. Média e máxima não mudaram, mas o FPS mínimo aumentou: http://www.overclock.net/t/1185039/the-1st-windows-7-scheduler-patch-results-are-in-have-fun edit 2: o ht4u fez vários testes com e sem o patch, os resultados flutuam bastante (vários ganharam, vários perderam desempenho): http://ht4u.net/news/24857_patch_soll_bulldozer_unter_windows_7_beschleunigen_-_ergebnisse_enttaeuschen/
  7. Dick Trace, eu ainda estou esperando uma versão OpenCL do 7zip...
  8. Eriberto, se você já tem uma placa mãe AM3+ acho que vale a pena pegar um Bulldozer sim. Mas se vai trocar o conjunto é melhor ir de SandyBridge, qualquer um (eu tenho um i3 e estou satisfeitíssimo).
  9. Eriberto, o Llano e o Zambezi são feitos na mesma foundry....
  10. Pra animar a garotada:
  11. jonny, acho que não, segundo os roadmaps o Terramar ainda seria uma CPU (com PCIe e HTT integrados, assim finalmente poderá usar os 4 links HTT para comunicação com outros processadores, em vez de desperdiçar um para comunicação com o chipset), mas isso pode ter mudado. O jeito é esperar até fevereiro.
  12. telminão, não gostei dessa história dos processadores AMD não terem nome (serem chamados apenas de A4, A6, A8, etc), por mim o nome deles deveria ser AMD Fusion A4, A6 e A8. A "marca" Fusion é muito forte e a AMD já vinha fazendo hype dela há muito tempo ("The future is Fusion", lembram?) para na hora de lançar simplesmente jogarem fora....
  13. Se ele é o responsável pelas APUs não se chamarem AMD Fusion (nome comercial do produto), já foi tarde!
  14. Senhores, não tenho acompanhado o tópico, mas acho que esse artigo/notícia do VR-Zone cai bem aqui: http://vr-zone.com/articles/mips-architecture-crashes-arm-x86-party-28nm-chips-to-operate-at-1.5ghz-run-android-4.0-ics/14170.html abrir com www.kproxy.com ou semelhante Um tabletinho de 7", com tela capacitiva, processador rápido e eficiente (não sei como a arquitetira MIPS se comporta, mas só ouço falar bem, pena que é single core. Também não conheço a GPU, mas garantem que consegue tocar vídeos FullHD) com TDP de 0.25w (o Tegra2, por exemplo, tem TDP de 0.5w). Tudo isso por 100 dólares e rodando Android 4.0. Preveem um volume tão grande que ele não será vendido fora da China até o meio do ano. Outro detalhe interessante, o SoC é feito no processo de 28nm SLP (Super Low Power) da unidade 1 de Dresden da Global Foundries. Esse processo não é SOI mas usa material High-K e Metal Gates. Não achei nada conclusivo, mas parece que as primeiras GPUs Radeon HD 7000 (para notebooks) são feitas nesse processo.
  15. jonny, acho que é justamente o contrário. O Trinity é esperadíssimo, pois será o carro chefe da AMD para combater o IvyBridge nos notebooks. Ele precisa ser muito bom!
  16. Isso mesmo, o Trinity estreará os módulos/núcleos Piledriver. É uma atualização da arquitetura Bulldozer, que deve trazer aqueles 10 a 15% de melhora em performance/watt. Além das revisões na arquitetura (incremento de IPC, conserto de algumas cagadas do Bulldozer e implementação de novas instruções), agora que o processo de 32nm está mais maduro e a AMD pegou as manhas dele, espera-se que esses processadores possam atingir os clocks que a arquitetura precisa para obter um rendimento ótimo. Mas nada se sabe sobre os clocks deles ainda. O melhor que temos até agora é essa tabela (abaixo) que vazou de algum documento da AMD. Mas lembro de ter visto uma semelhante sobre o Bulldozer e os clocks não tinham nada a ver com os dos modelos lançados... Quanto a novas instruções, se não me engano além de FMA4 o Piledriver trará suporte a FMA3, assim pelo menos quando os programas forem otimizados para FMA3 (presente no Haswell) os AMDs também se beneficiarão.
  17. wencell, o A4 é uma APU (com GPU capada mas funcionando). Acho que os Athlon para FM1 eram só para OEMs.
  18. jonny_br a Fusion-IO faz SSDs PCIe com um controlador próprio nervoso. Não tem nada a ver com os Revodrive da OCZ, por exemplo, que embora esteja tudo na mesma placa tem uma controladora RAID e SSDs SATA. Eles não dão boot, ma ninguém reclama, essas belezinhas são usadas para guardar bancos de dados, para editar filmes de alta definição, etc. Por curiosidade, o lendário Steve Wozniak (co-fundador da Apple) trabalha como consultor na Fusion-IO. E para colocar em perspectiva a monstruosidade que são 1.1 milhões de IOps. Um SSD com controlador Sandforce 2000 (SATA3, desses que fazem 550MB/s) faz no máximo 85k IOps. Meu Intel X25-M G2 faz 10k... E um HD faz umas 100 IOps...
  19. EduardoS, mas qual a vantagem de ter um "Windows de verdade" rodando embaixo do Metro no Win8 para ARM, em vez de um Win CE (teoricamente mais eficiente para dispositivos móveis) ?
  20. telminão, o Windows para ARM é outro bicho totalmente diferente, deve ter Windows Mobile rodando lá embaixo, como no Windows Phone 7.
  21. @johannesrs http://www.tomshardware.com/reviews/fx-8150-zambezi-bulldozer-990fx,3043-23.html @ViX, pode ser que o Windows 8 beneficie alguma particularidade do Crysis. Seria interessante realizar o mesmo teste num FX. No caso dos Core i* meu medo é que o Windows 8 acabe piorando o desempenho, se o agendador novo for muito agressivo em questão de economia de energia pode querer concentrar processos nos dois threads do mesmo núcleo (enquanto o Windows 7 usa sempre o primeiro thread de cada núcleo antes de começar a usar o segundo).
  22. Gun, em alguns casos o ganho é significativo (cerca de 10%), principalmente jogos.
  23. Acho que nao, viu. Agendador otimizado para Bulldozer só no win8 mesmo.
  24. Os Bulldozer não estão necessariamente vendendo horrores, é mais uma questão de que o fornecimento de Phenom foi interrompido/severamente reduzido, a disponibilidade de FX é pequena, então o que chega sai e o fornecimento de Llano embora esteja aumentando, muita gente ainda não conhece ou tem receio de adotar a plataforma. Parece que o Yield do processo de 32nm já está bom (ou pelo menos razoável) então finalmente a AMD tem controle sobre quanto de quais processadores ela pode oferecer no mercado, as coisas tendem a se estabilizar nos próximos meses.
  25. Pistigrilo, acho que o problema não é esse, é que em aplicações que usam poucos núcleos o Bulldozer é mais lento que um Phenom II...

Sobre o Clube do Hardware

No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas comunidades sobre tecnologia do Brasil. Leia mais

Direitos autorais

Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

×
×
  • Criar novo...

Ebook grátis: Aprenda a ler resistores e capacitores!

EBOOK GRÁTIS!

CLIQUE AQUI E BAIXE AGORA MESMO!