Ir ao conteúdo

Posts recomendados

Postado

Os modelos 1090T e 1100T não estão sendo mais fabricados?

Antes do lançamento dos FX eu achava o 1090t por R$385 agora to achando por R$500 estou encontrando mais os modelos 1055T e 1075T no centro do RJ, FX 8120 ta saindo por R$460.

Postado
Os modelos 1090T e 1100T não estão sendo mais fabricados?

Antes do lançamento dos FX eu achava o 1090t por R$385 agora to achando por R$500 estou encontrando mais os modelos 1055T e 1075T no centro do RJ, FX 8120 ta saindo por R$460.

A essa altura a AMD já parou de fabricar tudo não-bulldozer. Tinha saido uma roadmap anunciando exatamente isso. Acho que pararam no fim do ano passado (ou, no máximo, devem parar ainda nesse trimestre).

Postado
A essa altura a AMD já parou de fabricar tudo não-bulldozer. Tinha saido uma roadmap anunciando exatamente isso. Acho que pararam no fim do ano passado (ou, no máximo, devem parar ainda nesse trimestre).

Estão anunciando corte de preços no Phenom II X4 980, mas aonde encontro pra vender, porque no máximo que vi, foi um 970

Postado
Estão anunciando corte de preços no Phenom II X4 980, mas aonde encontro pra vender, porque no máximo que vi, foi um 970

Olá,

Aqui no Brasil é difícil só chegam as sobras....O Phenom II X6 1035T de 95W simplesmente eu nunca vi a venda aqui...Outro é o A8-3850 rarissimo no lançamento, agora meio que invisivel......

Abraços,

Postado
Estão anunciando corte de preços no Phenom II X4 980, mas aonde encontro pra vender, porque no máximo que vi, foi um 970

Eu já vi o Phenom II X4 975 BE à venda, mas é raro mesmo. O Phenom II X4 980 BE é elefante branco, igual o Athlon XP 3200+ na época dele. Todo mundo sabe que existe, mas poucos foram os felizardos a ver de perto.

Postado

Análise da arquitetura Bulldozer do ponto de vista de um desenvolvedor de software:

Bottlenecks in AMD Bulldozer by Agner:

The AMD Bulldozer is a major redesign of previous microarchitectures. Some of the most

important improvements are:

• Four pipelines giving a maximum throughput of 4 instructions per clock cycle.

• Improved floating point unit with high throughput

• Better scheduling of macro-ops to the first vacant execution unit

• Some register-to-register moves are translated into register renaming

• Branch prediction is no longer tied to the code cache and there is no limitation on the

number of branches per code cache line

• AVX instruction set with non-destructive 3-operand instructions

• Efficient fused multiply-and-add instructions (FMA4)

Various possible bottlenecks are discussed in the following paragraphs.

Power saving

The power saving features are reducing the clock frequency most of the time. This often gives inconsistent results in performance tests because the clock frequency is varying. It is sometimes necessary to put a long sequence of CPU-intensive code before the code under test in order to measure the maximum performance.

Shared resources

The instruction fetch and decoding circuitry is shared between the two cores that make a compute unit. The branch predictor and the floating point units are also shared. Some operating systems are not aware of this so that they may put two threads into the same compute unit while another compute unit is idle.

Instruction fetch

The shared instruction fetch unit can fetch up to 32 bytes per clock cycle or 16 bytes per core. This may be a bottleneck when both cores are active or when frequent jumps produce bubbles in the pipeline.

Instruction decoding

The decode unit can handle four instructions per clock cycle. It is alternating between the two threads so that each thread gets up to four instructions every second clock cycle, or two instructions per clock cycle on average. This is a serious bottleneck in my tests because the rest of the pipeline can handle up to four instructions per clock.

The situation gets even worse for instructions that generate more than one macro-op each.The decoders cannot handle two double instructions in the same clock cycle. All instructions that generate more than two macro-ops are handled with microcode. The microcode sequencer blocks the decoders for several clock cycles so that the other thread is stalled in the meantime.

Out-of-order scheduling

The integer out-of-order scheduler has 40 entries, the shared floating point scheduler probably has somewhat more. This is a significant improvement over previous designs.

Execution units

The integer execution units are poorly distributed between the four pipes. Two of the pipes have all the execution units while the other two pipes are used only for memory read instructions, and on some models for simple register moves. This means that the Bulldozer can execute only two integer ALU instructions per clock cycle, where previous models can execute three. This is a serious bottleneck for pure integer code. The single-core throughput

for integer code can actually be doubled by doing half of the instructions in vector registers, even if only one element of each vector is used.

The floating point execution units are better distributed so that all four pipes can be used.

The most commonly used units are all doubled, including floating point addition,multiplication and division, as well as integer addition and boolean operations. All units are 128 bits wide. This gives a high throughput for 128-bit vector code which is likely sufficient to serve two threads simultaneously in many cases. All 256-bit vector instructions are split into two 128-bit operations so that there is little or no advantage in using 256-bit vectors.

The fused multiply-and-add instructions are very efficient.They are doing one addition and one multiplication in the same time that it otherwise takes to do one addition or one multiplication. This effectively doubles the throughput of floating point code that has an equal number of additions and multiplications. The incompatibility of the FMA4 instructions with Intel’s forthcoming FMA3 instructions is actually not AMD’s fault, as discussed on my blog.

Mixed latencies

Mixing operations with different latencies will cause less problems than on previous processors.

Dependency chains

Latencies for floating point instructions and integer vector instructions are relatively long.Long dependency chains should therefore be avoided. Accessing part of a register causes a false dependence on the rest of the register.

Jumps and branches

Jumps and branches have a throughput of one taken branch every two clock cycles. The throughput is lower if there are 32-byte boundaries shortly after the jump targets. Branch prediction is reasonably good, even for indirect jumps. The branch misprediction penalty is quite high because of a long pipeline.

Memory and cache access

The cache access is reasonably fast for all three cache levels, but cache bank conflicts are very frequent and often impossible to avoid. Cache bank conflicts turned out to be a serious bottleneck in some of my tests. The code cache has only two ways which is quite low when we consider that it has to service two threads.

Retirement

There is no evidence that retirement can be a bottleneck.

http://semiaccurate.com/forums/showpost.php?p=154836&postcount=132

Para quem se interessar, o cidadão tem vários guias de otimização muito bons:

http://www.agner.org/optimize/

  • Curtir 1
Postado

Será que o engenheiro que falou para o JF "o IPC vai subir" estava se referindo ao "IPC por pipeline de integral"? Ai ele foi e trocou as bolas?

porque nesse sentido o BDZ até que tá decente, tem 33% a menos de unidades de execução e tem performance pouca coisa menor.

Postado

Olá,

Muito interessante aziebert, uma analise bem ampla das posiveis causas de gargalos no bulldozer, apesar de não conheçer o autor, ele levantou questões interessantes...

Um treço me chamou a atenção:

The cache access is reasonably fast for all three cache levels, but cache bank conflicts are very frequent and often impossible to avoid. Cache bank conflicts turned out to be a serious bottleneck in some of my tests. The code cache has only two ways which is quite low when we consider that it has to service two threads.

Será que teve um excesso de preocupação de colocar muito cache L2/L3 em detrimento a uma melhor comunicação/processamento não disponivel e o efeito foi reverso? Só como comparativo:

Concorrente Intel(do octa): i7-2600k cache L3/L2= 9MB

Phenom II X6 1100T= cache L3/L2= 9MB

FX-4100= cache L3/L2= 12MB

FX-6100= cache L3/L2= 14MB

FX-8150= cache L3/L2= 16MB

É uma ideia interessante e surpreendete pensar que o processador fica "perdido" no meio da cache em conflito e acaba por ficar esperado, caindo o desempenho....

De toda forma é duro ver que a AMD mesmo com 8 núcleos e 16MB de cache, uma força teoricamente brutal toma "fumo" contra I7 de 4 núcleos e HT e 9 MB de cache, quem viu AMD no Athlon XP fica encucado com esse desempenho....

Abraços,

Postado
De toda forma é duro ver que a AMD mesmo com 8 núcleos e 16MB de cache, uma força teoricamente brutal toma "fumo" contra I7 de 4 núcleos e HT e 9 MB de cache, quem viu AMD no Athlon XP fica encucado com esse desempenho....

É porque os papéis se inverteram: no passado a Intel queria clock e outros números altos, mesmo perdendo eficiência para tal (vide plataforma Netburst), enquanto a AMD focava a eficiência com as linhas Athlon XP e Athlon 64 e dava um baita murro na fuça dos Pentium 4 mesmo tendo menos cache L2 e menos clock.

Atualmente a AMD quer aumentar a quantidade de cache, de clock e de núcleos sem focar a eficiência, enquanto a Intel tem feito o dever de casa desde os tempos do Pentium M para o mercado Mobile e desde o Core2Duo no mercado desktop, aí a AMD viu a casa cair e começou a dar tiro para qualquer lado (falo dessa estratégia burra do Bulldozer, especialmente na área do marketing porco).

Eu uso AMD desde o K6-II 350MHz. Gosto muito de seus produtos, mas sinceramente entre um Bulldozer e uma Sandy, iria de Sandy com certeza. Não curto políticas "netbursteiras". Gosto de processador eficiente, com bom IPC, fora temperaturas e consumo controlados de forma eficaz. E sei que meu Phenom II X6 não é o melhor modelo de eficiência, mas considero-o bem mais eficiente e equilibrado que um FX "octa-core", por exemplo.

Postado

Olá,

Eu nunca fui fanboy de nenhum dos lados, basta ver alinha temporal de PC:

1º) Celeron 200;

2º) Athlon XP 1.6;

3º) Pentium 4 prescott com HT em uso até hoje;

4º) Aton N450 (de onde falo agora);

5º) Athlon II X3 @ Phenom II X4;

No fim tive mais intel que AMD, mas a intel tem chutado muito o preço ultimamente e não tem muito capricho no video e se AMD não melhorar teremos o monopolio é isso não pode acontecer.

Tenho acompanhado de perto as APUs que acho que vai ser a saida para AMD já que em processamento puro a coisa vai ser difícil por um bom tempo já que a Intel tá sobrando nesse quesito.

Abraços,

Postado

Acho que grandes quantias de cache não são tão essenciais, principalmente quando este tem uma latência altíssima (L2) e um clock inferior ao núcleo (no caso do L3)...

Vamos ver como essa arquitetura se comporta sem cache L3, nas APUS.

Postado

@Edcreek, esses bank conflicts no cache L1 de instruções (que é compartilhado por ambos núcleos do módulo, já que eles compartilham o frontend) devem ser a origem daquele problema que observaram no Linux, onde um thread ficava poluindo o cache, forçando o outro a buscar informações no nível seguinte.

Mas falaram que só afetava o desempenho em uns 3% e a solução proposta era perigosa demais para ser implementada...

@Pistigrilo, mas a ideia do Bulldozer é ganhar muito clock com pouca perda de IPC. O Pipeline foi alongado +- 50% em relação ao K10. Não é 2 a 3 vezes maior, como se você comparar um Core 2 Duo e um Pentium 4.

O problema é que o processo de fabricação não permite clocks altos o suficiente para compensar a diferença de IPC. E nesse caso não me refiro à redução de IPC pelo alongamento do pipeline, mas à simplificação dos núcleos (que foram reduzidos de 3 para 2 ALUs).

Considerando todas essas dificuldades, o resultado ainda foi muito bom. O Bulldozer faz cerca de 80% da IPC do K10. Quando ele puder operar com clock pelo menos 30% maior que o K10 ele já não deve perder em nada.

Isso deve acontecer já no Piledriver.

Aí entram em jogo as outras vantagens da arquitetura: 8 núcleos, FPU muito mais forte, suporte a novas instruções (AVX, XOP e FMA), caches maiores, controladora de memória melhorada, Turbo mais agressivo e inteligente (quando pareado ao Windows 8), etc.

E respondendo ao JovaKz, a plataforma AM3+ deve ir até o final de 2013.

O Vishera (8 núcleos Piledriver) será lançado no terceiro trimestre desse ano.

Postado
@Pistigrilo, mas a ideia do Bulldozer é ganhar muito clock com pouca perda de IPC. O Pipeline foi alongado +- 50% em relação ao K10. Não é 2 a 3 vezes maior, como se você comparar um Core 2 Duo e um Pentium 4.

O problema é que o processo de fabricação não permite clocks altos o suficiente para compensar a diferença de IPC. E nesse caso não me refiro à redução de IPC pelo alongamento do pipeline, mas à simplificação dos núcleos (que foram reduzidos de 3 para 2 ALUs).

Considerando todas essas dificuldades, o resultado ainda foi muito bom. O Bulldozer faz cerca de 80% da IPC do K10. Quando ele puder operar com clock pelo menos 30% maior que o K10 ele já não deve perder em nada.

Isso deve acontecer já no Piledriver.

Aí entram em jogo as outras vantagens da arquitetura: 8 núcleos, FPU muito mais forte, suporte a novas instruções (AVX, XOP e FMA), caches maiores, controladora de memória melhorada, Turbo mais agressivo e inteligente (quando pareado ao Windows 8), etc.

E respondendo ao JovaKz, a plataforma AM3+ deve ir até o final de 2013.

O Vishera (8 núcleos Piledriver) será lançado no terceiro trimestre desse ano.

O problema é que a AMD não conseguiu os clocks ideais no Bulldozer nem o consumo elétrico dos sonhos da galera ligada a questões eco ou mesmo preocupadas com o próprio bolso no final do mês, na hora de pagar a conta de luz. Se os Bulldozer atuais tivessem o mesmo IPC que possuem, mas clocks acima de 4.0GHz (acho que uns 4.2GHz em stock e 4.6GHz em turbo já seria o suficiente para dar uma leve cutucada na Intel), confesso que os enxergaria de forma diferente.

Sem falar no marketing porco, que anunciou um "octa-core" aos quatro ventos, sendo que seria muito mais inteligente e prudente anunciarem um processador de quatro módulos com oito núcleos, o que melhoraria sensivelmente a imagem do produto perante o mercado entusiasta. Os FX-8xx0 só agradaram os fanboys. O único processador que acho interessante na linha é o FX-4100, pelo ótimo custo x benefício que oferece (260 reais nesse processador acho um negócio muito honesto e interessante, pois as placas AM3+ são mais baratas que as LGA1155 equivalentes).

  • Membro VIP
Postado

Sem falar no marketing porco, que anunciou um "octa-core" aos quatro ventos, sendo que seria muito mais inteligente e prudente anunciarem um processador de quatro módulos com oito núcleos, o que melhoraria sensivelmente a imagem do produto perante o mercado entusiasta. Os FX-8xx0 só agradaram os fanboys. O único processador que acho interessante na linha é o FX-4100, pelo ótimo custo x benefício que oferece (260 reais nesse processador acho um negócio muito honesto e interessante, pois as placas AM3+ são mais baratas que as LGA1155 equivalentes).

Aí ia ter um monte de babacas falando que ele era inferior ao Phenom II de 6 núcleos.. (não que eu defenda a cagada que eles fizeram, longe disso) sério, todo dia tem gente babando em FX aqui no forum. :(

Acho que a AMD só não se ferra mais, porque as placas-mãe socket 1155 costumam ter preços mais salgados que as AM3+ "equivalentes", mas ainda sim, no conjunto, fica difícil recomendar/querer um FX com os preços atuais.

Postado
Aí ia ter um monte de babacas falando que ele era inferior ao Phenom II de 6 núcleos.. (não que eu defenda a cagada que eles fizeram, longe disso) sério, todo dia tem gente babando em FX aqui no forum. :(

Acho que a AMD só não se ferra mais, porque as placas-mãe socket 1155 costumam ter preços mais salgados que as AM3+ "equivalentes", mas ainda sim, no conjunto, fica difícil recomendar/querer um FX com os preços atuais.

Engraçado é que esses babacas que você citou não falam mal do Core i7 4 cores/8 threats por ter menos núcleos que o Phenom II X6. No final o que ia pesar mais era o desempenho final. Aí ao invés de criticar a AMD pelo fato de o FX ter menos módulos completos que o Phenom II X6, iria criar uma expectativa para os futuros FX de seis módulos, que um dia ia acabar vindo. Mas como o FX é um fracasso, a AMD nem sonha em fazer um de seis módulos por ora, até mesmo porque ia ficar uma bela de uma porcaria para o mercado desktop.

  • Membro VIP
Postado
Engraçado é que esses babacas que você citou não falam mal do Core i7 4 cores/8 threats por ter menos núcleos que o Phenom II X6.

Tem gente que reclama que "como pode um quad core perder pra um quad, AMD é uma porcaria mesmo", mas, já disse isso antes, a AMD não pode errar, a Intel sim.

Postado
Mais uma turminha de APU's saindo do forno da TSMC até o fim do mês: o dual-core E2 1800 (1.7GHZ, HD 7310 e 18w) e o dual-core E2 1200 (1.4GHz, HD 7340 e 18w). Eles vão substituir os Brazos E450/E350.

http://www.fudzilla.com/home/item/26181-amd-e2-1800-is-brazos-with-hd-7340-graphics

Ta cada vez ficando mais interessantes esses APUS, eu mesmo prestes a pegar o e450, em um net, dizem ser de 20% a 25% superior ao e-350.

Postado

Inverteram as bolas.

O E2-1800 é 1.7GHz com GPU HD 7340.

E o E1-1200 é 1.4GHz com GPU HD 7310.

Detalhe que essas APUs usam o mesmo Zacate que as anteriores (E-350 / E-450), a GPU só foi renomeada (embora deva ganhar alguns recursos a mais por software).

Pra mim a maior novidade do Brazos 2.0 é o chipset com suporte a USB 3.0.

  • Curtir 1
Postado
Inverteram as bolas.

O E2-1800 é 1.7GHz com GPU HD 7340.

E o E1-1200 é 1.4GHz com GPU HD 7310.

Detalhe que essas APUs usam o mesmo Zacate que as anteriores (E-350 / E-450), a GPU só foi renomeada (embora deva ganhar alguns recursos a mais por software).

Pra mim a maior novidade do Brazos 2.0 é o chipset com suporte a USB 3.0.

Os 400MHz a mais são consideraveis também. Alguém sabe o clock do GPU?

Ah bom, melhor de se entender assim.

E realmente continua tudo VLIW5 né?

É o mesmo Brazos velho de guerra. Provavelmente uma nova revisão para melhorar clock/yield, mas é o mesmo chip

Postado
Inverteram as bolas.

O E2-1800 é 1.7GHz com GPU HD 7340.

E o E1-1200 é 1.4GHz com GPU HD 7310.

Detalhe que essas APUs usam o mesmo Zacate que as anteriores (E-350 / E-450), a GPU só foi renomeada (embora deva ganhar alguns recursos a mais por software).

Pra mim a maior novidade do Brazos 2.0 é o chipset com suporte a USB 3.0.

Mas já não é suportado usb 3.0, pois um Net ASUS que estou para comprar com o e-450, diz que vem com uma usb 3.0?

Visitante
Este tópico está impedido de receber novas respostas.

Sobre o Clube do Hardware

No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas comunidades sobre tecnologia do Brasil. Leia mais

Direitos autorais

Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

×
×
  • Criar novo...

LANÇAMENTO!

eletronica2025-popup.jpg


CLIQUE AQUI E BAIXE AGORA MESMO!