Mudanças importantes disponíveis em E5-2600v3 "Haswell-EP" incluem:
- Até 18 núcleos de processadores por soquete (com opções de 4, 6, 8, 10, 12, 14 e 16 núcleos)
- Suporte para memória DDR4 velocidades de até 2133MHz
- Avançados Vector Extensions Versão 2.0 (instruções AVX2):
- permitir que as operações de largura de 256 bits para ambos os números inteiros e de ponto flutuante (as instruções AVX mais velhos suportados apenas operações de ponto flutuante)
- introduzir Fused Multiply Adicionar instruções FMA3, que permitem uma multiplicação e uma instrução acumulam para ser concluída em um único ciclo (que potencialmente dobra o throughput para aplicações de ponto flutuante - até 16 FLOPS por ciclo)
- adicionar suporte para instruções adicionais, incluindo Reunir e mudança vector
- Melhoria da eficiência energética com por núcleo P-membros e controle de freqüência uncore independente
Com um produto deste complexo, é muito difícil para cobrir todos os aspectos do design. Aqui, nós nos concentramos principalmente no desempenho dos processadores para aplicativos HPC.
Desempenho computacional excepcional
Os processadores Xeon E5-2600v3 introduzem o mais alto desempenho disponíveis até à data em uma CPU socketed. Pela primeira vez, um único processador é capaz de mais do que uma metade (500 TeraFLOPSGflops). Isto é possível através do uso de AVX2 com instruções FMA3. O enredo abaixo compara o desempenho de pico destes CPUs com e sem instruções FMA:
As barras coloridas indicam o desempenho usando apenas instruções AVX; as barras cinza indicam um desempenho teórico máximo ao usar AVX com FMA. Note-se que apenas um pequeno conjunto de códigos será capaz de emitir instruções FMA quase exclusivamente (por exemplo, LINPACK). A maioria dos aplicativos vai emitir uma variedade de instruções, o que resultará em menor que FLOPS de pico. Espere o desempenho alcançado para aplicações bem-paralelizados e otimizados para cair entre as barras cinzentas e coloridas.
Intel Xeon Série E5-2600v3 Especificações
As guias abaixo comparam as características e especificações da nova linha de modelo. Intel tem dividido as CPUs em vários grupos:
- Standard: CPUs de baixo custo com desempenho moderado
- Avançadas: CPUs oferecendo o melhor desempenho para a maioria das aplicações
- Contagem alta Núcleo: ideal para aplicações bem-paralelizadas; CPUs que oferecem o maior número de núcleos do processador (por vezes sacrificando freqüência de clock em favor de contagem de núcleos)
- Freqüência otimizada: ideal para aplicações não-paralelas / single-threaded; CPUs com as mais altas velocidades de clock (sacrificando número de núcleos a fim de fornecer as freqüências mais elevadas)
Embora estes processadores introduzir aumentos significativos de desempenho, os leitores técnicos vai ver que muitas das mudanças são incrementais: aumento da contagem de núcleo, a melhoria da velocidade de memória DDR, etc. melhorias significativas No entanto, a velocidade do clock do processador / frequências não vi.
Na verdade, em alguns casos, a frequência da CPU foi reduzido de modelos anteriores. Frequência do processador e do comportamento Turbo Boost mudaram significativamente com esta versão. Essas métricas são discutidos em mais detalhes na próxima seção.
As velocidades de clock e Turbo Boost no Xeon série E5-2600v3 processadores "Haswell"
Com cada nova linha de processadores, a Intel introduz novas otimizações de arquitetura. A concepção da arquitectura "Haswell" reconhece que aplicativos altamente paralelos / vetorizadas colocar a maior carga sobre os núcleos do processador (que exigem mais poder e, assim, gerando mais calor). Enquanto um núcleo da CPU está executando tarefas vetor intensiva (instruções AVX), a velocidade do clock pode ser reduzida para manter o processador dentro de seus limites de potência (TDP).
Na verdade, isso pode resultar no processador rodando a uma frequência mais baixa do que a velocidade de clock "base" anunciado para cada modelo. Por essa razão, cada modelo de processador "Haswell" é atribuído duas frequências "base":
- AVX modo: devido aos requisitos de energia mais elevados de instruções AVX, velocidades de clock pode ser um pouco menor durante a execução de instruções AVX *
- O modo não-AVX: enquanto não executar instruções AVX, o processador irá operar em o que tradicionalmente considerada a freqüência "estoque"
* Um núcleo da CPU retornará ao modo não-AVX 1 milissegundo após instruções AVX completas
AVX e Não-AVX Turbo Boost
Assim como em arquiteturas anteriores, "Haswell" CPUs incluem o recurso Turbo Boost, que faz com que cada núcleo de processador para operar bem acima da velocidade de clock "base" durante a maioria das operações. O aumento da velocidade de relógio precisa depende do número e intensidade das funções de execução em cada CPU. Com a arquitetura "Haswell", Turbo Boost melhora de velocidade também dependem dos tipos de instruções AVX (vs. não-AVX).
As duas parcelas abaixo mostram que velocidades de clock do processador podem ser categorizados como:
- Todos os núcleos na CPU funcionando ativamente instruções AVX Non-
- Todos os núcleos na CPU funcionando ativamente instruções AVX
- Um único núcleo ativo executando instruções Non-AVX (todos os outros núcleos na CPU tem de estar inactivo)
- Um único núcleo ativo executando instruções AVX (todos os outros núcleos na CPU tem de estar inactivo)
Note-se que apesar de as regras claras mencionadas acima, cada valor é ainda uma gama de velocidades de relógio. Porque cargas de trabalho são tão diversas, a Intel não é capaz de garantir uma velocidade de relógio específico para AVX ou instruções não-AVX. Usuários está garantido que núcleos será executado dentro de uma faixa específica, mas cada aplicação terá de ser aferido para determinar quais freqüências um CPU irá operar em.
Ao examinar as diferenças entre AVX e instruções para não-AVX, observe que as instruções não-AVX normalmente resultam em não mais do que um 100MHz para 200MHz aumento na mais alta velocidade de clock.No entanto, as instruções AVX pode causar velocidades de clock de 300 MHz a cair por 400 MHz se eles são particularmente intensivos.
Lembre-se que AVX2 introduz suporte para ambas as instruções de inteiros e de ponto flutuante, o que significa que qualquer aplicação de computação intensiva estará usando essas instruções (se tiver sido devidamente projetado e compilado). Usuários de HPC deve esperar seus processadores para ser executado no modo de AVX mais do tempo.
Top velocidades de clock para Counts núcleo específico
Quando cargas de trabalho de deixar alguns núcleos de CPU ociosa, os processadores Xeon E5-2600v3 são capazes de usar esse espaço livre para aumentar a velocidade do clock dos núcleos que estão realizando trabalho. Assim como com outros cenários Turbo Boost, o aumento da velocidade exacta dependerá do modelo do processador. Ele também irá depender de como muitos núcleos de CPU estão ativos.
Aconselhamos os usuários a considerar quantas CPU núcleos sua aplicação é capaz de saturar. As abas abaixo detalhadamente as freqüências de impulso de pico Turbo para cada modelo de CPU, ordenada pelo número de núcleos ativos:
Todas as parcelas acima mostram as freqüências de CPU para aplicações que utilizam instruções AVX. As barras coloridas indicam o pior cenário - CPUs será executado pelo menos tão rápido. As barras cinzentas indicam as velocidades de relógio esperado para a maioria das cargas de trabalho.
Custo-efetividade e eficiência de energia de CPUs Xeon E5-2600v3
Os processadores Haswell "-EP" têm quase a mesma estrutura de preço e potência requisitos como Xeon E5-2600 produtos anteriormente, pelo que a sua relação custo-eficácia e poder-eficiência deve ser bastante atraente para os usuários de HPC. Leitores mais experientes podem encontrar os seguintes fatos: útil
- Embora Xeons v3 siga os mesmos passos de preços como os seus homólogos v2, três modelos de alta-Core-Count foram adições tardias. Estes modelos são maiores desempenho e levar preços mais elevados do E5-2600 modelos anteriores.
- O requisito de energia (TDP) para cada modelo aumentou em 5 Watts em relação à geração anterior. Isto é devido à integração do regulador de tensão VRMs (módulos) que foram anteriormente colocados na placa-mãe. Assim, TDP CPU e placa-mãe aumenta 5W TDP diminui 5W.
- Os gráficos seguintes mostram a relação custo-eficácia e poder-eficiência de apenas a própria CPU. Em muitos casos, os usuários de HPC vai achar que uma vez que eles tomaram a plataforma completa e projeto de cluster em conta, o custo-benefício de uma maior contagem de CPU de núcleo pode ser mais benéfico do que essas parcelas demonstrar.
Resumo de recursos no Xeon E5-2600v3 "Haswell-EP" processadores
Além dos recursos mencionados no topo deste artigo, esses processadores são muitas das características de sucesso de projetos anteriores Xeon. A lista abaixo fornece um resumo das características tecnológicas relevantes:
- Até 18 núcleos de processadores por soquete (com opções de 4, 6, 8, 10, 12, 14 e 16 núcleos)
- Suporte para Quad-channel de memória ECC DDR4 velocidades de até 2133MHz
- Conexões entre cada CPU e os dispositivos periféricos, tais como placas de rede, GPUs e co-processadores direta PCI-Express (geração 3.0) (40 pistas PCI-E por soquete)
- Vector Extensions (AVX avançadas 2.0):
- efetivamente dobrar a taxa de transferência de operações com números inteiros e de ponto flutuante com unidades de matemática expandido a partir de 128 bits para 256 bits
- introduzir Fused Multiply add () FMA3 instruções que permitem uma multiplicação e uma instrução acumulam para ser concluída em um único ciclo (duplicando o FLOPS / relógio de 8 a 16 para cada núcleo de uma CPU)
- adicionar suporte para instruções adicionais, incluindo Reunir e mudança vector
- F16C 16 bits instruções de conversão de ponto flutuante acelerar a conversão de dados entre os formatos de ponto flutuante de 16 bits e 32 bits
- Tecnologia Turbo Boost melhora o desempenho sob cargas de pico, aumentando a velocidade de clock do processador. Com a versão 2.0, (introduzida em "Sandy Bridge") velocidades de clock são reforçados com mais freqüência, para velocidades mais altas e por períodos mais longos de tempo. Com "Haswell", velocidades de clock superiores dependem do tipo de instruções (AVX vs. não-AVX).
- Dupla Quick Path Interconnect (QPI) As ligações entre soquetes de processador melhorar a velocidade de comunicação para aplicações multi-threaded
- Melhoria da eficiência energética com por núcleo P-membros e controle de freqüência uncore independente
- Intel Direct I O Tecnologia / dados aumenta o desempenho e reduz a latência, permitindo que os controladores Ethernet Intel e adaptadores para falar diretamente com o cache do processador
- Advanced Encryption Standard (AES New Instructions-NI) acelerar a criptografia e descriptografia para rápido, proteção de dados acessível e de segurança
- 32-bit e 64-bit Intel Virtualization Technology (VT / VT-x) para E / S direcionada (VT-d) econectividade (VT-c) proporcionam um desempenho mais rápido para os processos de virtualização core e fornecer suporte integrado de hardware para / O de virtualização.
- Intel Virtualization APIC (APICv) oferece maior desempenho de virtualização
- A tecnologia Hyper-Threading permite que dois threads "compartilhem" um núcleo de processador para melhorar o uso de recursos. Embora útil para algumas cargas de trabalho, não é recomendado para aplicações de HPC.
Nenhum comentário:
Postar um comentário