A Intel adotou uma abordagem incomum (mas estrategicamente inteligente) para a estreia do Arc, inicialmente lançando gráficos Arc 3 para laptops portáteis com preços modestos, antes de introduzir uma GPU de desktop Arc A380 igualmente modesta na China neste verão. Fazer isso permitiu que a Intel aproveitasse seus pontos fortes substanciais em notebooks e suporte de software, em vez de enfrentar a Nvidia e a AMD no desktop, e permitiu que a empresa passasse meses fornecendo alguns polimentos de drivers muito necessários.
Cobrimos a revelação da GPU do laptop Arc 3 e os recursos matadores da Intel em uma parte separada que explica o que as pessoas comuns devem esperar dessa nova geração de laptop. E agora, sabemos como as placas gráficas de desktop Arc 7 também funcionam. (Alerta de spoiler: às vezes ele quebra e às vezes gagueja – literalmente, se você não tiver a BAR redimensionável PCIe ativada).
Esse não é o ponto deste artigo embora. Como parte das várias revelações, o Intel Fellow Tom Peterson deu à imprensa uma visão geral de alto nível da arquitetura Xe HPG que sustenta essas placas gráficas Arc “Alchemist”, fornecendo um vislumbre das porcas e parafusos que alimentam as ambições gráficas discretas da Intel.
Assim, como fizemos com as arquiteturas Ampere da Nvidia e RDNA 2 da AMD, aqui está uma breve explicação técnica sobre as entranhas dos chips Xe HPG da Intel Arc. Da mesma forma que a Nvidia e a AMD usam tecnologias e terminologias diferentes para seus projetos, os chips Arc da Intel contam com alguns conceitos proprietários (incluindo uma nova visão sobre a velocidade do clock que precisa ser explicada). Isso dificulta a comparação do Arc com arquiteturas de GPU rivais – a Intel nem usa termos comuns como ROPs e TMUs – mas quando terminarmos aqui, você terá uma sólida compreensão de alto nível do que torna o Xe HPG Carraça. Vamos cavar.
Conheça o Xe HPG
Intel
Para a Intel, as “fatias de renderização” Xe HPG compreendem a espinha dorsal de cada GPU Arc. As ofertas Arc de laptop e desktop da Intel podem ser ampliadas ou reduzidas conforme necessário para atender às diferentes necessidades do mercado, mas essas fatias de renderização estão no centro, contendo unidades de rastreamento de raio dedicadas, rasterizadores, blocos de geometria e o bloco de construção fundamental para Arc, o Xe Os próprios núcleos. O Xe XPG pode escalar até oito fatias de renderização no carro-chefe Arc A770.
Cada fatia de renderização contém quatro núcleos Xe e quatro unidades de rastreamento de raios, juntamente com todos os outros bits necessários para executar uma GPU moderna. Essas fatias de renderização são totalmente compatíveis com DirectX 12 Ultimate, o que significa que as GPUs Arc da Intel podem lidar com ray tracing, sombreamento de taxa variável, sombreamento de malha e todos os outros recursos associados a esse padrão.
Intel
Vamos nos aprofundar e dar uma olhada nos próprios núcleos Xe. Cada núcleo Xe (novamente, há quatro por fatia de renderização) é composto por três bits principais: 16 mecanismos de vetor “XVE” de 256 bits que lidam com tarefas de rasterização mais tradicionais, 16 mecanismos de matriz “XMX” de 1024 bits que lidam com tarefas de aprendizado de máquina (como os núcleos tensores nas GPUs RTX rivais da Nvidia) e 192 KB de cache L1/SLM compartilhado. Esse cache pode ser usado para manter tarefas durante cargas de trabalho de computação ou shaders e texturas durante os jogos.
Intel
As maiores empresas de jogos para PC podem estar apostando muito no ray tracing como o futuro dos gráficos – cada Xe Core inclui uma unidade de classificação de threads especializada projetada para ajudar os shaders a processar dados de ray tracing com mais eficiência, por exemplo – mas a renderização tradicional permanece rei por enquanto. Cada Xe Vector Engine inclui uma porta de execução de ponto flutuante (FP) dedicada para lidar com tarefas de sombreamento tradicionais, juntamente com uma porta INT/EM compartilhada que pode lidar com tarefas baseadas em números inteiros ao mesmo tempo.
A Nvidia introduziu pipelines FP/INT simultâneos com sua arquitetura “Turing” da série RTX 20 para evitar que tarefas inteiras entupam o pipeline FP32, e isso se tornou a norma desde então. “Quando a Nvidia examinou como os jogos do mundo real se comportavam, descobriu que para cada 100 instruções de ponto flutuante executadas, uma média de 36 e até 50 instruções de ponto não flutuante também foram processadas, atrapalhando as coisas”, escrevemos em 2018. “O novo pipeline inteiro lida com essas instruções extras separadamente e simultaneamente com o gasoduto FP32. A execução das duas tarefas ao mesmo tempo resulta em um grande aumento de velocidade.”
Intel
Os mecanismos de matriz “XMX” dedicados da Intel se conectam aos mecanismos de vetor em cada Xe Core. Eles são amplamente semelhantes aos núcleos tensores RTX da Nvidia, projetados para acelerar muito as tarefas de aprendizado de máquina. Esses são os bits que desbloqueiam o potencial do XeSS, o rival da Intel para o alardeado upsampling DLSS da Nvidia, bem como outros recursos especiais de molho, como Hyper Compute e o recurso de câmera virtual no novo centro de comando Arc Control da Intel. (Novamente, leia nossa cobertura de GPU para laptop Arc para obter informações mais detalhadas sobre esses recursos de nível de consumidor.)
Intel
Quando acionado por software compatível (como um jogo com XeSS ou um aplicativo que suporte Hyper Compute), a matriz sistólica de 4 profundidades do núcleo XMX pode calcular até 256 operações de acumulação múltipla (MAC) por clock para inferência INT8, um aumento maciço em relação os 64 ops/clock oferecidos por GPUs modernas com hardware DP4a integrado e os 16 ops/clock suportados por GPUs mais antigas.
O XeSS da Intel suporta um modo de fallback para rodar em placas gráficas rivais Nvidia e AMD que não possuem núcleos XMX, padronizando para hardware DP4a. Esta imagem ilustra muito bem porque a Intel diz que o XeSS roda muito, muito mais rápido em GPUs Arc com hardware XMX dentro.
Intel
Cada Xe Core possui 16 mecanismos de vetor e matriz no total, com pares de cada um funcionando em sincronia, capazes de executar tarefas FP, INT e XMX ao mesmo tempo. As GPUs Arc podem ser mantidas muito, muito ocupadas. A extensão total dessa ocupação e um mergulho mais profundo em como o Xe HPG lida com tarefas complexas de rastreamento de raios podem ser encontrados no vídeo explicativo da Intel abaixo.
A Intel sempre se orgulhou de seus mecanismos de mídia, liderados pela tecnologia QuickSync extremamente rápida, e o mecanismo de mídia do Xe XPG não é diferente. Ele inclui todos os recursos modernos que você esperaria em um chip gráfico – vários suportes de codificação e decodificação 8K HDR, HEVC, VP9, o que você quiser – mas também uma grande inclusão que nenhum outro chip (CPU ou GPU) ofereceu quando o Arc foi anunciado : codificação AV1 acelerada por hardware. (No entanto, a série GeForce RTX 40 da Nvidia também suportará a codificação AV1.
Intel
O padrão de vídeo de última geração altamente eficiente foi criado por um consórcio de gigantes da indústria e está se movendo rapidamente para se tornar a norma, e as GPUs de desktop modernas suportam AV1 decodificação que pode ajudá-lo a assistir a vídeos em 8K sem que seu sistema se incendeie, mas até agora você precisava usar o software sozinho para realmente crio Vídeos AV1.
A Intel diz que a criação de AV1 acelerada por hardware desbloqueada pelo Arc é 50 vezes mais rápido do que codificações de software, ou é capaz de fornecer visuais de streaming muito mais claros na mesma taxa de bits de outros codificadores. Testamos o AV1 da Arc e descobrimos que isso realmente envergonha os codificadores tradicionais da Nvidia e da AMD. (Sim, mesmo NVENC.)
Emparelhado com o recurso Hyper Encode oferecido em laptops e desktops totalmente Intel como parte do pacote Deep Link da empresa, que aproveita os mecanismos de mídia na CPU e na GPU em vez de um ou outro, os sistemas baseados em Arc podem ser extremamente atraentes para criadores de vídeos.
Mecanismo de exibição Xe HPG
Intel
O mecanismo de exibição Xe HPG permanece consistente em toda a pilha de GPUs Arc, o que significa que cada placa gráfica Arc oferece os mesmos recursos de saída de vídeo (embora a configuração exata da porta varie de acordo com o modelo). Não espere boas taxas de quadros se você realmente tentar jogar em um par de telas de 8K, mas é bom saber que o Arc o suportará se você quiser todos os pixels para suas tarefas de produtividade!
Conheça a linha de GPUs Intel Arc A-series
Intel
Vamos reservar um momento para trazer toda essa conversa técnica de volta ao campo prático. A Intel juntou vários núcleos Xe e renderizou fatias em um par de GPUs Arc “Alchemist” dedicadas: o ACM-G10 de ponta, que alimenta as principais opções gráficas do Arc 7, e o mais modesto ACM-G11, que aparece em Laptops Arc 3 e GPUs de desktop.
Intel
Intel
A partir daí, essas GPUs podem ser fatiadas e cortadas para atender às diferentes necessidades do mercado. Os gráficos acima mostram como a primeira geração de gráficos Arc para laptops se destacou.
Velocidades de clock de gráficos Xe HPG
Algo pode ter saltado para você naqueles gráficos de especificações de GPU de laptop acima: suas velocidades de clock ultrabaixas. (As GPUs de desktop rodam muito mais rápido e muito mais normalmente.) Em uma época em que as GPUs da Nvidia empurram 2GHz e algumas GPUs AMD limpam 2,5GHz, vendo o Arc mobile da Intel chegando a 1650MHz e indo tão baixo quanto 900MHz é um pouco de levantar os olhos. As velocidades de clock entre as marcas gráficas rivais não são tão claras quanto parecem, no entanto.
Intel
O “Game Clock” da AMD para GPUs Radeon não é o mesmo que o “Boost Clock” da Nvidia, como expliquei antes. A Intel está usando mais uma métrica para suas GPUs Arc, apelidada de “Graphics Clock”. Petersen definiu o Graphics Clock da Intel como a velocidade média do clock de cargas de trabalho leves e pesadas típicas para as quais uma determinada GPU se destinava (portanto, jogos para He XPG e provavelmente tarefas de computação para placas de estação de trabalho, por exemplo). Se você observar os gráficos de GPU de laptop acima, também verá um intervalo de TDPs definidos para cada um; o Relógio gráfico é baseado no TDP mais baixo disponível. Em outras palavras, o relógio gráfico da Intel para gráficos de laptop essencialmente representa quase um cenário de pior caso para GPUs Arc. (As GPUs de desktop usavam um orçamento de energia fixo e se comportavam de maneira muito mais típica, é claro.)
Intel
Dito tudo isso, os núcleos gráficos podem rodar em velocidades diferentes dependendo de quão duro eles estão sendo empurrados – eles atingirão uma velocidade muito maior em jogos retrô 2D e velocidades muito mais baixas em jogos modernos complexos que atingem todas as partes do Xe Core e Render Fatia, por exemplo. E a potência também pode fazer uma enorme diferença no desempenho; como vimos com as ofertas móveis GeForce da Nvidia, bombear mais suco em uma GPU pode ajudar a impulsionar uma GPU de nível inferior a uma versão de baixo watt de um irmão ostensivamente mais potente.
Também vale a pena notar que a velocidade do clock não é tudo. Na arquitetura da mesma empresa, mais rápido geralmente é melhor – uma GPU GeForce de 2 GHz será mais rápida que uma de 1,5 GHz, digamos. Mas o desktop Radeon RX 6500 XT da AMD fica atrás de seus irmãos, apesar de ter uma velocidade de clock ridiculamente rápida de 2,8 GHz. Os ganhos brutos de velocidade de clock estão longe de ser a única maneira de aumentar o desempenho mais rápido, como Robert Hallock da AMD explicou uma vez em nosso podcast Full Nerd. O processador Ryzen 7 5800X3D dessa empresa teve grandes ganhos de desempenho em jogos ao caindo velocidades de clock e colocar uma enorme placa de cache no topo do chip.
É complicado, é o que estou dizendo.
Mas espere, tem mais!
Brad Chacos/IDG
E isso é suficiente para nosso tour pela arquitetura Xe HPG da Intel. Se toda essa conversa sobre mecanismos de matriz e codificadores de mídia o deixou quente e incomodado, não deixe de conferir nossa análise da placa gráfica Intel Arc A770 e A750 para um mergulho profundo em como todos esses detalhes técnicos se manifestam na realidade.
Arco executa muito diferentemente de seus rivais, para melhor e às vezes para pior, e o Xe HPG é o motor que impulsiona tudo. O Arc A750 e o A770 Limited Edition da Intel chegaram às lojas em 12 de outubro.