L'architettura dei core ad alta efficienza, nota anche con il nome in codice Gracemont, è del tipo fuori-ordine senza SMT (Simultaneous Multithreading) e quindi non è in grado di eseguire due thread per core come fanno i core dotati di Intel HyperThreading. Si tratta dell'architettura di core più efficiente mai realizzata da Intel ed è destinata a sostenere alti volumi di multithreading e multitasking senza incidere troppo sui consumi. La scalabilità delle prestazioni rispetto alle esigenze di calcolo contingenti avviene, quindi, principalmente variando il numero di core coinvolti.
Sebbene i core Gracemont siano un'evoluzione delle architetture di core dei processori Atom, tuttavia si distaccano completamente dai loro predecessori. Tant'è vero che Intel mette a confronto i suoi nuovi Efficient core Gracemont a 10nm con i core Skylake a 14nm che sono stati alla base di moltissimi processori Intel Core negli ultimi anni (e non Intel Atom). Il risultato è un miglioramento del 40% delle performance su singolo thread a parità di consumi, o invertendo la prospettiva, una riduzione del 40% dei consumi a parità di prestazioni. Il miglioramento di efficienza sale addirittura all'80% confrontando 4 core Gracemont con 2 core Skylake (4 thread in HT) nell'esecuzione di 4 thread in simultanea.
La migliore efficienza è stata impiegata da Intel per supportare un più ampio intervallo di frequenze di clock. In questo modo gli E-core possono sia lavorare a bassi consumi, sia raggiungere frequenze di clock più alte quando devono smaltire task più impegnativi. Oltre ad un vantaggio in termini di frequenze, i nuovi E-core segnano anche l'introduzione di innovazioni volte a migliorare il volume di IPC (Istruzioni per Ciclo di clock).
Sul versante del Front-End, Intel ha implementato una branch target cache con 5000 elementi per una branch target prediction più accurata. Ha anche raddoppiato la cache istruzioni L1 portandola dai 32KB dei core Tremont a 64KB; un incremento necessario anche per supportare la nuova funzionalità di decodifica della lunghezza delle istruzioni on-demand che genera informazioni pre-decodifica che vengono proprio immagazzinate nella cache istruzioni. Un clustered decoder out-of-order permette inoltre di effettuare la decodifica di fino a 6 istruzioni per ciclo mantenendo comunque un elevato livello di efficienza.
Intel si è preoccupata di massimizzare il parallelismo per sfruttare al meglio le potenzialità dell'esecuzione fuori ordine sui nuovi core, aumentando le dimensioni della finestra di esecuzione fino a 256 elementi e portando le porte di esecuzione a 17. Con l'aggiunta di un'unità di allocazione 5-wide e di ritiro 8-wide, si riesce a migliorare di molto il volume di IPC rispetto ai core Skylake assicurando al tempo stesso consumi inferiori.
Sul versante del Back-end le 17 porte di esecuzione corrispondono a 4 pipeline per ALU per i calcoli sui numeri interi (di cui due capaci di moltiplicazioni e divisioni), 4 Address Generator Unit AGU (equamente suddivise fra load/store), 3 piepline per ALU per i calcoli vettoriali e a virgola mobile. Le restanti 6 porte sono dedicate alle diramazioni e allo store dei dati.
La cache L1 dati ammonta a 32KB e ci sono 4MB di cache L2 condivisi fra 4 E-core. Sono anche supportate le tecnologie di sicurezza Intel Control-flow Enforcement Technology e Intel Virtualization Technology Redirection. Intel ha rinnovato anche il set di istruzioni supportate (ISA) che comprende non solo AVX ma anche AVX2 (per la prima volta su una microarchitettura della famiglia Atom) e AVX2-VNNI che accelerano i calcoli per le reti neurali.
Un altro vantaggio di questi core è che hanno un basso footprint: nella stessa area di un singolo P-core, Intel riesce ad alloggiare 4 E-core ed i loro 4MD ci cache condivisa.