超标量CPU的设计使得在单个CPU内部实现了一种叫做指令级并行的并行计算形式,它可以在相同的时钟速率下完成更多的工作。这意味着CPU在一个时钟周期内通过在重复的功能单元上同时运行多条指令(称为指令调度)来执行多条指令。每个功能单元只是CPU核心内部的一个执行资源,比如算术逻辑单元(ALU)、浮点单元(FPU)、位移位器或乘法器。

大多数超标量CPU也是管道化的,但也有可能拥有一个非管道化的超标量CPU或一个管道化的非超标量CPU。

超标量技术是由CPU核心的几个功能支持的。

  1. 指令来自于有序的指令列表。
  2. CPU硬件可以计算出哪些指令有哪些数据依赖。
  3. 每个时钟周期可读取多条指令

标量处理器运行的每条指令一次改变一个或两个数据项,但矢量处理器执行的每条指令同时处理许多数据项。超标量处理器是两者的混合体。

  1. 每条指令处理一个数据项。
  2. 每个CPU核内部有多个重复的功能单元,这样就有多条指令同时处理独立的数据项。

在超标量CPU中,指令调度器从内存中读取指令,并决定哪些指令可以并行运行,将它们调度到CPU内部可用的多个重复功能单元上。

超标量CPU设计关注的是如何提高指令调度器的准确性,并使其始终保持多个功能单元的忙碌。截至2008年,所有通用CPU都是超标量的,一个典型的超标量CPU可能包括多达4个ALU、2个FPU和2个SIMD单元。如果调度员不能让所有的单元都忙起来,CPU的性能就会降低。