hardware | 我的站点

DMA Remapping —— Domain

Domain是平台上一个抽象的隔离环境，并且被分配了一块主机物理内存。I/O设备作为domain的指定设备（assigned device），可以访问分配给domain的内存。在虚拟化环境下，每个虚拟机都会被当做一个独立的domain。

I/O设备分配到指定的domain，并只能访问指定domain所拥有的物理资源。依赖于具体的软件模型，DMA请求的地址可以是虚拟机，也就是domain的Guest-Physical Address（GPA），或是由PASID指定进程定义的application Virtual Address（VA），或是由软件定义的抽象的I/O virtual address（IOVA）。不管哪种情况，DMA Remapping硬件都是把相应的地址翻译成Host-Physical Address（HPA）。

DMA Remapping —— DMA请求类型

Remapping硬件把来自设备的DMA内存访问请求分成两种类型：

（1）Requests without address-space-identifier：这是来自endpoint device的正常的内存访问请求，包括访问类型（读，写，原子访问），DMA地址和大小，发起请求的设备标示；

（2）Requests with address-space-identifier：这种内存访问请求会包含额外的信息：表明支持virtual memory的endpoint device的targeted process address space。除了常规请求信息外，还有process address space identifier (PASID)，扩展属性：Execute-Requested (ER) flag (to indicate reads that are instruction fetches)、Privileged-mode-Requested (PR) flag (to distinguish user versus supervisor access)）等等。

参考资料：
Intel ® Virtualization Technology for Directed I/O

PCI总线相关术语

本文列举PCI总线的相关术语：

Agent：可以操作总线的设备（device）或实体（entity）。
Master：可以发起一次总线事务（transaction）的agent。
Transaction：在PCI上下文中，一次transaction包含一次address phase和一次或多次data phase。也被称为burst transfer。
Initiator：获得总线控制权的master，也就是发起transaction的agent。
Target：在address phase认识到自己address的agent。Target会响应transaction。
Central Resource：主机系统上提供总线支持（如产生CLK信号等等），总线仲裁等等功能的元素。
Latency：在一次transaction中，两次状态转换之间消耗的时钟周期。Latency用来度量一个agent响应另外一个agent请求所花的时间，因此是性能的一个度量指标。

UP VS SMP

UP（Uni-Processor）：系统只有一个处理器单元，即单核CPU系统。

SMP（Symmetric Multi-Processors）：系统有多个处理器单元。各个处理器之间共享总线，内存等等。在操作系统看来，各个处理器之间没有区别。

要注意，这里提到的“处理器单元”是指“logic CPU”，而不是“physical CPU”。举个例子，如果一个“physical CPU”包含2个core，并且一个core包含2个hardware thread。则一个“处理器单元”就是一个hardware thread。

DMA Remapping简介

DMA（Direct Nemory Access） Remapping是一种用来限制硬件设备只能使用DMA访问预先分配的内存区域（domain or physical memory regions）的技术。DMA Remapping会把DMA请求里的地址转化成正确的物理内存地址，同时还会检查设备是否允许访问指定的内存。请看下图：

虚拟机的操作系统（Guest OS）所提供的物理地址称为Guest Physical Address （GPA） ，它不一定与实际的物理地址一致，也就是Host Physical Address （HPA），而DMA技术则要求访问真实的物理地址。DMA Remapping技术可以把Guest OS提供的GPA转化成HPA，然后数据就可以直接发送到Guest OS的缓冲区（buffer）了。

主机平台（host platform）可以支持一个或多个DMA remapping硬件单元（hardware unit），每个硬件单元remapping从它控制的作用域内发出的DMA remapping请求。主机固件（BIOS）需要把每个DMA remapping硬件单元报给系统软件（比如操作系统）。

DMA remapping硬件单元使用source-id来标示发出DMA请求的设备。对一个PCI Express设备，source-id就是resource identifier：

 ________________________________________________________
|____Bus(8 bits)_________|__Device(5 bits)|_func(3 bits)_|

Root-entry作为最顶层的数据结构，会把某特定PCI总线上的设备映射到对应的domain。一个context-entry会把一个地址总线上的某个具体设备映射到对应的domain。参考下图：

每个root-entry会有一个指向一个context-entry的表的指针，而每个context-entry则会包含如何用来进行地址转化的结构。

Linux kernel 笔记（1） ——CPU在做什么？

In fact, in Linux, we can generalize that each processor is doing exactly one of three things at any given moment:
a) In user-space, executing user code in a process
b) In kernel-space, in process context, executing on behalf of a specific process
c) In kernel-space, in interrupt context, not associated with a process, handling an
interrupt

在Linux中，任何时候，CPU都在做下面三件事中的一件：

a）运行进程的用户空间代码；
b）运行进程的内核空间代码；
c）处理中断（也是工作在内核空间，但不与任何进程关联）。

DMA（Direct Memory Access）简介

DMA（Direct Memory Access）是指在现代计算机系统上，外接设备可以不用CPU干预，直接把数据传输到内存的技术。

DMA控制器（controller）是一种特殊的硬件，它用来管理数据传输和总线仲裁。当要发起数据传输时，它会发一个申请使用系统总线的DMA请求信号给CPU，CPU完成当前操作后，就会让出系统总线，同时会发一个DMA确认信号给DMA控制器。接下来，DMA控制器接管系统总线，开始数据传输。数据传输完毕后，DMA控制器会通知CPU重新接管总线。

正常情况下，CPU全权负责内存的读写操作，而DMA技术可以把CPU解放出来，这将使计算机性能得到显著改善。

参考资料：
DMA (Direct Memory Access)。

硬件虚拟化（hardware virtualization）浅析

硬件虚拟化（hardware virtualization）可以创建出多个系统虚拟机实例（system virtual machine instance），这些虚拟机可以运行整个操作系统（包括它们的内核）。硬件虚拟化分为以下几种：

a）Full virtualization - binary translation：提供一个由虚拟化硬件部件组成完整的虚拟化系统，可以在上面安装一个不需修改的，完整的操作系统。这项技术结合了直接的处理器执行和必要时指令的二进制转化（binary translation）。

b）Full virtualization - hardware-assisted：提供一个由虚拟化硬件部件组成完整的虚拟化系统，可以在上面安装一个不需修改的，完整的操作系统。这项技术利用了处理器的支持，使得执行虚拟机更加有效率（比如AMD-V和Intel-VT扩展）。

c）Paravirtualization：提供一个支持接口（interface）的虚拟系统，虚拟机操作系统（guest OS）利用这个接口就可以有效地利用宿主机（host）资源（通过hypercalls），而不需要所有组件的完全虚拟化。

还有一种hybrid virtualization，利用hardware-assisted virtualization加上一些高效的paravirtualization调用，可以提供更好的性能（performance）。

Hypervisor（或被称为Virtual Machine Monitor (VMM)）是用来创建虚拟机的，它可以由软件（software），硬件（hardware）或固件（firmware）实现。有2种类型的hypervisor，请参考下图：

类型1）这种hypervisor直接运行在处理器上（例如：hyper-V，KVM），也被称之为native hypervisor或bare-metal hypervisor。Hypervisor的管理工作是通过一个享有特权模式的guest OS来进行（在上图中，为Guest OS #0）,这个guest OS可以创建和启动其它的guest OS。

类型2）这种hypervisor运行在宿主机操作系统上（例如：VirtualBox）。由宿主机操作系统负责管理hypervisor和启动新的guest OS。

参考资料：
Systems Performance: Enterprise and the Cloud。

闲侃CPU（四）

CPU利用率（utilization）是指CPU在一段时间内用于做“有用功”的时间和整个这段时间的百分比值。所谓的“有用功”即CPU没有运行内核（kernel）IDLE线程，而是运行用户级（user-level）应用程序线程，或是其它的内核（kernel）线程，或是处理中断。

CPU用来执行用户级（user-level）应用程序的时间称之为user-time，而运行内核级（kernel-level）程序的时间称之为kernel-time。

计算密集型（computation-intensive）程序也许会把几乎所有的时间用来执行用户级（user-level）程序代码。而I/O密集型（I/O-intensive）程序有相当多的时间用来执行系统调用（system call），这些系统调用将会执行内核代码产生I/O。

当一个CPU利用率达到100％时，称之为饱和（saturated）。在这种情况下，线程在等待获得CPU时，将会面临调度延迟（scheduler latency）的问题。

闲侃CPU（三）

CPU执行一条指令包含下面5个步骤，其中每个步骤都会由CPU的一个专门的功能单元（function unit）来完成：
（1）取指令；
（2）解码；
（3）执行指令；
（4）内存访问；
（5）写回寄存器。
最后两个步骤是可选的，因为很多指令只会访问寄存器，不会访问内存。上面的每个步骤至少要花费一个时钟周期（clock cycle）去完成。内存访问通常是最慢的，要占用多个时钟周期。

指令流水线（Instruction Pipeline）：是一种可以并行执行多条指令的CPU结构（architecture），也即同时执行不同指令的不同部分。假设上面提到的执行指令5个步骤每个步骤都占1个时钟周期，那么完成一个指令需要5个时钟周期（假设步骤4和5都要经历）。在执行这条指令的过程，每个步骤只有CPU的一个功能单元是工作的，其它的都在空闲中。采用指令流水线以后，多个功能单元可以同时活跃，举个例子：在解码一条指令时，可以同时取下一条指令。这样可以大大提高效率。理想情况下，执行每条指令仅需要1个时钟周期。

更进一步，如果CPU内执行特定功能的功能单元有多个的话，那么每个时钟周期可以完成更多的指令。这种CPU结构称之为“超标量（superscalar）”。指令宽度（Instruction Width）描述了可以并行处理的指令的数量。现代CPU一般是3-wide或4-wide,即每个时钟周期可处理3~4条指令。

Cycles per instruction（CPI）是描述CPU在哪里耗费时钟周期和理解CPU利用率的一个重要度量参数。这个参数也可以表示为instructions per cycle（IPC）。CPI表达了指令处理的效率，并不是指令本身的效率。

一	二	三	四	五	六	日
« 12月
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30