Linux内核实现机制概述Word文件下载.docx
- 文档编号:16544412
- 上传时间:2022-11-24
- 格式:DOCX
- 页数:15
- 大小:911.72KB
Linux内核实现机制概述Word文件下载.docx
《Linux内核实现机制概述Word文件下载.docx》由会员分享,可在线阅读,更多相关《Linux内核实现机制概述Word文件下载.docx(15页珍藏版)》请在冰豆网上搜索。
(4)TASK_ZOMBIE状态。
即僵死状态,终止进程所占有的资源全部释放之后,还保存着PCB信息,这种占有PCB但已被撤销的进程处于僵死状态(如僵死进程)。
(5)TASK_STOPPED状态。
即暂停状态,一般都是有运行状态转换来,正等待某种特殊处理,如调试跟踪的程序。
(6)TASK_DEAD状态。
新增加的状态,指已经退出但是不需要父进程回收的进程。
Linux内核创建一个进程时,首先会新建一个空的task_struct结构体,并将相应信息填入结构体中,然后将该结构体的指针添加进task数组,这个数组大小由NR_TASK(默认一般为512)指定。
调度程序一直维持着一个current指针,它指向当前正在运行的程序。
Task[0]必须指向init_task进程(0号进程)。
Linux中,内核将所有struct_task结构体以两种方式组织:
(1)哈希表,将进程的PID作为哈希算法的输入,可以用一个给定PID快速查找到进程,通过find_task_pid()来定位相应进程。
(2)双向循环链表,这样可以使系统很容易遍历所有的进程。
通过调用for_each_task()来实现遍历。
task_struct结构体中的变量list_head的作用就是将进程通过双向链表将进程连接起来。
链表的首部和头部都是init_task进程。
2、进程的创建
Linux提供了三种创建新进程的方法:
fork()、vfork()、clone()
三者分别对应系统调用的sys_fork()、sys_vfork()、sys_clone(),最终三者都是通过do_fork()
调用完成的。
目前Linux在创建进程时,采用“写时拷贝”技术,即在创建进程时并不将父进程所有的资源都复制给子进程,而是需要时才进行资源的拷贝,可以大大提高Linux的性能。
(1)fork()函数
调用fork后,系统会创建一个子进程,子进程和父进程不同的只有它的进程ID和父进程ID,其他都一样。
地址空间不共享,由于采用“写时拷贝”技术,子进程并不完全拷贝父进程的数据段和栈、堆等的复制,这些区域作为父子进程的共享区域,而且内核将他们访问权限设置为只读,如果父子进程任何一个试图修改此区域,内核就为那块内存拷贝制作一个副本。
之所以采用“写时拷贝”是因为一般fork后会调用exec调用其他的执行体。
父子进程的执行顺序不确定。
fork函数被调用一次,但是返回两次值。
两次返回值的区别是,子进程的返回值是0,父进程返回值是子进程的进程ID。
调用失败的话返回-1。
(2)vfork()函数
该函数与fork基本一致,只不过父子进程共享父进程的地址空间。
对于vfork创建新进程后,父进程会阻塞,子进程借用父进程的地址空间运行,直到子进程退出或者调用exec(exec函数族的作用是启动另一个程序的执行),父进程才可以运行。
vfork和fork返回值相同。
(3)clone()函数
clone函数和fork、vfork不同,它接受一个指向函数的指针和该函数的参数,在创建子进程成功时就调用这个函数执行。
3、进程终止
分为自愿终止和被动终止。
(1)自愿终止
a.显式自愿终止:
在进程中调用exit()函数
b.隐式自愿终止:
进程从某个程序的主函数退出
(2)被动终止
a.当进程接收到一个它既不能处理也不能忽略的信号和异常
b.进程接收到SIGABRT或者其他终止信号。
上述进程终止主要分为两步来完成:
(1)首先通过调用do_exit()函数释放掉与进程相关的大部分资源,并使进程处于僵死状态,但是进程描述符不释放。
(2)然后对进程的处理应看子进程与父进程谁先终止。
子进程先终止的话,则子进程一直处于僵死状态,直到父进程调用wait()或者waitpid()。
调用完成后则完全释放。
父进程先终止,则内核必须为子进程找到新的父进程,方法是首先给子进程在当前组内找一个线程最为父进程,不行就让init做父进程。
wait()函数的两个作用:
获取内核发送来的子进程终止消息和清除子进程的所有独享资源。
wait函数会首先挂起调用它的进程,知道该进程的一个子进程终止,此时函数会返回该子进程的PID给父进程。
4、线程的实现
Linux内核中没有专门的实现线程的机制,而是通过用户级程序库来实现的,例如pthread库,以便将所有的线程映射到一个单独的内核级进程中。
Linux提供的一种不区分进程和线程的方案:
通过使用一种类似于Solaris轻量级进程的方法,用户级线程被映射到内核级进程上,组成一个用户级进程的多个用户级线程被映射到共享同一个ID的多个Linux内核级进程上。
这使得这些进程可以共享文件和内存等资源,使得同一组中的进程调度切换时不需要切换上下文。
5、Linux进程调度
Linux是一个抢占式多任务系统,高优先级的可以抢占低优先级的CPU运行。
Linux优先级分为静态优先级和动态优先级。
Linux进程分为普通进程和实时进程两类。
实时进程创建时静态优先级就已经分配而且不会改变,不为实时进程计算动态优先级,实时进程的优先级范围为0~99都高于普通进程100~139。
普通进程优先级同样有静态优先级,但是没有作用,内核为普通进程计算动态优先级,并根据优先级分配时间片,来调度进程。
Linux提供了三种调度策略:
(1)SCHED_NORMAL面向普通进程的时间片轮转策略。
时间片用完后再选择一个优先级相对较高的进程进程调度。
(2)SCHED_FIFO面向对响应时间要求比较高、运行所需时间较短的实时进程。
(3)SCHED_RR面向对响应时间要求比较高、运行所需时间较长的实时进程。
总结调度,根据进程的分类调度可分为实时调度和非实时调度。
(1)实时调度—针对实时进程静态优先级。
对于实时进程,静态优先级决定了对CPU的抢占,当高优先级的进程到达时,会抢占低优先级进程的CPU,同样可以知道实时进程总是能抢占普通进程的CPU。
对于同一优先级的实时进程则又可采用两种调度算法:
FIFO(先来先服务)和RR(时间片轮转)。
例如,当前进程有A(30),B(20),C(20),D(5)且B早于C到达,括号内为进程的静态优先级。
则采用FIFO为:
D优先级最高先执行B,然后是B和C优先级相同,由于B早到达,所以先执行B再C,最后是优先级最低的A。
执行顺序为D—B—C—A.采用RR则仍然是先运行D,完毕后则交换运行B和C,运行完毕后是A。
顺序为D—B—C—B—C—A。
(2)非实时调度—普通进程动态优先级。
内核为普通进程计算动态优先级,根据此优先级为进程分配不同的时间片(RR),此优先级只作为分配时间片的基础,不能够通过动态优先级高低抢占CPU。
每次当进程的时间片使用完后都会为其重新计算动态优先级及分配的时间片。
二、系统调用
Linux的每个系统调用都是通过一些宏、一张系统调用表、一个系统调用入口来完成。
(1)宏
Linux为每个系统调用定义了一个唯一的编号,成为系统调用号。
通过宏定义方式定义,例如#define__NR_setup0。
Linux中系统调用号一旦分配就不可以再进行更改,否则已经编译好的木块将不能正常使用。
即使删除的系统调用,也不可以把之前已经分配的系统调用号重新分配,删除的系统调用有相应的空处理。
(2)系统调用表
系统调用表是一个函数指针数组,跳转时以系统调用号作为数组下表,找到相应的函数指针。
(3)系统调用入口
系统调用入口其实是由系统调用入口函数实现。
功能是将系统调用号放入eax寄存器后移用int$0x80使处理器转向系统调用入口,查找系统调用表,进而执行内核调用真正的函数。
Linux系统调用实际是软中断。
系统调用过程中,Linux首先通过执行相应的机器代码指令int$0x80产生一个软中断的异常处理信号,使系统自动从用户态切换到内核态。
三、中断机制
Linux中断主要分为硬中断(IRQ)和软中断两类。
IRQ主要分为:
短类型IRQ和长类型IRQ。
短类型IRQ需要很短的时间,在此期间机器的其他部分被锁定,而且不能发生其他中断被处理。
长类型IRQ需要较长的时间,期间可能发生其他中断。
当用户程序被来自外部信号中断后,立即保存现场工作,包括保存返回地址和用户寄存器等数据,然后查找中断向量表,找出相应的中断处理程序。
系统将中断分为三种:
捕俘、系统调用和外中断。
捕俘:
通过捕俘处理程序入口表查找到用户编写的处理程序执行。
系统调用:
软中断,通过系统调用表找到操作系统核心提供的服务例程。
外中断:
直接调用核心提供的外中断处理程序运行。
1、硬中断过程
Linux中,若一个硬件想向CPU发送中断信号,必须首先获得一个可用的“中断请求线”(即中断前必须获得一个可用的IRQ号),产生一个中断信号后以电信号发送给中断控制器(硬件芯片),接着CPU根据中断控制器的状态位判定中断的来源,获得中断号,根据中断号查找中断向量表,从表中获得中断处理函数的地址,然后跳转到中断函数入口地址处,执行这个函数。
2、中断处理程序—硬中断
中断处理程序主要做的工作:
a.保护未被硬件保护的一些必须的寄存器
b.识别各个中断源,分析产生中断的原因
c.处理发生的中断事件
d.恢复正常的工作
Linux规定中断处理程序是不可重入的,指的是同一中断线上不可以再发生新的中断,因为所有的处理器都将原中断所在的中断线已经屏蔽。
Linux中同样规定了同一中断程序不能够并行,这样同一个中断处理程序不可以被同时调用来处理嵌套的中断。
Linux中将中断处理程序分为两部分:
上半部和下半部。
上半部主要用来处理那些具有严格时限要求的任务。
上半部可以看做是一个用来“登记中断”功能的函数,将中断例程的下半部挂到下半部执行队列中。
上半部要求执行很快,主要是因为上半部完全屏蔽中断下执行,即不可中断。
下半部主要用于处理那些可以稍后执行的任务。
下半部是可中断的,当发生其他中断时,下半部可中断等待另外一个中断的上半部执行完毕后再继续执行。
3、下半部机制
Linux中提供了三种机制来实现下半部机制。
(1)软中断
软中断是一组静态定义的下半部结构,使用数组来组织软中断结构体,共有32个。
两个相同的软中断可以同时执行,必须在编译期间进行静态注册。
软中断机制一般都保留给系统中对时间要求最严格以及重要的下半部来使用。
Linux2.6中只有两个子系统是通过软中断来实现的:
网络子系统和SCSI。
(2)tasklet
tasklet要比软中断机制方便且简单,而且它本身也是基于软中断实现,属于软中断,既可以静态的创建tasklet,也可以动态的创建tasklet。
Linux中tasklet分为两类:
HI_SOFTIRQ和TASKLET_IRQ,前者比后者的优先级要高,优先调用前者。
在中断数组irq_desc[]中会分配两项给tasklet,即两种类型各占数组中一项。
两者分别以一个链表来组织。
(3)工作队列(workqueue)
工作队列与前两者最大的不同之处是它是唯一一个能在进程上下文中运行的下半部机制,意味着它能允许睡眠。
工作队列的实质是将推后的工作交给一个内核线程来完成,核心思想即时创建一个内核线程,Linux中已经默认提供了一种命名为enents一类工作者线程来实现工作队列。
4、中断的数据结构
Linux内核中定义了一个数组irq_desc[]数组来管理中断。
数组中的每一项对应一个中断源。
数组中的每个成员都为irq_desc_t结构体,即数组中的每一项对应着中断向量表中的一项。
(1)irq_desc_t结构体
irq_desc_t结构体用来描述中断源。
其中结构体中的handler指向hw_interrupt_type结构体的指针,action变量指向由irqaction结构体组成的单向链表的头的指针。
(2)irqaction结构体
该结构体中指明内核接收到特定IRQ后该才去的动作。
结构体中变量handler指向中断处理程序。
(3)hw_interrupt_type结构体
用来描述中断控制器,是一个抽象的中断控制器。
5、中断上下文
当一个中断处理程序正在执行时,内核处于中断上下文中。
中断上下文是不可以睡眠的。
与进程上下文是不同的,进程上下文即使睡眠了也可以重新调度将其唤醒,中断上下文不可以被重新调度。
中断处理程序没有自己的堆栈,它会共享被它中断的那个进程的堆栈,如果没有进程正在执行,则占用idle进程的堆栈(每个处理器都有自己的运行队列,队列中都有idle进程,当前运行队列都dequeue时则运行idle进程)。
四、内核同步机制
内核同步主要是同步各执行单元对共享数据的访问,尤其是多处理器的同步。
Linux2.6中内核同步机制主要包括以下几种:
原子操作、信号量(semaphore)、读写信号量(rw_semaphore)、自旋锁(spinlock)、大内核锁(BKL)等。
(1)原子操作
原子操作就是指某一个操作在执行过程中不可以被打断,要么全部执行,要不就一点也不执行。
原子操作需要硬件的支持,与体系结构相关,使用汇编语言实现。
原子操作主要用于实现资源计数,很多引用计数就是通过原子操作实现。
Linux中提供了两种原子操作接口,分别是原子整数操作和原子位操作。
原子整数操作只对atomic_t类型的数据进行操作,不能对C语言的int进行操作,使用atomic_t只能将其作为24位数据处理,主要是在SPARC体系结构中int的低8为中设置了一个锁,避免对原子类型数据的并发访问。
原子位操作是针对由指针变量指定的任意一块内存区域的位序列的某一位进行操作。
它只是针对普通指针的操作,不需要定义一个与该操作相对应的数据类型。
(2)自旋锁
Linux自旋锁保证了任意时刻只能有一个执行线程进入临界区,其他试图进入临界区的线程将一直进行尝试(即自旋),直到获得该锁。
自旋锁主要应用在加锁时间不长并且不会睡眠的情况。
自旋锁的本质是对内存区域的一个整数的操作,任何线程进入临界区之前都必须检查该整数,可用则进入,都则一直忙循环等待。
自旋锁机制让试图获得该锁的线程一直进行忙循环(占用CPU),因此自旋锁适合于断时间内进行轻量级加锁。
而且自旋锁绝对不可以递归使用,否则会被自己锁死。
Linux自旋锁主要应用与多核处理器中,单CPU中不会进行自旋锁操作。
linux上的自旋锁有三种实现:
a.在单cpu,不可抢占内核中,自旋锁为空操作。
b.在单cpu,可抢占内核中,自旋锁实现为“禁止内核抢占”,并不实现“自旋”。
c.在多cpu,可抢占内核中,自旋锁实现为“禁止内核抢占”+“自旋”。
其中,禁止内核抢占只是关闭“可抢占标志”,而不是禁止进程切换。
显式使用schedule或进程阻塞(此也会导致调用schedule)时,还是会发生进程调度的。
(3)读/写自旋锁
Linux中规定,读/写自旋锁允许多个线程同时以只读的方式访问临界资源,只有当一个线程想更新数据时,才会互斥访问资源。
读写自旋锁包括一个24位读者计数和一个解锁标记来实现的。
(4)信号量
Linux中提供了两种信号量:
a.内核信号量,由内核程序使用
b.SystemVIPC信号量,由用户进程使用
当一个线程去请求以不可用的信号量时,和自旋锁不同,该进程会进入睡眠(不再占用CPU),加入到等待队列中,直到被唤醒,所以只有可睡眠的状态才可以使用信号量。
信号量实现的结构体semphore中有一变量count计数。
根据count取值的设定,信号量可以分为二元信号量和计数信号量,当count初值为1时,则为二元信号量。
计数信号量允许任意数量的锁持有者,这点和自旋锁是不同的(自旋锁只允许一个)。
(5)读/写信号量
读写信号量实际上对于读者使用的是一个计数信号量,写者使用的是二元信号量。
读写信号量同读写自旋锁一样提高了内核的并发度。
Linux内核时按照先进先出(FIFO)的顺序来处理等待读写信号量的进程。
具体过程是如果一个进程试图获取一个不可用的信号量时,加入到等待队列的末尾,当信号量可用时,内核首先唤醒等待队列的第一个进程,如果该进程为写进程,那么该进程获得信号量。
如果该进程如果为一个读进程,那么其后的所有的读进程都可以被唤醒并获得信号量,但是中间不能跳跃。
(6)BKL(BigKernelLock)
BKL即全局内核锁,也称大内核锁,它是一个全局自旋锁。
大内核锁也是用来保护临界区资源的,避免出现多个处理器上的进程同时访问同一区域,整个内核中只有一个大内核锁。
BKL是一个名为kernel_flag的自旋锁,持有该锁的进程仍可以睡眠,当睡眠时持有的锁将被自动释放,该进程被唤醒时重新持有该锁。
Linux允许一个进程可以递归的持有BKL,BKL是一个递归锁。
它的设计思想是,一旦某个内核路径获取了这把锁,那么其他所有的内核路径都不能再获取到这把锁。
自旋锁加锁的对象一般是一个全局变量,大内核锁加锁的对象是一段代码,里面可能包含多个全局变量。
那么他带来的问题是,虽然A只需要互斥访问全局变量a,但附带锁了全局变量b,从而导致B不能访问b了
(7)屏障
屏障或称内存屏障,是用来解决内存同步问题的,具体为对由于编译器的优化和缓存的使用,导致对内存的写入操作不能及时的反应出来,也就是说当完成对内存的写入操作之后,读取出来的可能是旧的内容的一种解决机制。
内存屏障分类:
a.编译器引起的内存屏障
b.缓存引起的内存屏障
c.乱序执行引起的内存屏障
五、内存管理机制
内存管理主要负责完成当进程请求内存时给进程分配可用的内存,当进程释放内存时,回收相应的内存,同时负责跟踪系统中相应内存的使用状态。
Linux采用页式内存管理,页是物理内存管理的基本单位。
但严格来说Linux采用的是段页式内存管理,既分段也分页。
内存映射的时候,先确定对应的段,确定段基地址,段内分页,再找到对应的页表项,确定页基地址,再由逻辑地址的低位确定的页偏移量就能找到最终的物理地址。
但Linux中的所有段地址都是0,即所有的段是相同的,之所以有段的概念是因为Linux为了符合硬件体系。
所以Linux实际采用的是页式内存管理,但段的概念在内核中确实存在。
1、物理内存的管理
Linux中首先将内存分为若干个节点,每个节点下面又可分为1~3个区,每个区下面会有若干个页。
(1)节点
内存节点主要是依据CPU访问代价不同而划分的。
一个CPU对应一个节点。
内核数组node_data[]形式组织节点,存储的为structpage_data_t指针来描述内存分区。
(2)区
内核以struct_zone来描述内存分区。
内核将所有的物理页分为3个区:
ZONE_DMA、ZONE_NORMAL、ZONE_HIGHMEM。
ZONE_DMA区中包含的页可以用来进行DMA操作,即直接内存访问操作,通常为物理内存的起始16M。
ZONE_NORMAL区包含的页是可以进行正常的内存映射的页物理内存为16~896M。
ZONE_HIGHMEM区称为“高端内存”,该区所包含的页不可以进行永久映射,即不可以永久映射到内核地址,物理内存896M以后的。
高端内存的边界为896M的原因:
32为Linux系统中虚拟内存空间为0-4G,3G-4G为内核态。
为了应对内核映射超过1G,Linux采取的策略:
内核地址空间的896M采用固定映射,映射方法:
虚拟地址-3G=物理地址,只能映射896M,即3G~3G+896M,剩余的128M(3G+896M~4G)采用动态映射。
Linux下以structzone结构体来表示一个区,在该结构体中变量structpage*zone_mem_map用来管理该区下的内存映射表。
(3)页
每一个物理页框都使用一个数据结构structpage来描述,该结构体中的lru变量构建用于LRU页面置换的链表。
在页框空闲情况下,该成员变量用于构建伙伴算法、链表同等大小的空闲内存块。
大多数32bit的操作系统的页大小为4KB。
2、伙伴算法
Linux采用的是伙伴(Buddy)算法对物理内存进行管理。
伙伴机制是操作系统的一种动态存储管理算法,该算法通过不断平分较大的空闲内存块来获得较小的空闲内存块,直到获得所需的内存块。
当内存释放时,该算法尽可能的合并空闲块。
该算法要求内存块的分配和合并都是以2的幂次方为单位。
在“区”内存结构体structzone中有一structfree_area类型的数组free_area[],数组最大为12个元素。
数组的下标k对应着固定大小2^k个页框空闲内存区域的双向链表头。
当需要空闲块为4(即2^2)个页框时则查找free_area[2],如果没有合适的,则查找free_area[3],直到找到合适的。
3、slab分配器
Linux中引入slab是为了减少对伙伴算法的调用,采用slab分配器来减少频繁分配和释放内存数据结构的开销,同时减少了碎片的产生。
slab分配机制是基于伙伴算法之上实现。
slab是基于一组对象缓存,把不同对象划分为caches(物理内存),每个cache保存一种类型的对象,每个cache由一个或者多个slab组成,每个slab包含一个或者多个page组成。
每个slab处于3中状态之一,即full、partial和empty(分别是满、部分满、空),其中满状态的slab没有任何可分配的空闲对象。
当请求空闲对象时则从部分满和空的slab中分配。
Linux内核中的cache以结构体kmem_cache_s来表示,结构体中变量lists中存储的为三个链表分别对应于slab的三种状态。
总结来说,当为一对象申请内存时,首先查找到该对象的cach
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Linux 内核 实现 机制 概述