摘要: Docker Notes系列为学习Docker笔记,本文是学习namespace 资源隔离的笔记
正文:
对于开发者而言,Docker的大热让人们思考容器隔离的实现,如对主机名与域名的隔离、资源隔离、网络的隔离、进程间通信的隔离、用户权限的隔离、PID的隔离等。Linux内核中提供了以下6种namespace隔离的系统调用
namespace | 系统调用参数 | 隔离内容 |
---|---|---|
UTS | CLONE_NEWUTC |
主机名与域名 |
IPC | CLONE_NEWIPC |
信号量、消息队列、共享内存 |
PID | CLONE_NEWPID |
进程编号 |
Network | CLONE_NEWNET |
网络栈、端口 |
Mount | CLONE_NEWNS |
文件系统 |
User | CLONE_NEWUSER |
用户与用户组 |
namespace api
创建一个namespace一般使用clone()来创建,其API还包括setns()、unshare()、/proc目录下的一些文件
然后通过不同的参数来确定使用哪种隔离方式
clone()
clone()
是fork()
的一种变种,fork()
是一种创建自身进程副本的操作,clone()可以通过flags参数来控制使用多少功能fork()在父进程中返回新创建子进程的进程ID,在子进程中返回0,出现错误返回负值
setns()
在使用Docker exec在运行的容器中执行一个新的命令就需要该方法,进程从原来的namespace加入到另一个namespace,通常会在setns()执行后使用clone()创建子进程继续执行命令,让原进程结束运行
加入namespace后可以通过引入execve()函数执行用户命令(调用/bin/bash 接收参数,运行起一个shell)
unshare()
unshare()与clone()很像,不同的是unshare()不需要启动一个新进程
UTS
通过在clone()方法的flags中选择CLONE_NEWUTS参数来实现隔离不同namespace下的主机名与域名
IPC
同上面一样,通过CLONE_NEWIPC参数来实现不同namespace下的进程间通信隔离(信号量、消息队列、共享内存),下列的不同namespace不再重复介绍传参方式
PID
PID namespace隔离非常实用会对进程PID重新编号,所以不同namespace下PID可以相同
1
2
3
4
5
6
7[root@cf proc]# docker exec -ti 69aa00d7aa3b /bin/bash
root@69aa00d7aa3b:/data# echo $$
18
root@69aa00d7aa3b:/data# exit
exit
[root@cf proc]# echo $$
28512Unix系统中,PID为1的进程是init,它是所有进程的父进程,负责维护进程表,因此若在Docker容器中运行多个进程,最先启动的进程应该是具有资源管理能力的,init进程还可以对信号进行捕捉,如Docker中接收容器结束信号后结束容器进程回收资源
在PID namespace下unshare()与setns()方法会有一些变化,其方法的调用者进程并不进入新的PID namespace,接下来的创建子进程才会在新的namespace。例如在docker中,docker exec会使用setns()加入一个已存在的namespace,但是最终还是会调用clone()函数
MOUNT
MOUNT namespace是第一个Linux namespace,所以标识符并不是CLONE_NEWMOUNT而是CLONE_NEWNS。创建MOUNT namespace时,会把当前的文件结构复制给新的namespace,新的namespace中的mount操作只会影响自身的文件系统,然后通过挂载传播来决定挂载事件的传播到别的挂载对象
Network
Network namespace主要是对网络资源的隔离,不同的Network namespace间可以通过创建veth pair(虚拟网络设备对,一端在新的namespace下,一端在原先的namespace中连接物理网络设备)来实现通信
在建立veth pair之前新旧namespace使用pipe(管道)来通信
User
User namespace主要是对用户ID、root目录、特殊权限等的隔离