Docker Notes-namespace

2018-07-14

namespace

摘要: Docker Notes系列为学习Docker笔记，本文是学习namespace 资源隔离的笔记

正文:

对于开发者而言，Docker的大热让人们思考容器隔离的实现，如对主机名与域名的隔离、资源隔离、网络的隔离、进程间通信的隔离、用户权限的隔离、PID的隔离等。Linux内核中提供了以下6种namespace隔离的系统调用

namespace	系统调用参数	隔离内容
UTS	`CLONE_NEWUTC`	主机名与域名
IPC	`CLONE_NEWIPC`	信号量、消息队列、共享内存
PID	`CLONE_NEWPID`	进程编号
Network	`CLONE_NEWNET`	网络栈、端口
Mount	`CLONE_NEWNS`	文件系统
User	`CLONE_NEWUSER`	用户与用户组

namespace api

创建一个namespace一般使用clone()来创建，其API还包括setns()、unshare()、/proc目录下的一些文件

然后通过不同的参数来确定使用哪种隔离方式
- clone()
  
  clone()是fork()的一种变种，fork()是一种创建自身进程副本的操作，clone()可以通过flags参数来控制使用多少功能
  
  fork()在父进程中返回新创建子进程的进程ID，在子进程中返回0，出现错误返回负值
- setns()
  
  在使用Docker exec在运行的容器中执行一个新的命令就需要该方法，进程从原来的namespace加入到另一个namespace，通常会在setns()执行后使用clone()创建子进程继续执行命令，让原进程结束运行
  
  加入namespace后可以通过引入execve()函数执行用户命令(调用/bin/bash 接收参数，运行起一个shell)
- unshare()
  
  unshare()与clone()很像，不同的是unshare()不需要启动一个新进程

UTS

通过在clone()方法的flags中选择CLONE_NEWUTS参数来实现隔离不同namespace下的主机名与域名
IPC

同上面一样，通过CLONE_NEWIPC参数来实现不同namespace下的进程间通信隔离(信号量、消息队列、共享内存)，下列的不同namespace不再重复介绍传参方式
PID

PID namespace隔离非常实用会对进程PID重新编号，所以不同namespace下PID可以相同
1
2
3
4
5
6
7
[root@cf proc]# docker exec -ti 69aa00d7aa3b /bin/bash
root@69aa00d7aa3b:/data# echo $$
18
root@69aa00d7aa3b:/data# exit
exit
[root@cf proc]# echo $$
28512
Unix系统中，PID为1的进程是init，它是所有进程的父进程，负责维护进程表，因此若在Docker容器中运行多个进程，最先启动的进程应该是具有资源管理能力的，init进程还可以对信号进行捕捉，如Docker中接收容器结束信号后结束容器进程回收资源

在PID namespace下unshare()与setns()方法会有一些变化，其方法的调用者进程并不进入新的PID namespace，接下来的创建子进程才会在新的namespace。例如在docker中，docker exec会使用setns()加入一个已存在的namespace，但是最终还是会调用clone()函数
MOUNT

MOUNT namespace是第一个Linux namespace，所以标识符并不是CLONE_NEWMOUNT而是CLONE_NEWNS。创建MOUNT namespace时，会把当前的文件结构复制给新的namespace，新的namespace中的mount操作只会影响自身的文件系统，然后通过挂载传播来决定挂载事件的传播到别的挂载对象
Network

Network namespace主要是对网络资源的隔离，不同的Network namespace间可以通过创建veth pair(虚拟网络设备对，一端在新的namespace下，一端在原先的namespace中连接物理网络设备)来实现通信

在建立veth pair之前新旧namespace使用pipe(管道)来通信
User

User namespace主要是对用户ID、root目录、特殊权限等的隔离

↑
大吉大利请我吃鸡！