我们知道Netty是一个基于JDK的nio实现的网络编程框架,那Netty的服务端是怎么启动的呢,包括他是何时register 的,何时 bind 端口的,以及何时开始读取网络中的数据的?
让我们带着这个疑问,通过一个官方的例子来深入探究Netty服务端的启动过程。
PS:本文基于netty源码的4.1分支进行分析。
首先我们拿一个最简单的EchoServer的例子来举例说明,具体的代码如下:
-  EventLoopGroup bossGroup = new NioEventLoopGroup(1); // 1
-  EventLoopGroup workerGroup = new NioEventLoopGroup();
-  try {
-  ServerBootstrap b = new ServerBootstrap();
-  b.group(bossGroup, workerGroup)
-  .channel(NioServerSocketChannel.class) // 2
-  .option(ChannelOption.SO_BACKLOG, 100)
-  .handler(new LoggingHandler(LogLevel.INFO)) // 3
-  .childHandler(new ChannelInitializer<SocketChannel>() { // 4
-  @Override
-  public void initChannel(SocketChannel ch) throws Exception {
-  ChannelPipeline p = ch.pipeline();
-  if (sslCtx != null) {
-  p.addLast(sslCtx.newHandler(ch.alloc()));
-  }
-  p.addLast(new EchoServerHandler());
-  }
-  });
-  // Start the server.
-  ChannelFuture f = b.bind(PORT).sync(); // 5
-  // Wait until the server socket is closed.
-  f.channel().closeFuture().sync();
-  } finally {
-  // Shut down all event loops to terminate all threads.
-  bossGroup.shutdownGracefully();
-  workerGroup.shutdownGracefully();
-  }
从上面的代码来看,在启动的过程中共有5处地方需要我们关注,不过最重要的启动服务端的代码,还是在最后第5步的时候。
为了更加清晰的描述整个启动的过程,也便于我们更好的理解和记忆,我将使用多图形少代码的形式来表达。
首先我把启动过程的一个大致流程画成如下的图:

其中有以下几个核心的方法:
-  channel()
-  handler()
-  childHandler()
-  doBind()
除此之外,还有一个初始化EventLoopGroup类的方法:
-  NioEventLoopGroup()
一、初始化EventLoopGroup
我们从最初的初始化 EventLoopGroup 类开始吧,从源码中可以看到是一层一层的构造方法的调用,然后再super到了父类中,最终会调用到 AbstractEventExecutor 类,具体的调用流程如下图所示:

这个过程中创建了几个重要的实例,我用淡蓝色标记出来了。
首先我们需要知道的是,在Netty中有几个比较重要的类:
-  EventLoop 
-  EventLoopGroup 
-  EventExecutor 
-  EventExecutorGroup 
他们之间的关系图如下所示:

EventLoop和EventExecutor说到底都是一种Executor。
然后通过调用ServerBootstrap的group()方法,我们将创建的EventLoopGroup对象分别赋值给了ServerBootstrap的 group 和 childGroup 属性。
二、执行channel()方法
初始化完了EventLoopGroup之后,接着就开始执行 channel() 方法了,这个方法很简单,就是通过 ReflectiveChannelFactory 类创建了一个 channelFactory ,这个 channelFactory 后面会很有用,都是通过它来创建需要的Channel实例的。这里我就不贴具体的代码了,具体的执行过程可以用下面的图来表示:

通过调用该方法,ServerBootstrap类的 channelFactory 属性就被赋予了值,并且该ChannelFactory的实现类是通过反射来创建Channel的。
后面在需要创建Channel的时候,会调用该channelFactory的 newChannel() 方法,执行该方法之后,会创建三种非常有用的对象:
-  channel 
-  pipeline 
-  unsafe 
三、执行handler()方法
该方法没有创建其他的对象,只是把用户提供的方法参数中所表示的ChannelHandler对象通过该方法来赋值给ServerBootstrap的 handler 属性。
PS:这里创建的handler在后面的初始化时会使用到
四、执行childHandler()方法
该方法没有创建其他的对象,只是把用户提供的方法参数中所表示的ChannelHandler对象通过该方法来赋值给ServerBootstrap的 childHandler 属性。
PS:这里创建的childHandler在后面的初始化时会使用到
五、执行doBind()方法
Netty启动过程中最复杂,步骤最多的就是这个方法了,不过不用担心,我已经把该方法核心的执行过程整理好了,如下图所示:

这里我推荐大家在读源码的时候,可以拿一张纸,一支笔,用画图的形式把方法的调用过程,以及创建了哪些属性等等这些都记下来,一开始可以不用知道那些方法和属性具体是干什么的。先把整个调用流程理清楚,然后再一点一点细化,由点到面的扩展开来,最终把你那张图丰富成一个完整的调用图。
从图中可以看的出来,doBind方法拆分成了两个核心的方法:
-  initAndRegister() 
-  doBind0() 
第一个 initAndRegister 方法,从方法名字上就可以看得出来,它主要是执行某个init的过程,然后又执行了某个register的过程。
第二个 doBind0 方法,主要是执行了端口的绑定,然后创建了eventLoop不断的执行JDK中的Selector.select()方法,从注册到selector中的channel中选择符合条件的channel。另外创建了一个task,用来从选中的channel中读取数据,然后把读取到的数据给到childHandler进行处理。
下面让我们来深入到这两个方法的执行过程中去,看看到底发生了什么。
5.1 执行initAndRegister方法
initAndRegister方法的执行过程如下图所示:

initAndRegister方法做的事有两件:init和register。在这之前首先通过channelFactory创建了一个channel。该方法是在初始化EventLoopGroup的时候出现的,可以回头看一下,初始化的过程一共创建了三种对象:channel、unsafe、pipeline。
从该方法中慢慢的往下看,就可以看到,通过channelFactory创建了一个channel对象后,然后又拆分成了两个部分,分别对channel进行了初始化,和对channel进行了register。其中register方法,最终会调用到JDK中最原始的register方法,即把一个channel注册到一个selector中去。
-  init 
初始化的过程主要是把用户先前创建的handler和childHandler添加到pipeline中去。
-  register 
注册的过程主要是把该channel注册到selector中去,这里的channel就是用来接受客户端连接的。
5.2 执行doBind0方法
doBind0方法的执行过程如下图所示:
doBind0做的事也很明确:bind、select以及runTask。
bind的过程最终是调用到JDK中原生的bind方法,其中在unsafe中执行bind的过程时,除了执行了具体的bind之外,还在NioEventLoop中启动了一个线程,用来不断的执行JDK中selector的select方法。然后读取选中的channel中的数据,最后把读取到的数据丢给childHandler去处理。
JDK的epoll空轮询bug
我们知道JDK中的Selector会出现epoll空轮询的bug,若Selector的轮询结果为空,也没有wakeup或新消息处理,则发生空轮询,此时CPU使用率将达到100%。
Netty是通过重建Selector的方式修复该bug的,具体的做法是:
-  对Selector的select操作周期进行统计,每完成一次空的select操作进行一次计数, 
-  若在某个周期内连续发生n(SELECTORAUTOREBUILD_THRESHOLD)次空轮询,则触发了epoll死循环bug。 
-  重建Selector,判断是否是其他线程发起的重建请求,若不是则将原SocketChannel从旧的Selector上解除注册,重新注册到新的Selector上,并将原来的Selector关闭。 
具体的代码是在NioEventLoop中的select方法中执行的,代码如下:
-  private void select(boolean oldWakenUp) throws IOException {
-  Selector selector = this.selector;
-  try {
-  int selectCnt = 0;
-  long currentTimeNanos = System.nanoTime();
-  long selectDeadLineNanos = currentTimeNanos + delayNanos(currentTimeNanos);
-  for (;;) {
-  long timeoutMillis = (selectDeadLineNanos - currentTimeNanos + 500000L) / 1000000L;
-  if (timeoutMillis <= 0) {
-  if (selectCnt == 0) {
-  selector.selectNow();
-  selectCnt = 1;
-  }
-  break;
-  }
-  if (hasTasks() && wakenUp.compareAndSet(false, true)) {
-  selector.selectNow();
-  selectCnt = 1;
-  break;
-  }
-  int selectedKeys = selector.select(timeoutMillis);
-  selectCnt ++;
-  if (selectedKeys != 0 || oldWakenUp || wakenUp.get() || hasTasks() || hasScheduledTasks()) {
-  break;
-  }
-  if (Thread.interrupted()) {
-  selectCnt = 1;
-  break;
-  }
-  long time = System.nanoTime();
-  if (time - TimeUnit.MILLISECONDS.toNanos(timeoutMillis) >= currentTimeNanos) {
-  // timeoutMillis elapsed without anything selected.
-  selectCnt = 1;
-  // 当发生的select次数大于指定的阈值时,重建Selector
-  } else if (SELECTOR_AUTO_REBUILD_THRESHOLD > 0 &&
-  selectCnt >= SELECTOR_AUTO_REBUILD_THRESHOLD) {
-  // 重建Selector,以解决JDK中的epoll的bug
-  rebuildSelector();
-  selector = this.selector;
-  // Select again to populate selectedKeys.
-  selector.selectNow();
-  selectCnt = 1;
-  break;
-  }
-  currentTimeNanos = time;
-  }
-  } catch (CancelledKeyException e) {
-  if (logger.isDebugEnabled()) {
-  logger.debug(CancelledKeyException.class.getSimpleName() + " raised by a Selector {} - JDK bug?",
-  selector, e);
-  }
-  // Harmless exception - log anyway
-  }
-  }
完整的启动过程
通过上面的分析,我们最后来总结一下,Netty服务端在启动的时候做了以下的事情:
-  1.创建了EventLoopGroup、NioEventLoop的实例,并且创建了一个selector 
-  2.创建了一个channelHandler用来在未来实例化Channel -  创建Channel的过程中会一并创建pipeline和unsafe 
 
-  
-  3.设置了ServerBootstrap的handler和childHandler属性,用以在接收到数据后进行业务逻辑的处理 
-  4.通过channelFactory创建了channel实例,并对其进行了初始化和注册到selector上 
-  5.通过Unsafe调用JDK的bind方法将服务绑定到了端口上,并通过EventLoop创建了一个线程来循环执行以下任务 -  5.1.执行selector的select方法,并通过计数的方式,满足一定条件的情况下对selector进行重建,以解决JDK的epoll空轮询的bug 
-  5.2.对选中的channel执行读操作,并将读取到的数据丢给childHandler进行处理 
 
-  
一个完整的Netty服务端启动过程如下图所示:




















