listen 系统调用用于通知进程准备接受套接口上的连接请求,它同时也指定套接口上可以排队等待的连接数的门限值。超过门限值时,套接口将拒绝新的连接请求,TCP 将忽略进入的连接请求。
/*
fd, 进行监听的套接口的文件描述符
backlog,为指定连接队列长度的最大值
*/
asmlinkage long sys_listen(int fd, int backlog)
{
struct socket *sock;
int err, fput_needed;
//根据文件描述符获取套接口指针,同时返回是否需要减少对文件引用计数的标志
sock = sockfd_lookup_light(fd, &err, &fput_needed);
if (sock) {
//对参数门限值做检验,门限值不能超过上限
if ((unsigned)backlog > sysctl_somaxconn)
backlog = sysctl_somaxconn;
// 安全检查
err = security_socket_listen(sock, backlog);
/*
通过套接口系统调用的跳转表proto_ops结构,调用对应传输层协议中的 listen 操作。
SOCK_DGRAM 和 SOCK_RAW 类型不支持listen,只有 SOCK_STREAM 类型支持listen接口,
TCP中为 inet_listen()
*/
if (!err)
err = sock->ops->listen(sock, backlog); //inet_listen()
//根据 fput_needed,调用fput_light减少对文件引用计数操作
fput_light(sock->file, fput_needed);
}
return err;
}
上述的函数功能就是通过文件描述符获取对应的套接口指针,然后调用 inet_listen 进行监听操作。
int inet_listen(struct socket *sock, int backlog)
{
struct sock *sk = sock->sk;
unsigned char old_state;
int err;
lock_sock(sk);
/*
*只有插口的类型为 SOCK_STREAM,即“有连接”模式的插口,并且已经为其 bind()了插口地址,才允许 listen()。
*对于符合这些条件的插口也不是什么时候都可以调用 listen()的。
*插口的 sock结构中有个成分 state,用来实现一种“有限状态机”。只有当这个状态机处于 TCP_CLOSE 或 TCP_LISTEN
*这两种状态时才可以对其调用 listen()。
*在前面 sock_create()的代码中可以看到在创建一个插口时要调用函数 sock_init_data()对分配的sock数据结构进行初始化,
*在那里state被设置成 TCP_CLOSE。
*状态TCP_CLOSE 表示插口只是刚刚建立,尚未宣布成为 server 插口;
*TCP_LISTEN 则表示插口已经设置成 server 插口,当尚未建立起连接,并且不是在等待来自 client 一方的连接请求。
*只有在这两种状态下才允许改变插口的参数(主要是连接请求队列的容量)。
*/
err = -EINVAL;
if (sock->state != SS_UNCONNECTED || sock->type != SOCK_STREAM)
goto out;
old_state = sk->sk_state;
if (!((1 << old_state) & (TCPF_CLOSE | TCPF_LISTEN)))
goto out;
/* Really, if the socket is already in listen state
• we can only allow the backlog to be adjusted.
/
if (old_state != TCP_LISTEN) {
err = inet_csk_listen_start(sk, backlog);/ 开始侦听 */
if (err)
goto out;
}
sk->sk_max_ack_backlog = backlog;
err = 0;
out:
release_sock(sk);
return err;
}
int inet_csk_listen_start(struct sock *sk, const int nr_table_entries)
{
struct inet_sock *inet = inet_sk(sk);
struct inet_connection_sock *icsk = inet_csk(sk);
//创建接收队列,并把该队列和传输控制块绑定
int rc = reqsk_queue_alloc(&icsk->icsk_accept_queue, nr_table_entries);
if (rc != 0)
return rc;
sk->sk_max_ack_backlog = 0;
sk->sk_ack_backlog = 0;
inet_csk_delack_init(sk);
/* There is race window here: we announce ourselves listening,
• but this transition is still not validated by get_port().
• It is OK, because this socket enters to hash table only
• after validation is complete.
/
/ 设置控制块的状态 /
sk->sk_state = TCP_LISTEN;
/ 检查端口是否仍然可用,防止bind()后其它进程修改了端口信息 */
if (!sk->sk_prot->get_port(sk, inet->num)) { // tcp_v4_get_port()
inet->sport = htons(inet->num);
sk_dst_reset(sk);
/* 把sock链接入监听哈希表中 */
sk->sk_prot->hash(sk); // tcp_v4_hash
return 0;
}
sk->sk_state = TCP_CLOSE;
__reqsk_queue_destroy(&icsk->icsk_accept_queue);
return -EADDRINUSE;
}
启动监听时,做的工作主要包括:
创建半连接队列的实例,初始化全连接队列。 初始化 sock 的一些变量,把它的状态设为 TCP_LISTEN。 检查端口是否可用,防止bind()后其它进程修改了端口信息。 把sock链接进入监听哈希表 listening_hash 中。
创建半连接队列
listen_sock 结构用于保存 SYN_RECV 状态的连接请求块,所以也叫半连接队列。
queue 为连接请求控制块,nr_table_entries 为半连接的最大个数,即 backlog。
int sysctl_max_syn_backlog = 256;
int reqsk_queue_alloc(struct request_sock_queue *queue,
unsigned int nr_table_entries)
{
size_t lopt_size = sizeof(struct listen_sock);
struct listen_sock *lopt;
/* nr_table_entries必需在[8, sysctl_max_syn_backlog]之间,默认是[8, 256]
• 但实际上在sys_listen()中要求backlog <= sysctl_somaxconn(默认为128)
• 所以此时默认区间为[8, 128]
/
nr_table_entries = min_t(u32, nr_table_entries, sysctl_max_syn_backlog);
nr_table_entries = max_t(u32, nr_table_entries, 8);
/ 使nr_table_entries = 2^n,向上取整 */
nr_table_entries = roundup_pow_of_two(nr_table_entries + 1);
//为半连接队列申请内存
lopt_size += nr_table_entries * sizeof(struct request_sock );
if (lopt_size > PAGE_SIZE)
/ 如果申请内存大于1页,则申请虚拟地址连续的空间 /
lopt = __vmalloc(lopt_size,
GFP_KERNEL | __GFP_HIGHMEM | __GFP_ZERO,
PAGE_KERNEL);
else
/ 申请内存在1页内,则申请物理地址连续的空间 */
lopt = kzalloc(lopt_size, GFP_KERNEL);
if (lopt == NULL)
return -ENOMEM;
for (lopt->max_qlen_log = 3;
(1 << lopt->max_qlen_log) < nr_table_entries;
lopt->max_qlen_log++);
/* 获取一个随机数 */
get_random_bytes(&lopt->hash_rnd, sizeof(lopt->hash_rnd));
rwlock_init(&queue->syn_wait_lock);
//全连接队列头初始化
queue->rskq_accept_head = NULL;
// 半连接队列的最大长度
lopt->nr_table_entries = nr_table_entries;
write_lock_bh(&queue->syn_wait_lock);
//半连接队列设置
queue->listen_opt = lopt;
write_unlock_bh(&queue->syn_wait_lock);
return 0;
}