Linux 内核静态追踪技术的实现-linux内核源码详解

[[434855]]

前言：最近在探索 Node.js 调试和诊断方向的内容，因为 Node.js 提供的能力有时候可能无法解决问题，比如堆内存没有变化，但是 rss 一直上涨。所以需要深入一点去了解更多的排查问题方式。而这些方向往往都涉及到底层的东西，所以就自然需要去了解内核提供的一些技术，内核提供的能力，经过多年的发展，可谓是百花齐放，而且非常复杂。本文简单分享一下内核的静态追踪技术的实现。追踪，其实就是收集代码在执行时的一些信息，以便协助排查问题。

1 Tracepoint

Tracepoints 是一种静态插桩的技术，实现虽然复杂，但是概念上比较简单。比如我们打日志的时候，就类似这种情况，我们在业务代码里，写了很多 log 用来记录进程在运行时的信息。Tracepoints 则是内核提供的一种基于钩子的插桩技术。不过和打日志不一样的是，我们想在哪里打就在哪里加对应的代码，而 Tracepoints 则几乎是依赖于内核决定哪里可以插桩，说几乎是因为我们也可以写内核模块注册到内核来通知插桩点。下面来通过一个例子看一下 Tracepoint 的使用和实现(例子来自内核文档 tracepoints.rst)。分析之前先看一下两个非常重要的宏。第一个是 DECLARE_TRACE。

#define DECLARE_TRACE(name, proto, args)                \ 
    __DECLARE_TRACE(name, PARAMS(proto), PARAMS(args),      \ 
            cpu_online(raw_smp_processor_id()),     \ 
            PARAMS(void *__data, proto),            \ 
            PARAMS(__data, args))

我们只需要关注主体的实现，而不需要关注参数，继续展开。

#define __DECLARE_TRACE(name, proto, args, cond, data_proto, data_args) \ 
    extern struct tracepoint __tracepoint_##name;           \ 
    // 执行钩子函数 
    static inline void trace_##name(proto)              \ 
    {                               \ 
        if (static_key_false(&__tracepoint_##name.key))     \ 
            __DO_TRACE(&__tracepoint_##name,        \ 
                TP_PROTO(data_proto),           \ 
                TP_ARGS(data_args),         \ 
                TP_CONDITION(cond), 0);         \ 
    }                               \ 
    // 注册钩子函数 
    static inline int                       \ 
    register_trace_##name(void (*probe)(data_proto), void *data)    \ 
    {                               \ 
        return tracepoint_probe_register(&__tracepoint_##name,  \ 
                        (void *)probe, data);   \ 
    }                               \    
    // 注销钩子函数                    
    static inline int                       \ 
    unregister_trace_##name(void (*probe)(data_proto), void *data)  \ 
    {                               \ 
        return tracepoint_probe_unregister(&__tracepoint_##name,\ 
                        (void *)probe, data);   \ 
    }                               \ 
    static inline bool                      \ 
    trace_##name##_enabled(void)                    \ 
    {                               \ 
        return static_key_false(&__tracepoint_##name.key);  \ 
    }

__DECLARE_TRACE 主要是实现了几个函数，我们只需要关注注册钩子和执行钩子函数(格式是 register_trace_${yourname} 和 trace_${yourame})。接下来看第二个宏 DEFINE_TRACE。

#define DEFINE_TRACE_FN(name, reg, unreg)                \ 
    struct tracepoint __tracepoint_##name#define DEFINE_TRACE(name)                      \ 
    DEFINE_TRACE_FN(name, NULL, NULL);

我省略了一些代码，DEFINE_TRACE 主要是定义了一个 tracepoint 结构体。了解了两个宏之后，来看一下如何使用 Tracepoint。

1.1 使用

include/trace/events/subsys.h

#include <linux/tracepoint.h>DECLARE_TRACE(subsys_eventname, 
    TP_PROTO(int firstarg, struct task_struct *p), 
    TP_ARGS(firstarg, p));

首先在头文件里通过 DECLARE_TRACE 宏定义了一系列函数。subsys/file.c

#include <trace/events/subsys.h> 
 
 
 
DEFINE_TRACE(subsys_eventname);void somefct(void){ 
 
    ... 
    trace_subsys_eventname(arg, task); 
    ... 
 
} 
 
 
 
// 实现自己的钩子函数并注册到内核 
 
void callback(...) {} 
 
register_trace_subsys_eventname(callback);

然后在实现文件里通过 DEFINE_TRACE 定义一个 tracepoint 结构体。接着调用 register_trace_subsys_eventname 函数把自定义的钩子函数注册到内核，然后在需要收集信息的地方调用处理钩子的函数 trace_subsys_eventname。

1.2 实现

了解了使用之后，接下来看看实现。首先看一下注册钩子函数。

int tracepoint_probe_register(struct tracepoint *tp, void *probe, void *data){ 
    return tracepoint_probe_register_prio(tp, probe, data, TRACEPOINT_DEFAULT_PRIO); 
 
} 
 
 
 
int tracepoint_probe_register_prio(struct tracepoint *tp, void *probe, 
 
                   void *data, int prio){ 
    struct tracepoint_func tp_func; 
    int ret; 
 
    mutex_lock(&tracepoints_mutex); 
    tp_func.func = probe; 
    tp_func.data = data; 
    tp_func.prio = prio; 
    ret = tracepoint_add_func(tp, &tp_func, prio); 
    mutex_unlock(&tracepoints_mutex); 
    return ret; 
 
}

tracepoint_probe_register_prio 中定义了一个 tracepoint_func 结构体用于表示钩子信息，然后调用 tracepoint_add_func，其中 tp 就刚才自定义的 tracepoint 结构体。

static int tracepoint_add_func(struct tracepoint *tp, struct tracepoint_func *func, int prio){ 
    struct tracepoint_func *old, *tp_funcs; 
    int ret; 
    // 拿到钩子列表 
    tp_funcs = rcu_dereference_protected(tp->funcs, lockdep_is_held(&tracepoints_mutex)); 
    // 插入新的钩子到列表 
    old = func_add(&tp_funcs, func, prio); 
    rcu_assign_pointer(tp->funcs, tp_funcs); 
    return 0;}static struct tracepoint_func * func_add(struct tracepoint_func **funcs, struct tracepoint_func *tp_func, 
     int prio){ 
    struct tracepoint_func *new; 
    int nr_probes = 0; 
    int pos = -1; 
    /* + 2 : one for new probe, one for NULL func */ 
    new = allocate_probes(nr_probes + 2); 
    pos = 0; 
    new[pos] = *tp_func; 
    new[nr_probes + 1].func = NULL; 
    *funcs = new; 
 
}

注册函数的逻辑其实就是往自定义的结构体的队列里插入一个新的节点。接下来再看一下处理钩子的逻辑。

#define __DO_TRACE(tp, proto, args, cond, rcuidle)          \ 
    do {                                \ 
        struct tracepoint_func *it_func_ptr;            \ 
        void *it_func;                      \ 
        void *__data;                       \ 
        int __maybe_unused __idx = 0;               \ 
        // 拿到队列 
        it_func_ptr = rcu_dereference_raw((tp)->funcs);     \ 
        // 非空则执行里面的节点的回调 
        if (it_func_ptr) {                  \ 
            do {                        \ 
                it_func = (it_func_ptr)->func;      \ 
                __data = (it_func_ptr)->data;       \ 
                ((void(*)(proto))(it_func))(args);  \ 
            } while ((++it_func_ptr)->func);        \ 
        }                           \ 
    } while (0)

逻辑上和我们在应用层的类似。在执行钩子，也就是我们的回调时，我们可以通过内核接口把信息写到 ring buffer，然后应用层可以通过 debugfs 获取到这个信息。

2 trace event

有了 Tracepoint 机制后，我们就可以写模块加载到内核中实现自己的插桩点。但是内核也为我们内置提供了非常多的插桩点。具体是通过 trace event 来实现的。下面看一个例子。

#define TRACE_EVENT(name, proto, args, struct, assign, print)   \ 
    DECLARE_TRACE(name, PARAMS(proto), PARAMS(args))TRACE_EVENT(consume_skb, 
 
    TP_PROTO(struct sk_buff *skb), 
 
    TP_ARGS(skb), 
 
    TP_STRUCT__entry( 
        __field(    void *, skbaddr ) 
    ), 
 
    TP_fast_assign( 
        __entry->skbaddr = skb; 
    ), 
 
    TP_printk("skbaddr=%p", __entry->skbaddr));

上面定义了一个宏 TRACE_EVENT，它本质上是对 DECLARE_TRACE 的封装，所以这里是定义了一系列的函数(注册钩子、处理钩子)。然后在 consume_skb 函数中处理了注册的钩子。

void consume_skb(struct sk_buff *skb){ 
    trace_consume_skb(skb); 
    __kfree_skb(skb); 
 
}

3. 总结

内核提供了非常丰富但是也非常复杂的机制，从而用户可以通过内核的能力获取到更底层的数据，用以排查问题和做性能优化。我们可以看到插桩的这种机制是一种静态的机制，我们通常需要依赖当前版本的内核所支持的桩，从而获得对应的信息，但其实内核也提供了动态追踪的能力，可以实现热插拔获取信息的能力。总的来说，Linux 下的追踪技术多种多样，虽然非常复杂，但是上层也提供了各种更方便的工具，这些能力是我们深入排查问题的利器。