干货分享 | linux系统行为新型实时监控技术

最后更新：2022.03.05

导语：主要是从系统日常行为安全的角度分享一种能满足线上部署、能够将进程或文件创建、网络连接、网络I/O、文件I/O、shell操作、数据库操作、telnet操作、http访问、系统调用（syscall）和系统资源信息等系统相关的行为信息实时采集和存储的Linux行为监控技术。

万物互联和大数据技术的发展，让我们的生活更加活色生香，其背后离不开安全、稳定可靠的服务器系统。

为了保障服务器系统资源能被用户正常使用，避免被恶意行为劫持，我们需要记录服务器系统资源的使用情况、系统行为事件信息和I/O流量等信息，为服务器系统的运维和安全保障工作提供可靠的数据支撑。

这里我们主要是从系统日常行为安全的角度分享一种能满足线上部署、能够将进程或文件创建、网络连接、网络I/O、文件I/O、shell操作、数据库操作、telnet操作、http访问、系统调用（syscall）和系统资源信息等系统相关的行为信息实时采集和存储的Linux行为监控技术。

传统监控技术

现有系统行为监控的实现技术主要采用以下方法：

1.Linux Kprobes调试技术

Kprobes调试技术是一种专为Linux内核跟踪和调试而设计的特定API。Kprobes允许内核开发人员为任何内核指令以及函数入口和函数返回处理程序安装预处理程序和后处理程序，这些处理程序可以访问并更改寄存器。这样一来，内核开发者们就可以监控系统调用相关工作流程并簿记。利用Kprobes技术，内核开发人员可以在内核的绝大多数指定函数中动态地插入探测点来收集所需的调试状态信息；关于“调用了哪些系统”、“系统何时被调用”、“执行是否正确以及函数的入参和返回值是什么”等疑惑都可以轻松解决。此外，还能将这些信息屏幕输出或转储日志文件。

2.Linux内核的tracepoints(跟踪点)技术

内核的tracepoint是一种轻量级的hooks技术，使用高效的系统调用行为跟踪及相关性能计算，对系统本身的性能只有微小的时间损失和空间损失。通过注册syscall_enter_probe等定制的probe函数，在发生系统调用相关行为后，内核找到probe函数，并将参数等信息传递给probe函数。只要将probe函数中记录的相关行为信息输出，即可达到监控目的。

在现有的Linux系统行为监控工具中，采用Linux Kprobes调试技术、Linux内核的tracepoints(跟踪点)技术的工具有：strace、ftrace、tcpdump、lsof、htop、iftop、systemTap、perf……

以上的工具通常只能作为日常内核开发调试或日常运维分析工具来使用，主要用于开发调试或问题定位等简单的信息输出。然而，这些工具存在一些使用缺陷，可以总结为以下几点：

1、仅适用于内核开发人员调试使用或是运维人员在现场开启使用，各工具特点不一，难以满足系统全面监控的需求。

2、没有提供行为数据的良好存储能力，只提供简单的输出或是日志存储。由于没有数据缓存功能，容易造成行为数据的丢包，不能很好地支撑事后数据回放或分析。

3、不能进行线上运行的实时部署，只能在事后或事中开启，无法满足运维或安全监控的自动化要求。在高吞吐、高并发的服务器上，增加了服务器运行的负担。

新型实时监控缓存技术方案

针对现有技术无法满足线上实时部署、影响服务器性能、行为数据不具备良好的存储和缓存功能等缺陷，我们给大家分享一种具备实时监控和缓存功能的技术方案。

该方案主要是采用分层结构的模型进行架构的，具体分为内核probe层、基于内存映射mmap技术的buffer层、基于本地数据库的用户态缓存层。具体结构如下图：

业务流程描述

下面通过一个具体的系统行为事件信息采集-缓存的例子，来说明这三层之间的业务流关系：

首先，当用户发起网络连接服务主机操作，在服务主机系统中将发生socket accpet系统调用中断，服务进程陷入内核态，进入系统调用例程。

其次，通过Linux内核tracepoints机制，内核查找系统调用tracepoint的probe函数；此时，内核查到已经挂载的内核probe层的probe函数，并将相应accpet系统调用参数信息传入probe函数。

接下来，内核probe层的probe函数将传来的系统调用相关信息进行分类、序列化处理后，将相关参数信息转化为系统行为事件信息写入mmap buffer层。

最后，用户态缓存层进程通过mmap映射技术，从mmap buffer层读取具体的系统行为事件信息，将系统行为事件信息再次格式化为易于阅读和分析的字符串信息，并选择一种本地或分布式的缓存技术，持久化存储系统行为事件信息。

通过上述业务流程的分析，可以概括出上述三层主体功能分别为：内核probe层采集系统调用信息、mmap buffer层转化系统行为事件信息、用户态缓存层持久化系统行为事件信息。如下图所示：

通过上文可以得知，本方案与目前现有工具或方案的主要区别在于本方案体现了以下两方面：实时性、缓存持久化。

实时性

“实时性”就是指系统操作行为（系统调用）信息能够实时感知，“零损耗”地对信息进行采集。

我们知道系统行为信息的采集是由“内核probe层”完成的，在该层中主要也是采用了Linux内核字符设备驱动技术+Linux tracepoints机制。通过开发Linux内核字符设备驱动来驱动probe模块，在probe模块中挂载tracepoint函数，采集各系统调用的相关信息。

为了实现系统调用信息从内核probe层到用户态缓存层的“Zero copy”高效传递，在probe层与用户态缓存层采用了Linux内核驱动与用户态进程实现地址共享的mmap buffer 技术方案。

缓存持久化

经过内核probe层采集的系统行为事件信息存放在mmap buffer层中，为了实时高效地将这些事件信息持久化存储，本方案采用了一种开源高效的本地文件数据库引擎，该引擎占用资源少、无需安装和管理配置、数据吞吐率每秒可达上万条记录。这样轻型的持久化模块，可以通过“零损耗”的方式部署到线上服务器，而不占用服务器资源。

从mmap buffer层中读取到系统行为事件信息，在用户态缓存层还可以根据具体业务的要求，做一些数据处理分析，如格式化、过滤等。最终存放到文件数据库中，从而实现系统行为事件信息的持久化缓存。具体流程如图：