edge-faas-cpp

Edge FaaS 冷启动缓解 —— 基于 EWMA + CUSUM 的预测调度

Proposal

Check #1

Check #2

Before Pre — 演示前最终结果

#1 — 我们在干嘛

#2 — 目前完成了什么

#3 — 测试结果与心路历程

#4 — 接下来要完成的事

构建与运行

相比 Check #1 的主要改动

Check #2 Checklist

如何运行

目前的发现与问题

相比 Check #2 的新增工作

主结果（5 模式 × 4 cycle，2026-04-20 单 trial）

CoW Template — 9× 冷启动提速

CUSUM 实测 trace — 报警落在 ramp，不在 peak

Workload 设计 — Bursty-Ramp × 4 cycles

Warmup-Sweep 消融 — Fixed vs Adaptive 各有 failure mode

已知局限 / Final Report 待办

核心设计原则

系统架构

已完成（系统核心，全部跑通）

还没做的（距离论文级评估的差距）

第一阶段 — V1.0：压力不够，结果无意义

第二阶段 — 阈值 Bug：全部被标为 COLD

第三阶段 — V2.0：参数校准，真实结果

语言： English 中文版

[!WARNING] 目前并非所有代码文件都已完成整理（例如注释完善、代码结构调整、风格统一等）。部分工作已经进行，但仍有许多尚未完成。所有代码将在学期结束、项目收尾之前整理为一份专业的工程代码。现阶段还有些凌乱，敬请谅解。🙏🙏🙏

Prof: Ramesh Govindan

Edge FaaS 冷启动缓解 —— 基于 EWMA + CUSUM 的预测调度

Proposal Report: Proposal.pdf

check #1 report: checkin1.pdf

本项目用 C++ 从零构建了一个裸机 FaaS（函数即服务）工作节点，专门针对边缘无服务器环境中的冷启动问题。

核心研究问题： 一个轻量级、O(1) 复杂度的预测启发式算法（EWMA + CUSUM + Little’s Law）能否在周期性流量下显著降低冷启动惩罚——同时比 ARIMA 这类重量级时序模型消耗少得多的资源开销？

不用 Kubernetes，不用 Docker。 采用 OS 级进程原语 + 写时复制（CoW）作为”代理沙盒”。目的是解耦并精确测量预测算法本身的开销，避免 KVM/容器层的噪声掩盖真实数据。这是导师指出 Firecracker 问题后的方法论调整：我们测的是控制面，不是数据面隔离技术。
Reactor 与 DispatchPool 严格分离。 epoll 事件循环永不阻塞；所有 UDS I/O 全部下沉到 64 线程的 DispatchPool。预测器与事件循环同线程运行，零竞争。
简单优先。 EWMA + CUSUM 均为 O(1) 时间和空间复杂度。我们主张这对周期性 IoT 流量已经足够，并计划用 Pareto 曲线（延迟 vs. 内存开销）与 ARIMA 正面交锋来证明这一点。

模块	文件	状态
C++ Epoll Reactor（ET 模式，非阻塞）	`tcp_server.hpp`	✅ 完成
64 线程 DispatchPool（所有阻塞 I/O 在此）	`DispatchPool.hpp`	✅ 完成
WorkerPool：fork + 缩容清道夫线程	`WorkerPool.hpp`	✅ 完成
Predictor：EWMA + CUSUM + Little’s Law	`Predictor.hpp`	✅ 完成
动态 T 反馈（`UpdateServiceTime`）	`web_server.hpp`	✅ 完成
Python Worker（模拟 T=500ms AI 推理）	`worker.py`	✅ 完成
两轮对比测试 + Drain 阶段	`load_tester.py`	✅ 完成

缺项	类型	优先级
ARIMA 基线（Python `statsmodels`）	代码 + 实验	🔴 高——导师明确要求
Reactive 基线（关掉预测器，只走冷启动兜底）	代码 + 实验	🔴 高——最坏情况对比，必须有
Static 基线（固定 N 个 worker，不扩缩容）	代码 + 实验	🟡 中——Pareto 曲线需要
内存 / CPU 开销测量	实验	🔴 高——Pareto 曲线的核心数据
预测器推理延迟测量	实验	🟡 中——证明 EWMA/CUSUM 远快于 ARIMA
CloudLab 裸机测试	环境	🟡 中——本机 loopback 没有真实网络噪声
周期性突发流量 workload（wrk）	实验	🟡 中——Proposal 中承诺用 wrk

日志：test_20260303_013519.log

V1.0 时 Python worker 处理的是 1×1 像素的图片，服务时间 T ≈ 0.001s。T 这么小，Little’s Law 算出来的结果是 N = ⌈60 × 0.001⌉ + 1 = 2，哪怕流量到了 60 RPS，2 个 worker 就够用了。预测器根本没有扩容的必要，冷启动从来不会发生。

更关键的问题是：当时还没做缩容（Scale-Down）。Cycle 1 期间 fork 出来的 worker 一直活着，Cycle 2 开始时进程池已经是满的，当然没有冷启动——这和 EWMA 预测没有任何关系，是因为 worker 从来没死过。

结果： P50=1.4ms，P95=1.7ms，P99=2.1ms，0 次冷启动。看起来很完美，实际上毫无意义。

根因： T 太小 → N 永远是 2 → 预测器无效。没有缩容 → Cycle 1 给 Cycle 2 免费”预热”了。

日志：test_20260303_022336.log、test_20260303_022743.log

在 worker.py 里加了 time.sleep(0.5) 之后（T=500ms），热路径延迟变成了约 502ms。但 load_tester.py 里的冷热判断阈值还是 rtt > 500——每个热请求（502ms）都被判为 COLD，结果 100% COLD，0 次温热。

修复方案：把阈值改为 700ms（热路径 ~502ms 和冷路径 ~800ms 的中点）。

日志：test_20260303_220742.log

修复阈值（700ms）、添加缩容（idle_timeout=6s）、在两轮之间加入 8 秒 drain 阶段（确保清道夫线程把所有 worker 都杀掉）后，得到了有意义的实验数据：

阶段	总计	WARM	COLD	P50	P99
C1-Warmup（2 RPS，10s）	20	18	2	503 ms	806 ms
C1-Spike（30 RPS，5s）	150	55	95	801 ms	806 ms
C1-Cooldown（2 RPS，6s）	12	12	0	502 ms	504 ms
[Drain：8s 零流量——清道夫杀掉所有 worker]
C2-Warmup（2 RPS，5s）	10	8	2	515 ms	812 ms
C2-Spike（30 RPS，5s）	150	64	86	801 ms	804 ms

核心对比——仅看 Spike 阶段：

C1-Spike：55 热 / 95 冷 → 热命中率 37%
C2-Spike：64 热 / 86 冷 → 热命中率 43%
冷启动减少：−9.5%

为什么 Cycle 2 会好一点？ C1 Spike 结束后，EWMA 爬升到约 15 RPS，经过 Cooldown 和 Drain 衰减到约 2.9。Little’s Law 给出 ⌈2.9 × 0.5⌉ + 1 = 3 个 worker——比 C1 Warmup 时多 1 个。这个多出来的预热 worker 贡献了 C2 Spike 的那额外 +9 次热命中。

为什么提升幅度不大？ CUSUM 是反应式的，不是预测式的：它在 Spike 第 2 秒才触发，而新 worker 需要 0.9s 冷启动，所以 CUSUM 的扩容对 Spike 阶段几乎来不及生效。Spike 阶段的改善主要来自 EWMA 记忆在 Warmup 阶段多预热了 1 个 worker，而不是 CUSUM 预见了流量峰值。根本上，30 RPS × 0.5s = 需要 15 个并发 worker，我们只预热了约 3 个，差距太大。

要达到论文级别的评估，按优先级顺序需要：

实现基线策略 —— Reactive（无预测器）、Static（固定 N）、ARIMA（Python statsmodels）。没有这三条基线，就没有 Pareto 曲线，也就没有论文 Claim 的落脚点。
测量开销 —— 各策略的 CPU 利用率和内存占用。这是与 ARIMA 区分的那条坐标轴。
CloudLab 裸机部署 —— 真实的裸机节点 + 真实网络延迟。本机 loopback 结果干净，但不能代表边缘场景。

# 依赖
pip install Pillow

# 编译
make clean && make

# 运行服务（端口 8080）
./server

# 运行两轮对比测试
python3 load_tester.py

日志输出： logs/test_<时间戳>.log

check #2 report: checkin2.pdf

改动	说明
CoW 模板进程	新增 `worker_template.py`，启动时一次性加载 Pillow，后续 worker 全部 CoW fork。每个 worker 冷启动从 ~800ms 降到 ~100ms
叙事重构	不再说”绕过 KVM 为了干净测量”。改为：边缘推理节点资源受限，跑不起 MicroVM，OS 进程池是合适的数据面
Reactive 基线	`./server reactive`，纯响应式，无预测，作为冷启动下界对比
Static 基线	`./server static 15`，固定 15 个 worker 全程保活，作为资源开销上界对比
ARIMA 基线	`./server arima`，独立 Python 进程跑 ARIMA(2,1,2)，验证重量级预测的开销代价
4 cycle 测试	`load_tester.py` 升级为 4 个周期（C1: warmup 8s；C2–C4: warmup 35s），给 ARIMA 足够历史数据
自动化实验脚本	`run_experiments.sh` 一键串行跑 4 个基线，自动归档日志到 `logs/exp_<mode>_<ts>/`
资源监控	`resource_monitor.py` 每秒采样 RSS、CPU、worker 数，输出 CSV 供 Pareto 分析

已完成：

☑ CoW 模板进程（worker_template.py + WorkerPool.hpp 重构）
☑ Reactive / Static / ARIMA 三个基线
☑ 4-cycle bursty-ramp 负载测试器
☑ 自动化实验脚本 + 日志归档
☑ 资源监控 + Pareto 分析
☑ 可视化（3 张图：冷启动柱状图、worker 时序图、Pareto 散点图）

待完成（Final Deliverable）：

☐ CloudLab 裸机部署
☐ wrk 高频负载生成
☐ 自适应 CUSUM 阈值（解决 C2/C4 退化问题）
☐ 前端 Web UI
☐ 最终报告

# 依赖
pip install Pillow statsmodels

# 编译
make clean && make

# 单独运行某个 mode
./server ewma          # 默认，EWMA+CUSUM 预测
./server reactive      # 纯响应式
./server static 15     # 固定 15 个 worker
./server arima         # ARIMA 预测

# 运行 4-cycle 负载测试
python3 load_tester.py

# 一键跑完 4 个基线（推荐，自动归档）
./run_experiments.sh

# 单独跑某个基线
./run_experiments.sh ewma

日志输出： logs/exp_<mode>_<时间戳>/（包含 test.log、server.log、resource.csv）

主要发现：

EWMA+CUSUM 在 C1/C3（奇数周期）实现了 0 冷启动，Reactive 从未做到。说明预测预热在 bursty-ramp 场景下有效
C2/C4 退化到 cold=36，根因是 CUSUM 固定阈值对测量窗口对齐敏感：第一个 Ramp 窗口只测到 ~9 RPS（跨 Cooldown/Ramp 边界），CUSUM 累积到 7.83，仅差 0.17 就触发，导致报警在 Spike 开始后才响
ARIMA 需要 4+ 个周期才开始收敛（C4 cold=10），C1–C3 表现不如 Reactive，验证了”历史冷启动”代价
EWMA+CUSUM 平均 RSS 最低（2,021 MB），尽管峰值 worker 数最多（23）——scavenger 定期回收使每次 fork 以 CoW 新鲜态启动

已知问题 / 局限：

CUSUM 固定阈值导致每隔一个周期退化，需要自适应阈值改进
目前在本机 loopback 测试，无真实网络延迟，CloudLab 结果可能不同
RSS 数值是各进程独立 RSS 之和，CoW 共享页被重复计算，真实物理内存（PSS）更低

本节是 2026-04-30 课堂演示（CSCI 599）前整理的最终结果，对 Check #2 之后新增的 CoW 量化、Adaptive CUSUM 基线、Warmup Sweep 消融 做了系统化补充。所有图见 figures/pre/ 目录及 MANIFEST.md。

新增	文件 / 命令	说明
CoW 冷启动量化	`figures/plot_cow.py` → `slide05_cow.png`	从 worker.py 模拟 cold start + server.log “Worker N ready (CoW fork)” 日志手测：`Naive (exec Python + import) ≈ 900 ms` vs `CoW (fork from warm parent) ≈ 100 ms`，9× 提速 · 无 runtime 依赖
CUSUM 实测 trace	`figures/plot_rps_cusum.py` → `slide06_rps_cusum.png`	用 sweep #3 真实 server.log（90 个 predictor tick、11 个 SPIKE DETECTED）重建 CUSUM 累积轨迹（drift=5, h=8），验证报警全部落在 ramp 爬升段
Adaptive CUSUM 基线	`./server ewma_adaptive`	用 EWMSD（running σ）做 z-score 归一化，作为 fixed-drift CUSUM 的对照
Workload 设计可视化	`figures/plot_workload.py` → `slide07_workload.png`	把 `load_tester.py` 的 4-cycle Bursty-Ramp 参数画成时间轴，标出 Ramp = CUSUM 检测窗口
5-mode 主结果	`figures/plot_main_result.py` → `slide08_main_result.png`	2026-04-20 重跑 5 个模式 × 4 cycle，cold counts 从各 `load_tester_output.txt` 的 SPIKE COMPARISON 表解析
Warmup-Sweep 消融	`figures/plot_sweep.py` → `slide10_sweep.png`	sweep #1（W=5, 120 s 端点）+ sweep #3（W=10, 20, 35, 60 s 内点），对比 fixed vs adaptive

总冷启动数 = 4 个 cycle 中 600 个 spike 请求里被判为 cold（RTT > 700 ms）的总数。

主要发现：

预测式（Fixed CUSUM）明显赢反应式：比 Reactive 少 30% cold starts，比 ARIMA 少 45%
47 里有 33 来自 C3 一次 clock-aliasing 事件：2 秒测量窗口正好把 ramp 切散，CUSUM 累加恰好过不了阈值，第一次 SPIKE DETECTED 推迟 4 秒（server.log 在 t=1776671064 时 CUSUM=18.24，而非预期 ~8–10）。这是 fixed-drift CUSUM 的已知 failure mode，不是 bug。不计这次事件，total ≈ 14，几乎贴着 Static-15 的 floor —— 但我们没钉死 15 个 worker
CoW Template 把每个新 worker 的 spin-up 从 900 ms 降到 100 ms（9× 提速、无 runtime 依赖）
CUSUM 在 ramp 阶段触发，不是 peak：单次 200 s 的 4-cycle run 共触发 11 次 SPIKE DETECTED，全部落在 ramp 爬升段

启动一次 template Python 进程预先 import 好 Pillow + 建好 socket 骨架，后续每个 worker 通过 fork() 从 template 复制。Linux 的 copy-on-write 让 fork 几乎免费 —— Pillow 代码 / import 表是只读的，不会触发页复制。

→ No image. No snapshot. No registry. Just fork() from a warm parent.

上面 panel：蓝线是测得 RPS，橙虚线是 EWMA baseline（α=0.2）—— 故意滞后让 RPS 一脱离就显出 gap。

下面 panel：绿色是 CUSUM 累加器，越过红色虚线 h = 8 时 ★ 报警 —— 11 次报警全部落在 ramp 爬升段，0 次落在 peak 之后。这就是 “catch the ramp, not the peak” 的实证。

每个 cycle 模拟一次”列车到站”周期：Warmup → Ramp(30 s) → Spike(30 RPS × 5 s) → Cooldown → Drain。

C1 warmup = 8 s：测真正冷启动（无任何历史）
C2–C4 warmup = 35 s：长到让 scavenger 把 worker 全部缩回去，但 EWMA baseline 还记得上次 spike —— 测 predictor 跨 cycle 的记忆
橙色 Ramp 即 CUSUM 的 30 s 检测窗口：所有想在 peak 那一刻拿到的 worker，都必须在这 30 s 内 fork 好

W (s)	Fixed CUSUM	Adaptive CUSUM
5	48	287
10	45	135
20	0	0
35	0	0
60	0	0
120	32	0

Adaptive 在短 W 翻车（τ_σ cliff）：running σ 在背靠背 burst 之间降不下来，z-score 永远过不了阈值。τ_σ ≈ 6.6 s 是已实测的衰减常数
Fixed 在长 W 翻车（aliasing miss）：阈值 h=8 是为典型 ramp 调的，2 s 测量窗口在边界 case 下会切散 ramp
Sweet spot: W = 20 ~ 60 s：两种都工作。主结果 W=35 正落在这里，所以两种都接近 0
网格总数：fixed=131 < adaptive=423 —— raw number 反而 fixed 赢

⚠ Framing：两个 failure modes，没有赢家。Fixed 适合紧节奏，Adaptive 适合松节奏。Predictor 不是一个选项 —— 是一个 knob。Adaptive 真正的贡献是 scale invariance + aliasing robustness，而不是更少的 cold starts。

Static-15（过度配置）

15 个 worker 全程钉死 —— 上界参照线

Adaptive CUSUM（EWMSD z-score）

W=35 落在 sweet spot

Fixed CUSUM（我们）

C3 出现 clock-aliasing 事件

Reactive（按 backlog 扩缩）

ARIMA（smoothed Target）

n = 1 per sweep point：受演示前时间预算限制，sweep 网格未做多 trial → CloudLab multi-trial（n ≥ 5）放在 final report
当前 Python load_tester 上限 ~300 RPS，不足以模拟真实 edge burst（目标 2 k+，需切到 wrk 或 Rust async）
Regime-aware ensemble 是 sweep 结果最直接的研究延伸：fixed + adaptive + meta-controller，自动按 workload 节奏选 —— 补上 W ≤ 10 s 的 gap，同时不丢 adaptive 的 scale invariance
本机 loopback 测试，无真实网络延迟
RSS 是各进程独立 RSS 之和，CoW 共享页被重复计算，真实 PSS 更低
演示交付物：docs/pre_how_4.md（13 页 Slide 稿，中英双语）+ figures/pre/ 5 张图

This site is open source. Improve this page.