2026-06-17 · benchmark-rotation

P0 block 后推进 P1/P2

用户决策不应阻塞全部安全工作。

The operator sees exactly what decision is needed while the agent can keep making bounded progress elsewhere.

reproducibleuser-gatefallback
LoopX P0 block 后推进 P1/P2 concrete user todo reproducible synthetic d goal / trigger todo / gate / evidence public outcome
01

案例背景

这个案例展示 P0 被用户决策卡住时,系统不应该继续硬跑,也不应该让整个目标停摆。原场景是 benchmark rotation:一个 lane 需要大型本地 image,其他 no-upload benchmark work 仍然安全。

公开仓库没有暴露原始 benchmark task 或本地 image 名,而是用 synthetic smoke 复现控制面行为。用户价值是明确看到一个需要决策的 P0,同时安全 fallback 可以继续,且 gated lane 不消耗额外自动推进预算。

02

仓库证据

证明点

被阻塞的 P0 决策不应该阻止安全的 P1/P2 工作继续。

LoopX 介入

concrete user todo、safe fallback、quota control

1具体 P0 用户决策
1safe fallback lane
0gated lane 自动推进
0private upload 依赖
synthetic fixture

`examples/showcase-0617-blocked-p0-safe-rotation-smoke.py` 复现 P0 user gate、被 gate 阻塞的 P0 agent lane 和 P1 no-upload fallback。

quota contract

smoke 固定 `should_run=True`、`requires_user_action=True`、`safe_bypass_allowed=True`、`safe_bypass_kind=scoped_user_gate_fallback` 等关键 contract。

selected fallback

fixture 选择 `terminal_bench_no_upload`,同时保留 `ale_image` gate 的 user-visible blocker。

rendered evidence

smoke 检查 markdown 中包含 `scoped_user_gate_fallback` 和 safe no-upload Terminal-Bench rotation。

03

LoopX 行为

04

用户看到什么

用户看到需要自己决定的具体问题,同时项目仍能在安全范围内推进。

这减少了注意力负担:不需要每 10 分钟看一次 agent 为什么没动,也不会错过真正需要决策的事项。

05

仓库来源

证据边界. Synthetic public fixture only; no private screenshots, raw tasks, internal links, local image names, or raw run logs.

Demopython3 examples/showcase-0617-blocked-p0-safe-rotation-smoke.py