全程用 MiMo Code 开发——一个用 Harness 系统构建的 Harness 系统。
从零实现的 Agent 框架,具备自我进化能力——能从失败中学习、自动修复缺陷、甚至修改自己的源代码。覆盖 AI Coding / AI Agent / Harness Engineering 三大方向。
- 🏗️ 用 Harness 构建 Harness:全程使用 MiMo Code(SWE-bench Pro V2 57.2%,MIT 开源)开发,项目本身即是 Harness Engineering 的最佳实践证据
- 🧠 自进化引擎 L0-L4:从修复复用到架构自演进,Agent 能自己改自己的代码
- 📊 SWE-bench 评测:集成 Agentless 3 阶段策略,自动化 AI Coding 能力评测
- 🔒 企业级:权限控制、审计日志、可观测性仪表盘
- ✅ 52 项单元测试:覆盖核心模块
- 📝 105 commits:持续迭代的开发记录
graph TB
subgraph "Harness 六层架构"
L1[L1 信息边界层<br/>AGENTS.md + 角色提示]
L2[L2 工具系统层<br/>装饰器注册 + Schema]
L3[L3 执行编排层<br/>ReAct / Plan-then-Execute]
L4[L4 记忆状态层<br/>短期 64K + ChromaDB]
L5[L5 评估观测层<br/>独立评估器 + 仪表盘]
L6[L6 约束恢复层<br/>权限 + 熔断 + 审计]
end
subgraph "自进化引擎"
E0[L0 FixHistory<br/>跨会话复用修复]
E1[L1 SelfRepair<br/>自动调参/工具修复]
E2[L2 MetaOptimizer<br/>优化自优化组件]
E3[L3 Evolution<br/>复盘→技能库→画像]
E4[L4 Architecture<br/>源码级自演进]
E0 --> E1 --> E2 --> E3 --> E4
end
L1 --> L2 --> L3 --> L4 --> L5 --> L6
micro-agent/
├── agent/ # Agent 核心(1180 行 Agent Loop)
│ ├── loop.py # ReAct / Plan-then-Execute + 熔断 + 回路检测
│ ├── orchestrator.py # 多 Agent 编排 (fan-out / pipeline)
│ ├── subagent.py # 子 Agent 委派
│ ├── specialists.py # 专业化 Agent (Coder/Reviewer/Tester/Doc)
│ ├── diagnosis.py / root_cause.py / self_repair.py / verify.py # 自修复链
│ ├── governance.py # 权限控制 + 审计日志
│ ├── observability.py # 指标/追踪/报告
│ ├── evaluator.py # 独立评估 Agent (5 维度)
│ ├── token_optimizer.py # Token 用量优化
│ └── evolve/ # 进化引擎 L0-L4
├── eval/ # SWE-bench Lite 评测
│ └── swebench_runner.py # Agentless 3 阶段策略
├── ci/ # CI/CD 流水线 + 仪表盘
├── llm/ memory/ tools/ mcp/ sandbox/ # 基础设施
├── tests/ # 52 项单元测试
├── main.py # 交互式 CLI
└── ide_server.py # Web IDE
| 层级 | 能力 | 说明 |
|---|---|---|
| L0 | FixHistory | 跨会话复用已验证修复 |
| L1 | SelfRepair | 自动调参 / prompt / 工具代码 / 模型切换 |
| L2 | MetaOptimizer | 优化自优化组件自身 |
| L3 | Evolution | 复盘 → 技能库 → 画像 → 挑战生成 |
| L4 | Architecture | 读源码 + 生成改动 + 自测试 + 保留/回滚 |
- 300 实例 SWE-bench Lite 自动化评测
- Agentless 3 阶段策略(定位 → 修复 → 验证)
- 失败自动重试 + Plan-then-Execute 模式切换
- Gitee 镜像仓库支持
- 权限控制:工具级 allow/deny + 风险分级 + 配额 + 工作区隔离
- 审计日志:JSONL 格式,agent/tool/risk/details/time
- 可观测性:指标 / token 追踪 / 工具耗时 / 仪表盘
- Token 优化:prompt 缓存 / 输出压缩 / compact / flash 降级
- OpenHands / OpenClaw:Agent 框架对标,多 Agent 协作
- MCP Protocol:stdio / SSE 双传输,标准化接口
- DeepSeek V4 Pro:原生 Function Calling + reasoning_content
# 依赖
pip install chromadb httpx datasets unidiff GitPython
# 交互式 CLI
$env:DEEPSEEK_API_KEY = "your-key"
python main.py
# SWE-bench 评测
python -m eval.swebench_runner --max 5 --repo "django/django"
# CI 流水线
python -m ci.pipeline
# 开启 Plan-then-Execute 模式
agent = AgentLoop(plan_first=True, ...)本项目全程使用 MiMo Code 开发。MiMo Code 是小米 2026 年 6 月开源的 AI Coding 工具(MIT 协议),SWE-bench Pro V2 得分 57.2%,200 步以上长任务胜率 65%。
用 AI Coding 工具构建 AI Coding 框架——这本身就是 Harness Engineering 的最佳实践。
Apache 2.0 © 2026