AI当「老板」:14位参赛仅4个保本,Fable 5成最强「AI老板」赚4715万美元

📅 2026/6/30 3:55:25 👤 编程新知 🏷️ 技术资讯
AI当「老板」:14位参赛仅4个保本,Fable 5成最强「AI老板」赚4715万美元 【导语普林斯顿大学举办CEO - Bench大赛让AI运营虚拟SaaS初创公司500天。14位“硅基CEO”参赛仅4个保住本金Fable 5以4715万美元夺冠这场比赛揭示了AI在商业运营中的潜力与局限。】「AI老板」大赛规则与挑战此次人工智能CEO大赛启动状态为公司拥有本金100万美金且零客户游戏目标是在500天模拟周期内尽可能多赚钱评判标准是游戏结束时账上剩余金额中途余额跌破零则宣告破产。核心是一个包含34个工具、19张数据库表的Python APIAI接入后可写代码、用SQL查询数据库并动态调整工作流。但博弈环境复杂AI需自行决定定价策略、广告投放渠道等诸多事项还面临着回报延迟、关键变量隐式存在、外部环境动态变化等「地狱级」难度的长程决策挑战。惨烈赛果多数AI「破产」比赛结果惨烈14位参赛选手中GLM 5.1等五位中道崩殂未能完赛。仅有3个模型跑出正收益冠军Fable 5赚得4715万美元给本金翻了整整47倍断层领先第二名Opus 4.8。值得注意的是排在第四名的是个纯rule - based的启发式算法赚了1576万美金超过了众多模型。比赛洞察探索优于谨慎从比赛过程中提炼出两个核心要点。一是探索谨慎GPT - 5.5和Claude Opus 4.8会不断尝试新策略而Claude Opus 4.7采取保守打法虽能存活却无法盈利说明在商业世界中积极探索更为重要。二是研究还提炼了发现隐藏信息、预测未来、快速适应变化、提前规划四项关键能力维度Opus 4.8和GPT - 5.5在这四个维度上高于其余模型的平均线。编程Agent并非万能研究员用Claude Code跑Opus 4.7用Codex跑GPT - 5.5结果两位选手表现大幅下降。原因可能是编程Agent的系统提示词是为软件开发场景优化的套在CEO角色上成了束缚。这表明不同行业需要特定的Harness框架和垂直场景的深度适配为模型厂商创造了新的增量空间。编辑观点此次AI运营公司比赛展现了AI的潜力与不足虽有模型表现出色但在复杂商业决策中仍有局限未来AI需在垂直场景适配等方面深入发展。