![]()
这项由复旦大学计算机科学技术学院联合上海创新研究院及OpenMOSS团队共同完成的研究发表于2026年1月,论文编号为arXiv:2601.11354v1。有兴趣深入了解的读者可以通过该编号在学术数据库中查询完整论文。
说起人工智能,大家可能会想到聊天机器人或者图像识别,但你是否想过,当人工智能遇上太空这个终极考场时会发生什么?复旦大学的研究团队就做了这样一个有趣的实验——他们让最先进的人工智能系统去当太空调度师,看看它们能否在严苛的宇宙环境中胜任复杂的任务规划。
这个实验的背景其实很有意思。目前的人工智能在处理日常任务时表现不错,比如安排会议、规划路线等,但这些都是在相对宽松的环境下进行的。太空则完全不同——那里没有犯错的余地,资源极其有限,物理定律严格无情。研究团队想知道:当人工智能面对这样的极限挑战时,它们的表现会如何?
为了回答这个问题,研究团队创建了一个名为"AstroReason-Bench"的测试平台。这个平台就像是为人工智能设计的太空驾考场,包含了五种不同类型的太空任务考试。每一种考试都模拟了真实的太空环境约束,比如卫星的轨道运行、能源消耗、数据存储等物理限制。
一、太空调度的五大挑战
太空中的任务调度远比我们想象的复杂。研究团队设计的测试包含了五个不同的挑战场景,每个都有其独特的难点。
第一个挑战是深空网络调度。想象一下,你是一个电话总机的接线员,但你面对的不是普通的电话,而是来自火星、木星等遥远星球的通信请求。这些请求都有严格的时间要求,而你只有有限的天线资源。更糟糕的是,错过任何一个重要通信可能意味着失去珍贵的科学数据或者与航天器失去联系。这就是深空网络调度的现实情况。
第二个挑战是重访优化。这就像是安排一个摄影师去拍摄城市的不同角落,但这个摄影师坐在一颗快速移动的卫星上。有些地点需要定期监控(比如灾害多发地区),有些地点只需要拍摄一次就够了。卫星必须在有限的能源和存储空间内,合理安排拍摄计划,既要保证重要地区得到及时更新,又要完成所有的拍摄任务。
第三个挑战是区域覆盖。这个任务更像是用有限的画笔来填满一幅巨大的拼图。卫星需要拍摄大片的区域,比如整个亚马逊雨林或者墨西哥湾。但是,卫星的观测范围是有限的,就像用一支细笔来涂色一样,必须规划出最有效的路径来覆盖整个区域。
第四个挑战是立体成像。这个任务需要卫星从两个不同的角度拍摄同一个目标,就像人眼通过双眼视觉来感知深度一样。但在太空中,卫星必须精确控制拍摄的时间差和角度差,既要保证两张照片能够成功配对,又要满足复杂的几何约束条件。
第五个挑战是延迟优化。这个场景模拟了一个巨型卫星网络,就像是太空中的互联网。卫星之间需要建立通信链路,将地球上不同地点的信号进行中继传输。同时,这些卫星还要完成地球观测任务。这就像是一个快递员既要负责送包裹,又要负责转发电话消息,而且所有的路线和时间都需要精确协调。
每个挑战都有其独特的物理约束。比如,卫星的能源来源主要是太阳能,当卫星进入地球阴影时,它就无法发电,只能依靠电池维持运行。数据存储也是一个大问题——卫星的存储空间有限,如果拍摄了太多照片而没有及时传回地面,新的观测任务就无法进行。
二、人工智能的太空大考
为了测试人工智能在这些挑战中的表现,研究团队选择了六个目前最先进的大语言模型,包括Claude Sonnet 4.5、Gemini 3 Flash、DeepSeek V3.2等。这些模型就像是参加考试的学生,每个都有自己的特点和优势。
测试的方式很有趣。研究团队为每个人工智能提供了一套工具箱,就像给建筑工人提供锤子、螺丝刀和扳手一样。这些工具包括查询卫星状态、计算轨道位置、模拟观测窗口等功能。人工智能需要学会使用这些工具来完成复杂的任务规划。
整个测试过程就像是一场限时考试。每个人工智能都有2小时的时间来完成一个任务,计算资源也被限制在16GB内存和8个CPU核心内。这样的限制确保了测试的公平性,同时也模拟了实际部署时可能面临的资源约束。
测试结果既有意外,也在情理之中。在一些需要大量搜索和优化的任务上,比如深空网络调度,人工智能的表现确实不如专门设计的算法。这就像是让一个通才去和专业的国际象棋大师比赛一样,虽然通才很聪明,但在特定领域的深度上还是有差距。
但是,在一些需要理解复杂约束关系的任务上,人工智能展现出了令人惊喜的能力。比如在立体成像任务中,传统的贪心算法完全失败了,因为它们只会优化单个目标,无法理解两个观测之间的配对关系。而人工智能却能够理解这种复杂的依赖关系,成功地规划出了满足立体成像要求的观测序列。
三、令人意外的发现
研究过程中最有趣的发现来自对人工智能"思维过程"的观察。研究团队不仅记录了最终结果,还详细分析了人工智能是如何一步步解决问题的。
在延迟优化任务中,几乎所有的人工智能都犯了一个相同的错误——它们试图找到一颗能同时看到两个地面站的卫星来建立通信链路。这听起来很合理,但实际上在大多数情况下这是不可能的,因为地球是圆的,两个相距遥远的地面站不可能同时被一颗近地轨道卫星看到。
这就像是有人想要站在山顶上同时看到山的两边,但实际上由于地形阻挡,这是做不到的。大部分人工智能在发现找不到这样的卫星后,就认为任务无法完成,从而放弃了。
但有一个叫Kat Coder Pro的人工智能却想到了不同的解决方案。它意识到可以通过多颗卫星建立中继链路——第一颗卫星接收来自地面站A的信号,然后传给第二颗卫星,第二颗卫星再传给第三颗,最后传到地面站B。这种"接力"的思路让它成功完成了其他人工智能都无法解决的任务。
另一个有趣的发现是人工智能的"行动偏见"。在区域覆盖任务中,研究团队发现人工智能有一种急于行动的倾向。一旦理解了任务要求,它们就迫不及待地开始制定计划,而很少花时间去探索和了解环境。
这就像是一个游客到了一个陌生城市,还没有仔细研究地图就开始规划旅游路线。结果,人工智能制定的观测条带往往与卫星的实际运行轨道不匹配,导致大量的观测窗口无法利用。
为了验证这个假设,研究团队进行了一个有趣的实验。他们给人工智能增加了一个提示:"在制定计划之前,请先分析可用的工具并思考策略。"结果,在这个提示的帮助下,人工智能的表现有了明显改善——它开始主动查询卫星轨道信息,制定的观测计划也更加合理。
四、传统算法 vs 人工智能
为了客观评估人工智能的表现,研究团队还实施了几种传统的优化算法作为对照组。这些算法包括贪心策略、模拟退火等经典方法。
贪心算法就像是一个总是选择眼前最优选项的决策者。在每一步选择中,它都会挑选当前看起来最好的选项,但不会考虑这个选择对未来可能造成的影响。这种策略在简单问题上往往很有效,但在复杂的太空任务中却经常导致局部最优而错失全局最优解。
模拟退火算法则更加智能一些。它模仿了金属冷却过程中的退火现象——在高温时原子运动剧烈,可能接受看似不好的变化;随着温度降低,系统逐渐稳定到最优状态。这种算法在一些任务中表现不错,特别是在重访优化任务中,它通过不断的小幅调整找到了相对较好的解决方案。
有趣的是,在不同类型的任务中,人工智能和传统算法各有优劣。在需要大量计算和搜索的任务中,比如深空网络调度,专门设计的混合整数规划算法表现最佳,其性能指标(不满足率)达到0.30,而人工智能的表现大约在0.53-0.59之间。这个差距虽然明显,但考虑到人工智能是在完全不了解任务的情况下从零开始学习,这个结果其实已经相当不错了。
但在一些需要理解复杂约束的任务中,人工智能展现出了独特的优势。在立体成像任务中,所有的传统算法都完全失败了(覆盖率为0%),而最好的人工智能却达到了18%的成功率。这个差距反映了人工智能在理解和处理复杂关系方面的独特能力。
五、知识增强的实验
研究团队还进行了一个特别有意思的实验:他们给人工智能提供了相关的学术论文,看看这些"参考资料"是否能提升它的表现。这就像是让学生在开卷考试中查阅教科书一样。
实验结果很有启发性。当人工智能可以自由决定是否阅读和如何使用这些资料时,结果往往适得其反。它们有时会被论文中提到的问题困难程度吓到,过早放弃尝试;有时又会被论文中的高分结果激励,反复尝试一些不切实际的方法。
但是,当研究团队要求人工智能必须先制定详细计划,再开始执行时,情况就大不相同了。在这种"计划模式"下,人工智能会仔细阅读多篇论文,综合不同的方法,制定出混合策略。比如,在处理最难的深空网络调度问题时,它制定了这样的策略:首先使用混合整数规划算法生成初始方案以确保公平性和质量,然后应用回溯算法解决冲突,最后用贪心扩展算法利用剩余的天线时间。
这种知识增强的方法将人工智能的表现从原来的0.55-0.59提升到了0.50左右,虽然提升幅度不大,但这个实验揭示了一个重要发现:人工智能需要的不仅仅是知识,更需要正确的使用知识的方法。
六、真实世界的启示
这项研究虽然是在实验室环境中进行的,但其发现对现实世界有着重要意义。随着商业航天的快速发展,卫星数量正在急剧增长。SpaceX的星链计划预计将发射数万颗卫星,中国的千帆座等项目也在快速推进。如何有效管理和协调这些卫星的运行,将成为一个日益重要的问题。
传统的方法是为每种类型的任务开发专门的算法和软件。这就像是为每种不同的工作培训专门的工人一样——有专门负责通信调度的系统,有专门负责地球观测的系统,还有专门负责轨道维护的系统。这种方法虽然在特定领域能够达到很高的性能,但维护成本高昂,而且缺乏灵活性。
人工智能代理的出现提供了一种全新的可能性。虽然它们在单个任务上可能不如专门算法,但它们具有通用性和适应性。当面对新的任务类型或者任务要求发生变化时,人工智能代理可以快速学习和适应,而传统系统可能需要重新开发。
这种优势在复杂的多任务场景中尤其明显。现代卫星往往需要同时执行多种不同类型的任务——既要进行地球观测,又要提供通信服务,还要进行科学实验。协调这些不同任务之间的资源分配和时间安排,正是人工智能代理擅长的领域。
研究还发现,人工智能代理在处理意外情况方面具有独特优势。当卫星出现故障或者地面站临时无法工作时,专门的算法往往无法快速适应这些变化。而人工智能代理可以重新评估情况,调整策略,找到替代方案。
七、局限性与未来方向
当然,这项研究也有其局限性。研究团队诚实地承认,他们测试的主要是"闪电级"的模型,使用的是标准的反应式框架。更大型的推理密集型模型和更复杂的代理架构可能会带来更好的性能。
此外,由于大语言模型的随机性和有限的测试场景数量,研究结果可能无法完全反映这些系统的真实性能范围。未来的研究需要更多的测试案例和更严格的统计分析来建立可信的性能区间。
研究中另一个重要限制是计算资源的差异。专门的优化算法往往经过了大量的离线训练和调优,而人工智能代理是在固定的在线交互预算下运行的。这种比较更像是比较适应性和部署可行性,而不是绝对的优化能力。
最后,目前的测试范围主要集中在运营调度和资源管理方面。将测试扩展到包括系统架构设计和深空轨道规划等更广泛的太空系统工程领域,仍然是一个必要的发展方向。
研究团队已经在计划下一阶段的工作。他们希望测试更多类型的人工智能模型,包括那些专门针对规划和推理任务优化的模型。同时,他们也在探索如何改进人工智能代理的架构,使其能够更好地处理长期规划和复杂约束。
说到底,这项研究为我们揭示了人工智能在极端环境下的表现特点。虽然现在的人工智能还无法在所有方面超越专门设计的算法,但它们在适应性、通用性和处理复杂约束方面展现出了独特的潜力。随着技术的不断发展,我们有理由相信,未来的人工智能系统将能够更好地胜任太空这个终极考场的挑战。
这个研究不仅仅是关于太空技术的,它实际上为我们展示了人工智能在任何需要复杂决策的领域的潜力和局限性。无论是城市交通管理、电网调度,还是供应链优化,这些发现都为我们提供了宝贵的洞察。人工智能的未来可能不在于替代所有专业系统,而在于成为一个通用的智能助手,能够理解复杂的现实世界约束,并在各种意外情况下提供灵活的解决方案。
Q&A
Q1:AstroReason-Bench是什么测试平台?
A:AstroReason-Bench是复旦大学团队开发的太空规划测试平台,专门用来评估人工智能在太空环境下的任务调度能力。平台包含五种不同的太空任务挑战,比如卫星通信调度、地球观测规划等,每个任务都严格模拟真实的物理约束条件。
Q2:人工智能在太空任务中表现如何?
A:表现有好有坏,各有特色。在需要大量计算优化的任务中,人工智能不如专门算法;但在处理复杂约束关系的任务中表现突出。比如立体成像任务中,传统算法完全失败,而最好的人工智能达到了18%的成功率。
Q3:这项研究对现实世界有什么意义?
A:随着商业航天快速发展,卫星数量急剧增长,需要更灵活的管理方式。虽然人工智能单项性能可能不如专门算法,但具有通用性和适应性优势,能够快速学习新任务,处理意外情况,特别适合现代卫星需要同时执行多种任务的复杂场景。





京公网安备 11011402013531号