当前位置：首页 » 资讯 » 新科技 » 正文

GPT-5爆改时尚圈，让Excel原地复活！OpenAI黑客松大奖出炉

IP属地中国·北京 编辑：朱天宇新智元 时间：2025-09-08 22:09:05

新智元报道
编辑：元宇桃子
刚刚结束的OpenAI黑客松上，全球共有六支团队冲进榜单。他们探索了GPT-5在营销活动、时尚AI、电子表格、电脑代理、知识学习、智能电网等场景的应用极限。
OpenAI刚发布GPT-5，便在旧金山举办了GPT-5黑客马拉松挑战赛。

这场比赛选择在周末，从8月9日上午10点开始，到8月9日下午5点结束。

OpenAI邀请了500多位黑客来到旧金山，挑战GPT-5的极限，共有95支队伍参赛，角逐5万美元奖金。
值得一提的是，来自韩国的AI初创公司Gentoo的团队勇夺大赛第一。
他们开发的系统，通过GPT-5让商家「预演」营销活动，不用真金白银试错，AI连退货率都能算准。

除Gentoo外，还有五支团队入围黑客松决赛。

那么，他们都用GPT-5做了啥？
AI让电商人「躺赚」，不再踩坑
创业公司Gentoo将GPT-5用于营销活动模拟，帮助电商平台上的商家把产品创意变成模拟实验。
简单来说，商家不用真正砸钱去做，只通过模拟，就可以判断哪些营销活动会有效。
借助GPT-5 thinking，Gentoo可以为真实用户创建真实的「数字分身」，帮助这些Shopify卖家预测他们的未来。
比如，「参与度分数」（engagement score）可以评估用户行为：分数越高，越可能产生购买、撰写评价行为，说明用户会越「投入」。
Gentoo还用GPT-5，在Cursor的CLI和IDE里，从零起步搭建了管理后台页面。
用户只要点击「如何卖掉那些不是畅销款的库存」，GPT-5就会给出策略。
既然是仿真模拟，需要先设定一个「假设」。当选择想要模拟的假设并点击运行时，那些基于你的真实用户构建的AI分身便会「投票」，判断这个假设是否有效。
更妙的是，如果缺乏足够的历史数据来验证某个假设，GPT-5会直接给出「unknown（无法确定）」的结论。
这有助于降低大模型幻觉，无疑是一个飞跃。
另外，Gentoo还做了一个很酷的功能，叫做「Vibe Operations」（氛围运营/编排），它可以生成直接落地的行动方案。
选择其中一个方案，并点击「部署到商店」，它就会一键自动部署到你的Shopify商店。

这意味着GPT-5可以接管你店铺的UI布局，比如一下生成「特价分类」专区、立刻突出展示「热销商品」模块等。
Gentoo的主产品是AI对话导购，也支持输入自定义提示词。
在新提示词注入后，会实际改变AI礼宾的对话风格与行为。
值得注意的是，这些AI分身都是基于真实用户构建的，所以每个分身都有档案信息，还会给出「为什么支持/为什么反对某个假设」的具体理由。
所有这些全由GPT-5驱动，用户可以清晰看到某个营销活动是否会在自己的店铺里奏效。
AI 穿搭「时装秀」，承包3D分身造型
Fashion AI结合扩散模型与GPT-5，基于AI服装推荐，为用户的3D虚拟形象搭配造型。
在比赛现场，Fashion AI展示了过去24小时赶出来的一款「小游戏」，现场观众可以在屏幕上选择不同的角色。
在现场，用GPT-5生成了一大堆穿搭分类，然后再通过一个GPT-5做的转盘随机抽取一种风格。
现场抽到的是「混搭风」，并以此为虚拟形象Sarah搭配造型。
确定了着装风格，智能体就会在GPT-5的驱动下去搜衣服、挑单品、做试穿。
整个操作过程，会实时在界面右侧的直播画面里显示出来，同步显示它的决策过程。
找到衣服后，接下来是为Sarah确定最喜欢的搭配。

在左上角，是用搜索功能生成的「衣橱」，背后是多个大语言模型协作完成的：它们会分析图片，然后找出最符合搜索关键词的结果。
确定搭配风格后，会有AI智能体给Sarah做试穿。
然后，由观众来决定选哪套。
选定衣服后，是风格化阶段，在这个阶段可以为Sarah加点造型。
这可以通过提示词来实现，比如什么颜色的帽子，什么款式的手表等。
最后，是生成最终的造型结果，这是GPT-5给Sarah做的风格化效果。
这个系统是参赛团队用24小时拼出来的，图像生成全程用的是GPT-5，写代码是在Cursor编辑器里配合GPT-5完成的，具体编码GPT-5也帮了很多忙。
演示者表示，这个项目中，最难的是智能体框架的设计，要把所有模块串起来。
比如评估的、找衣服的智能体等，找完衣服还要回头问评估智能体：这个够好吗？符合主题吗？怎么改？
这个流程打通是最难的，而且图像生成耗时很长，这要求团队要尽量把用户体验做得流畅。
当然，如果没有GPT-5，这个项目几乎不可能完成。GPT-5的工具调用又快又准，让整个体验不卡顿，让大家都觉得很好玩。
Excel「活了」，打工人狂喜
电子表格的后台智能体编排工具（Background Agent Orchestration for spreadsheets），这是一个面向Excel的Codex，它可以并行运行多个后台任务，自动回答问题并更新电子表格模型。
现场展示的是一个简单的财务模型，它会根据2025年损益表前7个月的数值，预测8月份的数值。

假如你是一名销售负责人，现在是8月10日，发现自己可能达不到预期销售目标，这时可以向电子表格提问，而它可以「看见」那些数据并把它拉进来，然后回答你的问题，或者执行更进阶的操作。
这些都是后台Asian编排，类似Codex，我们可以启动任务、查看它们的当前进度，还能看到我们其他的任务。
它的一大好处，是你不需要一直在电子表格里工作。
如果有问题或者想做修改，你可以把这些任务在后台发起，它们会运行，然后再回来审阅结果。
比如，你可以发起几个与损益表相关的问题。等这些任务发起之后，我们可以看到智能体的思考过程，看它在幕后做了什么步骤分解；我们能看到它调用了哪些工具，这让整个事情变得很简单。
对我们来说，GPT-5让我们能做一些过去必须用多个智能体、并且大量提示词才能「把工具调对」的事情。
它让模型和工具配合起来很容易，比如它可以和Sharepoint交互，直接和Excel表交互并进行修改。
它可以通过提示词，来修改模型的假设。
比如通过提示词，把模型更新为「用户费用降低10%」的假设。它会通过差异视图，来展示这个改动如何影响模型，我们可以继续提交并保存这些更改。
让书籍和论文，秒变视频
BeFreed是一家致力于让知识变得有趣且简单的公司。
它们在过去24小时内开发了一个知识可视化工具，把书籍与论文转化为引人入胜的教育视频。
你可以输入任意文本，它会解析其中的复杂概念，并将其转化为一个易于理解的解释视频。
他们利用GPT-5开发了一个指挥型智能体（Direct Agent）。
它会首先理解你输入的概念，并设计出完整的故事板，规划需要表达的内容。
同时，它会协调另外两个专用智能体，它们各自擅长使用特定工具来生成不同部分的内容，并对生成结果进行评估，确保准确无误。
也就是说，当你输入一段内容后，系统会解析文本，生成故事板，然后两个专用智能体分别生成所需的图像和动画，最后由指挥型智能体将所有内容整合、合成语音，并输出成品视频。
在用例1中，智能体用视频为我们解释了什么是「强化学习」，这适用于解释行业术语的场景。

智能体用视频解释「强化学习」
在用例2中，智能体根据《人类简史》中的一段文字，生成了解释性视频。这适用于沉浸式阅读场景。
因为这个世界上存在很多看似复杂的概念，它们的难点不在内容本身，而在表达形式不当；同时，不少学习者更擅长通过视觉去理解知识，这正是BeFreed开发Knowledge Visualizer的初衷：让更多人能更轻松地掌握知识。
GPT-5接管电脑，自主玩游戏
GPT-5「电脑使用」智能体，可在游戏与应用间自动化交互。
Serena Delarry，用GPT-5开发了一个「计算机使用模型」（computer use model）。
因为「计算机使用」涉及很多截图和高强度的交互操作，所以Serena Delarry录了一个简单的演示视频。
视频里他在玩GeoGuessr游戏，模型会观察地图、点击画面，试图猜出我们位于哪个地方。
接下来是另一个游戏，画面里有一只浣熊在捡蔬菜。
这个模型的流程是：先截图，然后借助GPT-5规划下一步操作，使用键盘和鼠标来执行计划，再不断调整。
还有一个游戏是经营柠檬水摊。它会理解屏幕内容，点击操作，尝试分析这个游戏并一步步推进。
在屏幕底部显示了一个提示词（prompt），整场操作就是由它驱动的，模型会边看边学，自己决定下一步。
快进到最后，它在这个游戏里获得了67%的顾客满意度。
Serena Delarry在回答评委问题时提到，这个智能体支持接管电脑界面。
比如从备忘录应用中输入一个提示词，模型就开始点击屏幕，尝试理解游戏内容。每隔几秒钟它会截一次图，然后基于这些截图来规划接下来的操作路径。
你可以看到它在分析规划，并尝试执行操作。
Serena Delarry表示，OpenAI曾经发布过一个计算机使用模型，但那个运行速度非常慢，效果也不太好。这次他开发的智能体，虽然还不算「非常优秀」，但至少已经「可用且顺畅」。
为了测试模型的性能，Serena Delarry还会发布一个操作系统层面的性能基准测试（OS-level benchmark）。
智能体「军团」作战，AI电网超决策
电力公司每天要服务数百万用户，管理数十亿美元的资产，同时，还受到各种约束：监管政策、市场机制、电网的物理运行极限等。
这意味着电力公司每分钟都要处理海量数据，并基于这些信息快速决策。
打开智能体式电网编排系统首页，你会看到一个调度员的典型界面：峰值负载、当前负载、电网压力状态、电网拓扑图等，还有不同数据源的详细信息。
同时你还可以看到哪些输电线路正在高负载运行、面临风险。
系统后端有五个独立智能体，每个都有自己的优化目标函数。同时还有一个主控智能体，负责综合所有智能体的建议，做出最终决策。
为了模拟真实的电网，演示中选择了加州某个区域的典型电网结构。系统中包含实际发电站、住宅区、商业负载中心，并且建模了各类故障场景——所以，这是一个实时、动态的电网仿真平台。
进入平台后可以开始模拟运行。过程中会考虑各种系统损耗，比如技术损耗、输电/配电损耗等。
系统的核心是五个智能体，对应现实中电力公司内部的各类角色：
战略规划智能体：确保在任何时候供需平衡；
战术调度智能体：以最低成本完成负载分配；
资产管理智能体：如处理树木倒塌导致电缆故障等突发情况；
以及其他支持型智能体，它们之间密切协同，而非各自为政。
每个智能体都有自己的目标函数和可调用的工具，它们会提前模拟未来10到12个时间步，预测自己的行动对电网系统造成的影响。
由于目前尚未对模型进行深入微调（fine-tuning），所以目前智能体在一些关键指标上表现不太理想。
当前一个主要挑战是：当我们直接使用GPT-5作为智能体核心时，它在每一个时间步往往无法真正实现目标最优，而是倾向于采取「最安全」的保守路径。

上图展示了每个时间点各个智能体的行为：战略规划智能体可能会尝试切换电容组（capacitor bank），战术调度智能体则可能会激活电池储能系统（BESS）进行放电。
演示者表示，针对上述问题的优化目标是，依次满足多层次的目标函数，比如：保证电力供应的可靠性；控制成本、提高运行效率；保证系统持续在线运行。
参考资料：
https://threadreaderapp.com/user/AlexReibman
http://threadreaderapp.com/
https://threadreaderapp.com/user/AlexReibman
https://x.com/jihyuk_gentoo/status/1954791809382518972

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用