当前位置: 首页 » 资讯 » 新科技 » 正文

这个Agent学会刷B站、打德扑,还能盯盘写预测简报|实测Flowith OS

IP属地 中国·北京 智东西 时间:2025-10-30 12:17:54


AI应用风向标(公众号:ZhidxcomAI)
作者|江宇
编辑|漠影

智东西10月29日报道,昨日,AI应用初创公司Flowith正式发布本地智能体操作系统Flowith OS,这是一整套为其Agent Neo设计的运行系统。


传统网页端AI助手通常被封装在某个标签页中,用户发出指令,助手被动响应。而Flowith OS正试图突破这个限制,用户只需要表达意图,系统就能将其转化为可以连续执行的完整操作流程

Flowith OS搭载了上下文改进系统,并通过在线强化学习持续优化。每完成一次任务,系统会自动回顾执行过程,根据结果进行反思,并不断更新其执行策略。这意味着,用户每次的使用过程,都会帮助智能体Neo变得更聪明。

为了实现长期的记忆积累,Flowith OS还引入了双层记忆系统,包括短期缓冲和长期情景记忆。系统不仅能记住你最近的指令,还能理解你在不同时期的偏好、写作风格和使用方式等,并在下次使用时自动调用。

技能和记忆被统一纳入到整个操作逻辑中。比如你曾保存过一个“图转PDF”的处理流程,或者习惯以某种语气写汇报文案,这些都可以被标记为技能或记忆,并在类似场景下被系统自动应用,无需重复设置。

为保证任务执行的响应速度,Flowith OS还配备了独立执行内核与速度缓存机制。系统可以并行安排任务流程,并对高频操作模块提前做预加载,从而实现本地执行中的快速响应。

在实际使用中,这套系统可以完成包括“批量生成PDF”、“提取航班信息并转为CSV”在内的流程型任务,也可以被用于管理社交平台账号,实现发帖、点赞、评论等自动化操作。更复杂的任务如生成视频、撰写标题、自动上传等,也已能在该系统内实现一条龙托管。


测评结果显示,Flowith OS在Online-Mind2Web Benchmark测试的四个难度等级下全面领先,平均准确率达到95.4%,在Easy和Medium任务中分别高达96.3%和97.7%,远超ChatGPT Atlas(平均61.3%)与Gemini 2.5(69%)等对手。


智东西也体验了一番Flowith OS的使用流程。

在首次启动阶段,系统会引导用户完成一系列初始化设置,包括导入Chrome或Safari中的浏览记录与标签页,以便无缝切换至新环境;接着用户可选择将其设为默认浏览器、添加到Dock或任务栏,并设置是否开机启动。

整个过程中,系统明确标注“100%本地存储”,所有执行历史、账户数据、记忆与技能内容均保存在本地设备中,不与云端同步


完成引导后,用户将进入Flowith OS的主界面。系统以“OS已觉醒”作为工作入口,中央搜索框支持导航、提问与指令输入,下方展示当前可执行的任务模组,如自动生成TikTok话术内容、批量管理社媒评论、快速获取创业创意等。左侧为智能体能力中心“智能”,划分为技巧、记忆与知识库三类,用户可以新建技能、记录记忆偏好以及调用知识库 。


整个界面在功能上融合了操作系统、浏览器与任务调度系统的特性,底层通过智能体驱动,前端则提供可视化流程入口,用户可从主界面直接发起任务。

那么,这套系统在实际使用中到底能完成哪些任务?我们用三个完全不同的场景做了测试,来看看Flowith OS的执行力。

体验1:谁在赚钱?让AI盯盘到分秒不差,一键生成AI预测简报

第一个体验任务围绕AI交易项目NoF1.ai展开。该项目在近期社交平台上引发大量讨论,玩法是让六个顶尖大语言模型分别管理1万美元的真实资金,在相同时间周期下进行全自动量化交易。

我们要求Flowith OS以实际市场数据为基础,对各模型的收益率、仓位分布与风险暴露进行实时追踪

Neo在接到指令后,首先连接至NoF1.ai的交易监控界面,并同步六个模型的当日表现


界面中央实时显示收益曲线折线图,从图中可见各模型自10月18日起的收益轨迹走势,DeepSeek与Qwen始终保持领先区间,Grok和Claude居中,GPT-5与Gemini则处于相对低位。

系统自动生成了各模型的策略标签(如“Long”或“Short”),并提取对应的仓位结构,用于计算当日风险敞口与杠杆水平。随后,Neo触发预测阶段任务,系统基于过去一日的收益和仓位数据生成《AI交易预测简报》。简报分为三部分:前一日策略偏差分析、次日趋势预测与模型信心指数。


文档自动输出六个模型的次日交易方向与预测置信度,其中DeepSeek与Grok的信心指数最高,分别为90与85,策略方向均为“多头延续”;Gemini则维持“空头”策略。简报最后部分还生成了策略总结。


在任务执行的全过程中,系统完成了实时数据抓取、模型策略识别与预测结果生成等环节,并输出完整可视化结果。最终生成的简报中,所有模型的收益、方向与置信度信息均以结构化方式呈现,构成了一份量化分析报告。

除了金融数据的追踪分析,我们也试着让Flowith OS走上“牌桌”,看看它面对博弈决策时的及时反应能力。

体验2:AI坐上牌桌,独立完成完整博弈

第二个体验任务围绕一局线上德州扑克展开,我们设定智能体Neo为一名基于博弈论最优策略(GTO)原则进行决策的AI玩家。

用户向Neo发出任务后,系统自动打开目标网站,并进入中等难度局。随后,按顺序识别出游戏UI中的关键信息位,如起始资金、对局位置、按钮区与公共牌区,并开始执行完整对局流程。

在预处理阶段,Neo自动根据自己的起始位置与手牌强度判断是否应跟注、加注或弃牌。


进入翻牌圈后,系统分析了公共牌面构成与对手行为,并结合自己的手牌质量与下注池大小完成操作。

在完整的一轮游戏中,Neo展现了相对完整的操作流程:预判手牌范围、识别对手下注区间、调整下注节奏,并依据实际牌面动态更新策略。在某些回合中,系统也展现出适度的防守性处理——在面临对手大额加注时果断弃牌。


就执行结果而言,整个任务在无需人工介入的情况下完成了网页打开、局面识别、按钮点击与行为执行等流程,系统能实时根据桌面状态更新决策内容,最终完成一整轮博弈操作。

而在更日常、轻量的场景里,比如刷B站、发评论,它也能直接接手操作,不用我们动手点一点。

体验3:AI化身“弹幕发射机”,会看评论,还懂梗

第三个体验任务是在B站发布评论。我们设定Neo的角色为一位熟悉网络语境、具备互动意识的评论者,目标是在热门视频下快速完成评论输入与发送操作。

系统启动后自动跳转至B站首页,并导航至“热门”板块,在播放量与讨论量均较高的视频中进行选择。


进入视频页后,Neo首先识别页面结构,迅速定位到评论区并滑动至底部。在加载完整评论流后,系统自动浏览了当前高赞评论的内容,观察用户围绕哪些关键词展开互动,生成了“UP主更新了,我的青春也复活了!”这一条评论内容,并完成输入与发送。


整个流程从导航入口到评论提交均为自动完成,系统在操作过程中正确处理了评论框加载、页面滚动与多次发送等细节,确保了评论内容可以完整发布,并显示在评论区列表中。


该任务验证了Flowith OS在浏览器页面的交互能力,智能体能够稳定识别Web结构中不同模块的状态变化,并执行任务。

结语:AI Agent开始接管屏幕上的一切

从量化交易分析,到在线博弈,再到社交平台发言,Flowith OS展示出一种不一样的操作方式。它不像传统AI助手那样等待用户输入明确指令,而是将复杂操作流程模块化、记忆化,并在本地完成执行与学习。

随着更多实际场景的接入与长期使用数据的积累,这一智能体层面的操作系统,在未来仍值得持续观察与期待。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。