“聚光灯总照向大企业,但只有读懂灯光之外的世界,读懂他们怎样捱过漫长岁月,才会明白中国民营经济的底色为何如此鲜活。”
作者丨周蕾
编辑丨包永刚
5:30 A.M.
天空已露出鱼肚白,但从事水产养殖的农户最怕在这个时候看见“鱼肚白”:经过一整夜的消耗,鱼塘中的氧含量已降至全天最低,等五六点钟养殖户起身巡塘时,极有可能发生“翻塘”现象。
中易物联的工作重心之一,就是在鱼塘内布放水质传感器采集水质数据,实时告警提醒养殖户。物联网系统的24小时稳定在线,对于降低翻塘概率有不小帮助。
7:30 A.M.
上班高峰期到来,许多人步履匆匆,涌入街角的利客便利店购买早餐。一杯豆浆、一个包子的下单,背后是订单同步、会员积分抵扣等一系列操作,近千家门店的数据片刻间汹涌而至,这也是对利客便利店后台系统的集中考验。
10:30 A.M.
菲尼基的换电系统即将进入流量高峰期——数以千万计的外卖骑手整装待发,他们会借助换电柜换上新电池,再开启新一天的送餐工作。技术人员会紧盯换电系统的状态,视流量洪峰的情况来决定是否临时扩容。
6:30 P.M.
放学后的中小学生开始攻克家庭作业和今日新学的知识点。数万人同时在线呼叫AI家教“寒雪老师”,进入一对一“名师”辅学模式。智能精准学的技术人员需要确保“寒雪老师”和每位学生每一次的提问、追问、讲解100%精准流畅,帮助学生省出更多“操场时间”。
这些看似琐碎平凡的日常场景,背后是无数中小企业在服务器与代码间的坚守。企业期盼的,是乡村中的鱼塘又度过了平静的一夜,是便利店“支付成功”的声音安心地响起,是外卖骑手换电的等待时长又节省了一秒,是学生听到AI家教流畅的一句应答。
中小企业的成长,大致可分为三个阶段:初出茅庐期、业务爆发期、技术进阶期。究竟在不同的时期里,他们需要怎样的陪伴和支持?我们与五家中小企业聊了聊他们的经历,以下是他们的故事。
01
初出茅庐期:必须稳定可用,性价比也不能低
处在启动阶段的中小企业创业者们深知,稳定性是业务“站稳脚跟”的前提,更是他们发展的安身立命之本。最好在此基础上,能再节省一部分IT成本。
中易物联的经历是一个绝佳的例子。位于武汉的中易物联,从2015年左右开始与阿里云合作。这是一家以智慧渔业云平台为核心产品,为水产行业提供物联网一站式系统解决方案的高新技术企业,主要产品就是水质监测设备,监控养殖池塘的水环境指标。
要保一池虾蟹鱼类安然存活,实属不易:如开头所说,下半夜池塘易缺氧,养殖户夜间休息难以及时巡塘,或醉酒或熟睡,错失挽救良机;夏天还容易碰到农村电网不稳定,电压波动烧毁设备。
有时还会遇上运营商凌晨系统升级,中易物联还会无法顺利致电养殖户,通知他们巡查鱼塘。
而一旦出现险情,留给养殖户和中易物联的时间只有30分钟左右;如果是高温天,这个时间还要再缩短,去晚了恐怕只能看见一池塘翻了肚子的鱼。
CTO余峰华表示,他们的业务场景实在是对服务器稳定性、安全性、故障响应速度要求极高,“客户会直接质疑你们企业,如果一年毫无预兆地掉线三四次,更加不会考虑继续使用我们的系统。”
他回忆,那时正值业务初期,用户分散,规模不算大,自建机房需要自购服务器、招运维、研究硬件,再算上后期扩容和硬件升级的账,还是上公有云划算——但十年前国内做公共云做得好的厂商极少,中易物联很快把目光锁定了阿里云。
2015年1月30日,中易物联的第一个测试服务器部署在了阿里云青岛节点上。
非凸科技也有类似的考虑。CEO王浚澎告诉雷峰网,他们的目标是面向机构和个人投资者提供智能算法和交易整套解决方案,在交易时段提供稳定优质服务,如果A股交易期间,尤其是开盘时段,保障链路和信号传输顺畅至关重要,否则网络问题可能影响大量券商及众多机构客户和个人投资者。
股票市场瞬息万变,决胜于微秒之间。网络的扰动耽搁了哪怕一秒,都有可能造成不小的损失。稳定性就像是巨额数字前的“1”,没有这个“1”,其他的因素都是后面无意义的“0”。
非凸科技创业初期规模较小,人手也有限,需要将重心放在业务发展上,当时经过选型调研,基于稳定性和成本综合考量,选择了阿里云ECS云服务器,如今七年时间过去,现在非凸科技部署在阿里云不同节点的ECS服务器数量有几十台甚至上百台。
启动期的中小企业需要将有限的人手和精力,尽可能投入到业务上,因此运维便捷、部署门槛低、服务响应快,也同样是他们看重的特性。
中易物联的工程师回顾:“由于当时云计算还属于新生事物,云服务器的部署与使用大家都还不是很熟悉,阿里云的工程师积极指导和及时解决。我们的服务涉及到硬件,得前往偏远的乡村地区。一开始,软硬件都不成熟,加之客户所在位置信号不好,经常在半夜会出一些问题,我们两边的工程师(阿里云和中易物联)都不辞辛劳,连夜解决系统问题。”
非凸科技CEO王浚澎进一步提到,使用阿里云后,不用担心硬件故障和硬件升级问题,不用跑机房或联系托管人员,阿里云有专人支持,解决了运维难题,让他们可以专注于核心业务发展。同时他也表示,自建机房即使有丰富储备和多路网络准备,仍无法完全避免波动。因此,即使有托管机房,非凸科技仍借助阿里云服务提升稳定性,其多地部署方案也提高了服务确定性。
同样考虑了服务稳定可靠和数据安全的企业,还有菲尼基。这家企业从2019年开始和阿里云合作,主要为外卖骑手、社区居民及商用低速车辆用户提供智能换电软硬件系统整套解决方案,致力于在日常出行高峰时段保障稳定高效的换电服务。尤其在早晚用电高峰期间,换电柜电力供应和系统稳定运行至关重要,一旦出现服务中断,将直接影响大量用户及众多配送订单的完成时效。
除了可靠和安全,他们也有自己的顾虑:自建的数据中心,包括购买服务器、存储设备,执行托管,成本是一方面,灵活性也有影响,自己的技术团队能不能保证服务的高可用性、高可靠性?
菲尼基CTO高志星也讲到,他们看中了阿里云弹性计算的灵活性,投入成本和时间成本都有所节约,采用阿里云产品前后,菲尼基节省的IT成本大约在原来的40%左右。
雷峰网了解到,包括菲尼基在内的一批中小企业,使用的是第八代企业级计算实例g8a,并标配eRDMA加速功能,将网络延迟降至8微秒,显著提升集群间通信性能。同时,它们还全面采用了NVMe技术,并支持共享盘功能,使得存储延迟降低至百微秒级别。
而最近新推出的第九代AMD企业级实例,包含u2a、g9ae、g9a 三个系列。其中,u2a 实例为阿里云推出的首款基于AMD处理器的通用算力型实例,性能相比u1实例高20~35%,价格低9~22%,可帮助中小企业实现快速的成本降低;g9ae 实例基于 AMD 最新 TurinD 处理器,搭配阿里云最新CIPU架构,采用物理核设计,算力性能比g8a最高提升67%,性能提升67%。这意味着在大规模的数据处理器集群中,用以前三分之一的机器,完成相同的数据任务处理,通过技术实现降本;而 g9a 实例搭配的是 AMD TurinC 处理器,CPU睿频最高达4.1Ghz,对那些需要强大的单进程处理能力的业务,是一个非常好的选项。
当中小企业在创业荆棘中劈出生路时,阿里云弹性计算已悄然成为他们“后勤组”的一员,为启动阶段的他们省去了一些后顾之忧。省下的每一分IT成本,都是业务扩张的弹药;解放的每一寸运维心力,都化作开拓新赛道的利器,或许可以换来工程师和养殖户的安心入眠,也让换电柜得以遍布大江南北。弹性计算已不仅是技术底座,更是创业公司把“敢想”转化为“敢试”的杠杆支点。
02
业务爆发期:“泼天的富贵”怎么接?
中小企业们走过了启动期,一切步上正轨,但有时会出现超出预料的业绩爆发,例如某件新产品突然爆红出圈。企业这时通常还在庆祝自己迎来了“泼天的富贵”,却很容易忽略一点:后台系统做好承接爆发的准备了吗?
智能精准学就亲身经历过业务爆发对后台系统的挑战。
这家教育科技公司成立于2018年,2024年推出了全球首位超拟人一对一家教“寒雪老师”,半年时间迅速拿到该赛道的第一个销售top1。“AI家教名师,就是‘寒雪老师’”的口号走进家长内心。
创立之初,智能精准学就在使用阿里云的弹性计算。“我们用阿里云弹性计算的产品挺多的,应该基本上都用过。”在交流的过程中,CTO李贵宾从ECS、ACK、VPC数到了高性能存储、OSS对象存储和GPU云服务器,种类之多连他自己也十分感叹。无状态容器和其他阿里云的创新产品,他们也有所尝试。
2024年10月开始,智能精准学的“寒雪老师”正式上线销售,仅半年时间就成为抖音高端AI大屏学习机的销售第一,整体用户数几乎是以每周翻倍的速度在增长。
“销售走得很快,而整个流量的增长,其实我们一开始没有很快感知到。”团队沉浸在业务迅速发展的喜悦当中,而流量洪峰的新挑战已经站在门外。
“寒雪老师”的用户流量分布有显著周期性。一般来说,周一到周五晚上放学后的6-10点,流量会比白天大概要高好几倍。另一个比较有风险的时段是周末,不上学的孩子们从早上8点一直到晚上10点会随时呼叫“寒雪老师”,尤其是周末的两个白天。
在某个周末,阿里云弹性计算向技术团队推送预警策略,智能精准学的团队同时发现,整个系统的响应在变慢。
“技术同学收到了运维短信。”他们第一时间登上阿里云控制台查看,发现流量的峰值比以往高了五六倍,超出了他们的预料。
同时还有大量的超时请求,多项数据指标都在上涨,技术团队沿着整个链路查看服务负载情况,由于当时集群规模由十余台服务器组成,进一步排查发现关键服务模块的QPM(每分钟查询量,Queries Per Minute)已远超预设阈值。很快他们通过故障诊断工具FG(Fault Diagnosis Graph),最终确认服务瓶颈所在。
所幸阿里云的整体弹性策略足够健全,团队运维只需对一些基础配置进行操作,例如调整负载配置,实时监控了系统响应时间和错误率,也基于ARMS(阿里云应用实时监控服务,Application Real-Time Monitoring Service)配置了动态阈值规则,并与集成的Kubernetes容器编排系统打通,进行快速扩容操作,通过Kubernetes集群管理平台新增了3个服务实例。
算下来,总共就是30秒的时间,完成了从动态节点的申请,到扩容,再到流量引入,包括容器镜像拉取与服务启动阶段。系统抖动并没有持续太久,扩容后系统负载也迅速回落至正常范围。
“阿里云的资源快速拉起,无论是ECS还是容器,都做得相当不错。”李贵宾透露,今年他们曾经尝试过自主拉起一些特殊状态的服务,从基础镜像的构建到资源的拉起,相比起使用阿里云,自主拉起的整个过程得用上两分钟。“这两分钟对我们来说,是一个至暗时刻,因为什么都不能做。”
他感慨道:“尤其像我们这种业务正在快速突破的、大规模服务用户的企业,阿里云弹性计算的这种专业、强大、这种弹性能力和高效的协同的赋能对我们极其重要。”
遇到“业务爆发挑战系统承载”情况的,还有菲尼基。
目前菲尼基的系统服务着两百多万外卖骑手。受到近期外卖大战的影响,换电频次直线上升。加上各地运营商也在抢占市场,设备大量投入到市场当中并接入菲尼基的服务,这就导致菲尼基的压力倍增。
高志星告诉雷峰网,他们也借助了阿里云的弹性计算能力,在不调整应用架构的大前提下,迅速对系统进行扩容。
前面提到的智能精准学和菲尼基,都来自创新行业,创建初期已有自建技术团队,但对于来自传统行业的企业而言,情况又有些不一样,他们是怎样在推进深度数字化的同时,应对客流高峰、业务爆发的?利客便利店就是一个经典案例。
内蒙古利客便利店在全国拥有近千家门店,电子支付、会员积分同步、跨店调货等操作在后台汇聚成密集的数据洪流。一开始,利客便利店的后台由供应商提供并运维,没有组建自己的技术团队。随着业务规模扩大,尤其在实时支付和调取货物信息环节,磁盘I/O和内存性能瓶颈突显,无法顺利应对近千家门店的数据同步要求,严重制约业务扩展进度。
利客决定将核心系统迁移至更加自主可控的技术平台。在技术选型过程中,阿里云作为综合云服务提供商进入评估视野,其基于AMD EPYC处理器的云实例因出色的性价比引起关注。
经过多轮技术沟通与场景验证,利客团队与阿里云共同深入梳理了便利店供应链系统的关键需求,双方通过多次方案论证与性能压测,最终选定第八代AMD企业级ECS实例作为核心部署方案,相较原有方案CPU算力提升约50%,显著改善了近千家门店数据同步延迟的问题。
当无数学生在周末打开学习机与“寒雪老师”say Hi,当无数用户在周末抢大额红包点起了外卖,很少有人知道智能精准学和菲尼基的技术团队曾直面过这样的“流量海啸”。以秒计算的扩容战役,成了创业公司对抗不确定性的经典注脚。
原来突如其来的业务爆发,会让中小企业喜上眉梢,也会成为系统濒临崩溃的信号。而增长越迅猛,地基越需坚不可摧。阿里云弹性计算也用十余年的陪伴,为他们托住那些摇摇欲坠的“爆单时刻”。弹性计算早已不仅是成本优化器,更是业务海啸中的救生艇,搭载中小企业从“敢试”前往“敢赢”的彼岸。
03
技术进阶期:AI野心需要怎样的支持?
而另一场更深刻的变革已雏形渐显,创业者们眺望起了远方的海域——AI。
前文提到的“寒雪老师”。是搭载在智能精准学AI家教机上AI家教,为K12学生提供全语音交互和一对一个性化辅学服务。这位老师要手把手带着孩子写作业,精准定位到孩子学习薄弱项,背后需要的AI能力之复杂、之强大,可想而知。
智能精准学的AI科学家向雷峰网介绍,常规的拍照搜题、知识点搜索、推理和计算,可以直接调用阿里云一些公开的API,但文本转语音(TTS)和语音转文本(ASR)就得从零做起,因为教育领域会有很多具体的场景,比如理解学生稀奇古怪的提问,比如讲解过程中涉及数学物理的符号公式。
实时性也是对AI能力的一大考验。用户会希望这位数字家教能在1.2-1.8秒之后就给出回复,因为这是人类正常对话的神经反应速度,在这个区间内返回才不会让用户察觉到明显的延迟。但现在很多公开的语音能力,通常用于翻译或是会议记录,并不太涉及反应速度这一指标,智能精准学的科学家们也要在此做出不少努力。
既然是可以互动的家教,那么辅导能力也得过硬。这背后的数据,首先需要包括大量题库和解题的过程,看懂数学几何图、物理电路图等等,其次模型要学会像老师一样在黑板上写写画画,像老师一样看得懂学生写在草稿纸上的操作,还要“看得到”学生的表情反馈。
工作的第一环节是训练,面对显卡资源短缺的困境,阿里云稳定的算力供应保障了模型的持续运行,助力智能精准学节省硬件成本、高效创新。AI科学家Peter表示,训练最怕过程有中断,一旦中断,之前投入的费用可能就打水漂了,因此在算力选择时做了许多横向比较,综合稳定性和效率各方面因素选择了阿里云。
在深度学习领域,阿里云GPU云服务器的多卡并行计算能力,大幅提升了智能精准学“寒雪老师”的模型迭代效率,其监控管理工具更是让故障问题排查时间减少50%。
在推理部署上,Peter透露,一是考虑到推理速度,二是如前文所说,用户通常在工作日晚上集中使用,可以利用其弹性特质,避免高峰期资源不足、闲置期资源浪费。他们曾对比试验过,如果供应商的基础设施管理软件,其弹性设计不够健壮,就便是有充足的物理机器,也容易导致他们在高峰期抢占不到资源,或是无法正常运行。
有阿里云这类高质量的GPU集群支持,智能精准学也加速迭代模型、加快产品推出进度。“我们的‘寒雪老师’是与目前市场上学习机有代际差的产品。而且这个代差只会实质性地拉大。”
以智能算法见长的非凸科技,也看中了阿里云弹性计算在AI上的支持,灵活试验、小步快跑是他们使用阿里云发展AI能力的心得。CEO王浚澎告诉雷峰网,非凸的业务核心本就需要大型计算支持,今年公司又重点发力AI方向,自建了AI实验室。但自建机房年建设费用高达几千万,部分业务偏实验性或灵活性,非凸会借助阿里云的服务来对这部分业务进行前期验证,等验证通过后用机房进行进一步拓展和采购,如此一来,可以省下一部分成本。
他透露,目前阶段非凸的自建机房与阿里云是互补关系,一方面阿里云灵活性强、稳定性高,适合线上服务;另一方面自建机房用于离线训练,二者可以发挥各自优势构建公司开发体系。
对一些中小企业而言,需要关注的不止有远方AI的探索,眼前的硬件与弹性计算产品之间的协同,对业务可靠性和连续性的影响,也是一道重要考题。菲尼基CTO高志星表示,菲尼基会根据实际需求灵活配置硬件资源,可有效平衡成本与性能;也会通过集群方式分摊冗余,降低系统风险。
04
结语
诚然,聚光灯下总是那些大公司跌宕起伏的故事,但在聚光灯之外的世界,无数中小企业的故事同样值得被看见。他们或许没有动辄千万的IT预算,但他们对技术创新的渴望、对业务增长的追求同样炽热。某种比技术更深刻的变化正在发生,微小而动人,他们的每一步都是充满勇气的尝试。
而阿里云弹性计算,自2010年发布至今,已用十五年时间,默默成为这些“勇敢尝试”背后最稳定的支撑。
这十五年来,阿里云将弹性计算能力不断进化,整体可靠性、稳定性和算力都持续提升,这使得中小企业在应对流量冲击时更加游刃有余,也为他们提供了以更低成本在AI上探索创新的机会。
技术的温度,在于它从未忘记托举起那些看似微小的梦想。
它用稳定、可靠、弹性的算力,默默守护了千行百业无数个拼搏的日与夜,让每一次创新的“敢想敢试”,都有了最坚实的支持。