近日,清华大学计算机系的崔鹏教授团队携手稳准智能,正式推出了名为“极数”(LimiX)的结构化数据通用大模型,并宣布该模型将全面开源。此举标志着中国在结构化数据智能处理领域取得了重大技术突破,并向全球开放了相关技术生态,有望大幅降低各行业应用结构化数据AI技术的门槛。
在工业生产中,结构化数据扮演着核心角色,包括生产参数、设备运行记录、质量检测信息及科研实验数据等,均以结构化形式存在。这些数据的智能处理能力直接关系到产业效率和科研进展,是AI赋能工业制造的关键。然而,尽管通用大语言模型(LLM)在文本理解和生成方面表现出色,广泛应用于内容创作和对话交互等领域,但在处理表格、时序等结构化数据时却力不从心。LLM在数值比较、计算等基础任务上易出错,更难以胜任数据分类、预测及归因等复杂任务,其准确率远不能满足真实行业需求。
“极数”大模型的问世,正是为了解决这一难题。与LLM专注于文本不同,LDM(Large Data Model)融合了结构因果推断与预训练大模型技术,既能捕捉结构化数据的内在联系,又具备强大的泛化能力,可跨行业适配多种任务。具体而言,“极数”大模型能够支持分类、回归、高维表征抽取、因果推断等多达10类任务,在工业时序预测、异常数据监测及材料性能预测等场景中,性能表现甚至超越了最优专用模型,实现了单一模型适配多场景、多任务的通用性突破。
“极数”大模型的核心优势在技术性能和产业落地方面均得到了充分验证。在超过600个数据集上的测试中,“极数”大模型无需二次训练,在准确率和泛化性等关键指标上已达到或超越专有SOTA模型。在产业应用层面,“极数”大模型已成功应用于多个真实工业场景,其无需训练、部署成本低、准确率高及通用性强的特点,赢得了合作企业的高度认可,成为推动工业数据价值转化的实用技术方案。
“极数”大模型的研发核心力量由崔鹏教授牵头组建,团队兼具学术研究与产业落地的双重优势。崔鹏教授是我国数据智能领域的顶尖学者,荣获国家杰出青年科学基金,并两次获得国家自然科学二等奖,同时获评国际计算机协会(ACM)杰出科学家。在基础研究领域,崔鹏教授提出了“因果启发的稳定学习”新范式,突破了传统机器学习在数据分布偏移场景下的性能局限,为AI模型的可靠性与泛化性研究奠定了重要理论基础。
自2022年OpenAI推出ChatGPT引发大模型技术浪潮后,崔鹏教授敏锐洞察到结构化数据方向大模型技术的发展潜力,迅速将研究方向拓展至结构化数据通用大模型(LDM)领域。依托既有理论积累,团队攻克了结构因果数据合成、模型结构设计及跨场景泛化等核心难题,最终实现了“极数”模型在多领域任务中的性能突破。
“极数”大模型集成了多种能力,包括分类、回归、缺失值插补、数据密度估计、高维表征抽取、数据生成、因果推断及因果发现等,极大提高了模型的通用性。在预训练阶段,“极数”大模型基于海量因果合成数据学习数据中的因果关系,通过条件掩码建模的方式学习数据的联合分布,以适应各种下游任务。在推理阶段,“极数”大模型可直接基于提供的上下文信息进行推理,无需训练即可应用于各种场景。
在推理应用环节,“极数”大模型展现出极强的场景适配性与任务灵活性。该模型无需针对特定场景或任务进行额外训练,即可直接接收表格、时序、图等多形态结构化数据输入。用户仅需明确具体任务类型,模型即可自动完成数据解析、逻辑建模与结果输出,实现了即插即用模式。
“极数”大模型在分类、回归等多项结构化数据核心任务上取得了优异性能。在权威数据集Benchmark上,“极数”大模型的性能显著超越其他模型。“极数”大模型已成功应用于钢铁、能源、电力等工业运维领域,以及化工、制造、生物等工艺优化领域,有效提升了设备运行监测、故障预警、材料设计等方面的效率与准确性。
业内专家表示,“极数”大模型的成功落地不仅验证了通用建模技术在工业场景的适用性,更为解决工业数据应用痛点提供了标准化解决方案,有望推动更多工业领域实现智能化升级。