研究团队提出了一种新的训练方法,仅使用 17000 个 CoT 示例,微调 Qwen2.5-32B-Instruct 模型,并结合了 SFT和 LoRA 微调技术,强调优化推理步骤的结构完整性而非内容本身…
当地时间1月7日-10日,汇聚全球科技创新的CES2025在拉斯维加斯盛大举办,Nullmax以平台化技术打造的多款拥有城区功能的舱驾一体和行泊一体智驾产品,在合作伙伴的展台进行了现场展示。 Nullmax…
外媒称,这起案件开创了科技公司因使用盗版内容训练AI而面临版权诉讼的先河。证据表明,Meta从LibGen这一盗版书籍、杂志和学术论文的大型资源库中获取了内容。 值得注意的是,这并不是大型科技公司首次面临使…
1 月 3 日消息,绿联宣布将参加 CES 2025 全球消费电子展。 绿联 NAS 北美地区经理 Hernan Lopez将介绍最新一代的绿联 AI NAS,公布绿联在 AI NAS 领域的最新…
谷歌DeepMind首席科学家Jeff Dean和产品负责人LoganKilpatrick分别通过视频演示了模型在物理问题和多模态信息处理方面的应用。 目前,Gemini 2.0 Flash Thinkin…
12 月 20 日消息,IT之家的小伙伴们可能有用过Grammarly工具提供的“语法检测”服务,这一工具对于英文书信等场合较为友好,而根据Grammarly官方新闻稿,该公司现已收购一家AI初创公司 Co…
12 月 20 日消息,的小伙伴们可能有用过 Grammarly工具提供的“语法检测”服务,这一工具对于英文书信等场合较为友好,而根据 Grammarly 官方新闻稿,该公司现已收购一家 …
苹果公司表示 ReDrafter 已集成到 NVIDIA TensorRT-LLM 推理加速框架中,在 NVIDIA GPU 上,每秒生成tokens 速度最高提升 2.7 倍,有效降低了用户延迟和计算成…
12月10日消息,据媒体报道,近日,外语中文译写规范部际联席会议专家委员会审议通过第十六批18组推荐使用外语词中文译名。本次拟推荐使用的外语词中文译名,均为与人工智能、信息技术等相关的词条。 其中在人…
FunAudioLLM 是阿里巴巴通义实验室推出的一款开源语音大模型,它包含两个核心模型:SenseVoice 和 CosyVoice 。3s 极速复刻:上传自己的音频文件或在线录制音频,模型会根据你的音…
其中,采矿、电力行业应用较多的是视觉模型泛化增强,用大量数据训练视觉大模型,使模型具备更强的场景泛化识别能力,提升检验准确率,减少缺陷样本需求,缩短项目冷启动时间,应用于产品质检、安全监测复判等环节。 依靠…
据彭博社消息,苹果公司正在研发一款更智能的Siri版本,内部员工称之为“LLM Siri”,旨在通过采用“先进的大型语言模型”来更好地与ChatGPT等聊天机器人竞争。大型语言模型的应用还…
11 月 15 日消息,研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI模型数学基准测试集,旨在评估系列模型的数学推理能力。 与现有诸如 GSM-8K、MATH…
11 月 8 日,Meta 公布了他们在智能手机上运行的 Small LanguageModel (MobileLLM) 家族的开源计划。他们新增了 …
近日,摩尔线程在推动国产GPU AI发展方面迈出了重要一步,正式上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本。这一举措为开发者提供了基于摩尔线程全功能GPU进行MUSA移植的范例,有助于进…
快科技11月5日消息,近日,摩尔线程上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本,为开发者提供基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。 摩尔线程通过MUSA软件栈对CUDA软…
11 月 5 日消息,摩尔线程官方今日发文,称已上线了大语言模型高速推理框架开源项目 vLLM 的 MUSA移植版本,为开发者提供一个基于摩尔线程全功能 GPU 进行开源项目 MUSA 移植的范例…
目前,SafeBench 的代码和数据集已经在 GitHub开源(项目地址:https://safebench-mm.github.io/),研究团队希望借此推动 MLLMs 安全性的持续改进与发展,以减…
尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。在论文中,研究人员通过一个简单的数学问题证明了这一点。 但是,一…
虽然这篇论文并未完全解答有关 LLM事实存储的问题,但也得到了一些颇为有趣的结果,其中的一个重点是:事实保存在网络中的一个特定部分,这个部分也就是我们熟知的多层感知器(MLP)。 现在,如果该空间中有一个…
这里用到了 BMO Chatbot 这个插件,其能以聊天机器人的形式将 LLM 整合进你的 Obsidian。对我们大多数人来说,本地计算机能够运行的 LLM 的性能自然无法与 OpenAI 等大公司提供…
在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。通过向模型教导自…
在 AI 领域,几乎每个人都在谈论大型语言模型,其英文全称为 Large Language Models,简写为 LLM。 「大型语言模型(LLM)名字虽然带有语言二字,但它们其实与语言关系不大,这只是历史…
该论文的核心亮点是,其中提出的分子忆阻器在核心的矩阵运算上能实现远超电子器件效率的 14 bit 模拟计算;并且其实现了超过 73 dB的信噪比,比之前的最佳水平直接高出了 4 个数量级,同时其能耗量比电…
该调查介绍了已提出的框架,然后对每个框架的技术、处理平台(FPGA、ASIC、内存、GPU)、加速、能源效率、性能(GOP)等进行了定性和定量比较。2021年,Jiarui Fang 和 Yang Yu 推…
事实上,从工作流和业务流程的定义来看,工作流更侧重于具体任务的执行和流程自动化,但接下来基于大语言模型的BPM也将Agent化,业务流程的整体规划、部署及运行也将在Agent的赋能下变得更加自主和智能,同样…
【导读】Emory大学的研究团队提出了一种创新的方法,将大语言模型(LLM)在文本图(Text-Attributed Graph, 缩写为TAG)学习中的强大能力蒸馏到本地模型中,以应对文本图学习中的…
对此,研究人员使用AgentInstruct,创建了2500万对「后训练」数据集,涵盖了多种使用技能,如文本编辑、创意写作、工具使用、编码、阅读理解等。 智能体可以生成高质量的数据,通过反思和迭代,其能力反…
08/20 10:25
08/20 10:24
08/20 10:23
08/20 10:22