Sam Altman:用户要求,永远别更新GPT-4.5
今天凌晨,OpenAI联合创始人兼首席执行官Sam Altman发文,评价了上周刚发布的最新、最贵的模型GPT-4.5. GPT-4.5是首次出现用户如此热情地给我们发邮件,请求我们承诺永远不要停止提供某一特定模型,甚至不要用更新版本来取代它的情况。 用户对GPT-4.5的反馈也比其他模型好的多,我…
火爆的推理模型到底能干什么?阿里国际站已经用它帮人做外贸了
过去一个多月DeepSeek、通义千问的Qwen等模型的推理能力大幅升级,AI彻底破圈,各种消息层出不穷,但对商家来说,最好的消息可能还是这个: 2月28日,阿里国际宣布旗下面向全球B2B买家的首个AI搜索引擎Accio接入DeepSeek等最先进的推理模型,正式上线深度研究、商业探索等功能。而此前…
火爆的推理模型到底能干什么?阿里国际站已经用它帮人做外贸了
过去一个多月DeepSeek、通义千问的Qwen等模型的推理能力大幅升级,AI彻底破圈,各种消息层出不穷,但对商家来说,最好的消息可能还是这个: 2月28日,阿里国际宣布旗下面向全球B2B买家的首个AI搜索引擎Accio接入DeepSeek等最先进的推理模型,正式上线深度研究、商业探索等功能。而此前…
OpenAI发布GPT-4.5:功能非常特殊,推理很贵
今天凌晨4点,OpenAI进行了在线技术直播,发布了最新模型GPT-4.5。 GPT-4.5与之前的模型相比,本次最大的亮点是加上了“情商”,这也是目前所有大模型最缺、最难的功能。 此外,GPT-4.5 在SimpleQA上的测试数据显示,超过OpenAI o1、OpenAI o3-mini并且幻觉…
苹果开源通用视觉模型:创新训练方法,超1000颗星
苹果的研究人员开源了最新通用多模态视觉模型AIMv2,有300M、600M、1.2B和2.7B四种参数,整体能耗很低,可以适用于手机、PC等不同类型的设备。 与传统视觉模型不同的是,AIMV2 使用了一种创新的多模态自回归预训练方法,将视觉与文本信息深度融合,为视觉模型领域带来了新的技术突破。 简单…
GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码
今早9点,DeepSeek开启了本周连续5天技术分享的第3天,开源了专用于执行高效FP8精度矩阵乘法运算库——DeepGEMM。 DeepGEMM的核心代码仅300行,但在GPU上可实现高达每秒1350 + FP8 万亿次浮点运算性能。在大多数矩阵规模下性能超过了专家调优的内核,同时支持密集布局和两…
超过DeepSeek、o3,双思维模型Claude 3.7来了
今天凌晨2点,著名大模型平台Anthropic发布了首个双思维模型——Claude 3.7 Sonnet。 Claude3.7提供了标准和扩展两种思考模式:标准思考是无需进行复杂的推理过程,就能立刻提供答案,例如,当用户询问“巴黎的埃菲尔铁塔有多高?”,会迅速给出324米。 扩展思维则提供复杂的推理…
刚刚,DeepSeek开源FlashMLA,瞬间破1000颗星
今早9点30,国内著名开源大模型平台DeepSeek开启了本周连续5天技术分享的第1天,开源了针对HopperGPU优化的高效MLA解码内核——FlashMLA。 刚在Github发布瞬间就破了1000颗星,DeepSeek现在就是国内外大模型开源界的顶流。 开源地址:https://github.…
有望治愈癌症!微软开源新模型,诺奖级重大突破
今天凌晨,微软在官网开源了,最新动态蛋白质生成模型BioEmu-1。 BioEmu-1能在单个GPU上每小时生成数千种蛋白质结构,生成效率比传统 MD 模拟提高了几个数量级。这种超高效率的蛋白质生成,可以帮助医学家更全面、快速地了解靶点蛋白质的动态变化,设计出有效治疗癌症等绝症药物。 例如,p53 …
20年磨一剑!微软发布全球首个拓扑量子芯片,一夜改变半导体
今天凌晨,微软发布了全球首个基于拓扑架构的量子芯片Majorana 1,这是一种超越固态、液态和气态的全新物质,彻底改变量子计算半导体产业。 Majorana1与其他量子计算相比,具有更高的潜在容错能力和抗环境噪声干扰的特性,只有巴掌大小却有望集成一百万个量子比特,为开发超大规模量子计算机铺平了道路…