你的位置:首页 > 电源管理 > 正文

24人团队挑战英伟达?Taalas HC1横空出世:将大模型直接“刻”进硬件

发布时间:2026-02-25 来源:转载 责任编辑:lily

【导读】由前AMD集成电路总监、Tenstorrent创始人柳比萨·巴吉克(Ljubisa Bajic)领衔,Taalas于2026年2月正式浮出水面,宣布完成超2亿美元融资并推出首款将模型权重直接固化于硬件的HC1平台。这款仅由24人团队耗时两年打造的芯片,宣称能将Meta Llama 3.1 8B模型的推理速度提升至每秒17000个token,成本仅为传统GPU方案的几十分之一,甚至有望让大模型推理进入“亚毫秒级”时代。


forward.jpg


一夜之间,Taalas的产品刷屏硅谷,社交平台网友纷纷开启实测,并称其性能惊人、将给英伟达GPU带来巨大挑战。HC1采用台积电6nm制程,芯片面积与英伟达H100芯片相当,为815平方毫米。HC1芯片可以将整个8B版本的Llama 3.1模型集成到单颗芯片上。Taalas还模拟了DeepSeek R1-671B的多芯片解决方案,其存储整个671B模型采用了大约30颗定制芯片,模拟结果表明,DeepSeek R1-671B每用户每秒可生成约12000个token;Llama 3.1单个用户的生成速度可达17000 token/秒,速度接近Cerebras推理平台的10倍,英伟达H200的73倍、B200的48倍,构建成本为Cerebras现有方案的1/20、功耗仅为1/10。


Taalas创始人兼CEO柳比萨·巴吉克(Ljubisa Bajic)曾任职AMD集成电路设计与架构总监、英伟达高级架构师。他2016年创立AI芯片公司Tenstorrent,2023年将其交接给吉姆·凯勒(Jim Keller)后,又创办了Taalas。Taalas的另外两位创始人是巴吉克的妻子、曾在AMD担任系统工程高级经理的莱拉·巴吉克(Lejla Bajic)以及曾在AMD担任高级设计工程师、在Tenstorrent担任工程师的德拉贡·伊格(Drago Ignjatovic)。不过在社交平台上,有不少用户吐槽:Taalas的产品确实快,但错误率过高。芯东西提问了“9.9和9.11比大小”以及经典的鸡兔同笼题目,该模型分别在0.001秒、0.017秒内给出了错误答案。


巴吉克称,Taalas的极端方案可能很适合某些特定应用,本质是找到追求经济效益和速度而牺牲灵活性的方法。


Taalas还透露了下一步计划,他们将基于HC1为第二款中等规模的推理模型打造芯片,该模型预计于今年春季在实验室完成流片,并很快集成至其推理服务中;随后,该公司将基于第二代芯片平台HC2推出新大语言模型,HC2将提供更高的算力密度与更快的执行速度,计划在今年冬季正式部署。


01.极致性价比30颗芯片模拟部署DeepSeek R1

2月20日,Taalas正式推出首款芯片平台HC1,该平台已集成Meta Llama 3.1 8B模型,用于聊天机器人演示与推理API服务。其官方博客提到,基于HC1,Llama 3.1单个用户的生成速度可达17000个token/秒,速度接近Cerebras推理平台的10倍,构建成本为Cerebras现有方案的1/20,功耗为1/10。Taalas发布了HC1集成Llama 3.1 8B的免费试用链接。芯东西提出的需求是“请详细提供1960年至1972年阿波罗计划逐年的完整历史,包括任务目标、技术挑战、核心人员、飞行里程碑与科学发现。”Llama 3.1仅0.078秒就输出了答案,每秒可输出15694个token,其输出内容对关键分类进行了罗列。


根据Taalas发布的成本与延迟对比数据,基于Taalas的芯片方案,Llama 3.1 8B的推理查询成本为每百万token 0.75美分(约合人民币0.052元),DeepSeek R1的成本为每百万token 7.6美分(约合人民币0.53元)。相比之下,Llama 3.1 8B在GPU吞吐量优化方案上的成本为每百万token 3.79美分(约合人民币0.26元),DeepSeek R1为20.2美分(约合人民币1.4元),延迟优化方案中,Llama 3.1 8B的成本为28.61美分(约合人民币2元),DeepSeek R1为49美分(约合人民币3.37元)。


可以看出,Taalas在token生成成本、延迟上相较英伟达GPU效果都更好,尤其在参数规模更小的模型上更是实现了数量级的领先。该公司的第一代芯片平台HC1采用了自定义的3位基础数据类型,这是因为他们在进行研发设计时,低精度参数格式尚未形成标准。集成Llama时,Taalas还采用了激进的量化方案,混合使用3位与6位参数,相较于GPU基准测试,会带来一定的精度损失。Taalas的收入来源将分为两块,推理即服务、HC硬件。在官宣博客中,Taalas将基于Llama 3.1 8B的HC1称作测试版服务,其目的是让开发者体验大模型推理实现亚毫秒级速度、且成本近乎为零的同时,探索更多新应用。这一服务预计不会产生显著收入。


02.遵循三大原则2个月内完成芯片定制

一般而言,对于更新的模型,Taalas能在不到两个月内完成芯片定制。巴吉克对此的解释是,由于Taalas的芯片高度专业化,其设计比英伟达的同类产品更简单,因此生产速度更快。例如一块Taalas芯片就能容纳一个完整的大语言模型,将模型及其权重硬编码到HC1中,然后将整个模型嵌入到定制的专用芯片中,而无需像英伟达和其他公司那样依赖外部高带宽内存。这一过程中,该公司遵循三个原则。第一是完全定制化(Total specialization):其团队认为,在计算机发展史上,深度专业化一直是让关键工作负载以极高效率运行的最可靠途径之一。因此,Taalas会为每个单独的模型生产最佳芯片,也就是将特定的模型神经网络映射到芯片本身,从而针对每个模型优化基础设施。第二是实现存储与计算融合:此前,AI推理芯片架构设计中计算与存储相互分离,且二者运行速度存在显著差异,这直接导致当前AI推理硬件架构日趋复杂。系统不仅需要依赖先进封装、HBM堆栈与超高I/O带宽,再加上单芯片功耗攀升,有时必须依靠液冷方案才能稳定运行。其博客提到,Taalas的突破性就在于,将存储和计算统一在单个芯片上,并达到DRAM级别的密度,以此来解决此前计算和内存分家的痛点。第三是极致简化(Radical simplification):在融合存储与计算,并针对每个模型定制芯片的基础上,Taalas可以从根本上重新设计整个硬件堆栈。其最终得到的系统不依赖于复杂或特殊的技术,不需要HBM、先进封装、3D堆叠、液冷等。HC在设计时还进一步降低了AI部署中的能耗和成本。HC系统每个机架的能耗为12-15千瓦,GPU每个机架的能耗则高达120-600千瓦。再加上Taalas的机架可采用风冷散热,从而进一步降低数据中心的改造成本。此外,Taalas HC1 PCIe卡几乎可以安装在任何服务器中,并支持英特尔和AMD的CPU。


03.业界好评与担忧并存缺乏灵活性、机架寿命短引热议

凭借HC1的性能和极低成本,Taalas近期获得了不少关注,但业界仍提出了反对意见。其优势显而易见。即便云服务商每次模型更新时都要更换数千颗加速芯片,在四年的可比使用周期内,Taalas方案的资本支出(CAPEX)仍能比其他AI加速方案节省60%–75%,同时还能为用户提供全球最快的AI推理服务。企业担忧的关键之一在于,Taalas的方案缺乏灵活性。使用其方案的企业将不得不长期适配同一固化模型的多个迭代版本,同时还要部署不同的芯片版本来运行各异的模型。如此繁多的版本,会加重数据中心的运营复杂度。但《福布斯》认为,即便如此这套方案依然非常划算。因为如果一家数据中心只有少数几个模型,却占用了生产环境中绝大部分AI推理算力,那用这种专用芯片的性价比会很高。企业担心的另一个点是Taalas机架的使用寿命较短。目前,英伟达和AMD的更新周期都是以年为单位,但Taalas的模式就意味着,每个模型都要跟着更新。大模型基本1~1.5年就会迭代一次,而新一代芯片的研发通常需要2~3年。针对这一隐忧,Taalas的应对策略是,通过对两层金属层进行改动来升级基础逻辑层,无需彻底重新设计。《福布斯》估计,Taalas很可能让台积电预先存储未完成的晶圆,以便添加这两层金属互连层,从而实现在两个月内完成交付。


总结

Taalas的横空出世无疑为AI基础设施领域提供了一种极具颠覆性的新思路:通过“存储计算融合”与“模型硬件固化”,它成功打破了传统冯·诺依曼架构中内存墙的限制,在特定模型的推理速度与能效比上实现了对英伟达等通用GPU方案的代际超越。其提出的“两个月定制芯片”模式及极致的成本控制,证明了在追求经济效益和极速响应的垂直场景中,专用ASIC架构拥有巨大的应用潜力。


3-958x200_20251021044704_586.png

特别推荐
技术文章更多>>
技术白皮书下载更多>>
热门搜索

关闭

 

关闭