Listen "CCQ:压缩巨兽 - 两比特大语言模型的革命"
Episode Synopsis
本期播客深入探讨了名为CCQ(卷积码量化)的突破性技术。面对大型语言模型(LLMs)日益增长的部署成本和障碍,CCQ提出了一种创新的极低比特量化方案。我们将讨论CCQ如何通过结合卷积码、混合编码和码簇等技术,在几乎不损失模型精度的前提下,将模型压缩至2.0到2.75比特。同时,我们也会探讨其独特的免查找表和位移解码设计如何解决了传统矢量量化的推理速度瓶颈,并实现了在单个GPU上部署超大型模型(如文心4.5)的壮举。欢迎收听,了解这项可能改变大模型部署格局的黑科技。
More episodes of the podcast AI Podcast
策略内蒸馏:LLM高效训练的秘密武器
28/10/2025
EchoMimicV3:13亿参数,统一多模态多任务人体动画的魔法!
25/10/2025
智读万卷:PaddleOCR-VL的文档解析革命
24/10/2025
LongLive:实时互动长视频生成的革新之路
21/10/2025
DeepSeek-OCR:开启长上下文光学压缩新纪元
20/10/2025
LightRAG:大模型检索增强生成的图谱新范式
20/10/2025
Voila:迈向自主语音AI的里程碑
15/10/2025
机器人学习:从经典到通用策略的深度探索
15/10/2025
Muon优化器:AI训练提速的秘密武器
14/10/2025
月光私酿:边缘设备上的微型专业ASR模型
11/10/2025
ZARZA We are Zarza, the prestigious firm behind major projects in information technology.