
Google DeepMind联合创始人兼CEO,神经科学家德米斯·哈萨比斯(Demis Hassabis),被誉为AI时代的领军人物。他以科学家严谨的态度和产品家的敏锐洞察力,对当前AI的竞赛格局、未来一年的技术突破方向,以及最具争议的通用人工智能(AGI)的实现路径,给出了坦率且毫不妥协的见解。哈萨比斯的对话揭示了AI行业正处于一个前所未有的加速期,技术焦点正从纯粹的语言模型转向多模态融合、世界模型和自主智能体,同时,他也强调了应对AGI带来的潜在风险和巨大社会变革的紧迫性。
哈萨比斯将自己定位为“科学家优先”,并认为科学方法论是DeepMind取得优势的核心所在。他指出,科学方法(包括实验和根据证据更新假设)不仅适用于基础研究,更可以应用于日常生活和商业领域。
科学方法的价值:科学方法被认为是人类拥有的最重要思想,它创造了启蒙运动和现代科学,是现代文明的基石。严谨性与优势:在当前科技界“最激烈的竞争”中,DeepMind之所以能够保持优势,是因为其工作核心拥有科学方法的严谨性与精确性。三重能力融合:站在AI前沿需要整合三项世界级的核心能力:世界级的研究、世界级的工程,以及世界级的基础设施。哈萨比斯也正是基于这种科学的实用主义态度,才得以做出关键的战略调整。他提到,在2017年至2018年,DeepMind内部拥有多种研究路径(包括基于AlphaGo的纯强化学习系统、认知科学模型以及语言模型Chinchilla等)。当大规模语言模型(LLM)显示出惊人的潜力时,哈萨比斯抛弃了对现有理论的执着,果断地将更多资源投入到LLM研究分支,因为真正的科学家必须遵循经验证据指引的方向。
在对未来12个月的AI进展进行预测时,哈萨比斯摒弃了炒作,给出了三项最具确定性的技术趋势。
多模态的融合是DeepMind重点突破的方向。他们的基础模型Gemini从一开始就被设计为多模态,能够处理图像、视频、文本和音频输入,并能生成相应类型的输出。
跨模态理解:多模态带来的最大优势是跨模态的交叉融合,使模型具备惊人的视觉理解能力。例如,他们的最新图像模型(如被提及的Namno Banana Pro,即Imagen 3之谐音误读)可以创建非常准确的信息图。视频分析的突破:这一领域被认为受到了“令人震惊的关注不足”。Gemini可以处理YouTube视频,并对视频内容进行深入的概念性理解,例如,可以分析电影中的特定动作所蕴含的哲学或象征意义。实时交互的潜力:Gemini Live的出现,让用户可以直接用手机指向物体(理想情况下是使用眼镜解放双手),系统就能像专业机械师一样提供实时帮助。哈萨比斯认为,人们尚未完全意识到这种多模态能力的强大。世界模型是另一项令人振奋的进展。
Genie 3的功能:系统如Genie 3(交互式视频模型)不仅能生成视频,还能让用户像在游戏或模拟中一样在视频内“走动”,并且保持一分钟的连贯性。高阶理解与创造力:Gemini 3在前端开发和网站生成方面表现出色,不仅技术上强大,在审美和创造力上也具备优势。Gemini 3的独特之处在于其“个性和细微差别”,它能简洁地回答问题,并在用户论点不合理时进行“温和地反驳”。智能体(Agent)系统在行业内已被广泛讨论,但目前它们在可靠完成整个任务方面仍存在不足。
通用助手愿景:DeepMind的目标是让Gemini最终成为通用助手(universal assistant)。这个助手将不仅仅局限于电脑或手机,而是通过眼镜或其他设备伴随用户左右,成为日常生活的一部分,全天候提供帮助,提高生产力和个人生活质量。未来一年的飞跃:尽管目前智能体尚不能完全可靠地被委派完成完整任务,但哈萨比斯预测,一年后,它们将接近于能够可靠地完成这项工作。哈萨比斯对通用人工智能(AGI)的实现路径和时间线给出了明确的预估,这与一些回避讨论AGI的观点形成了鲜明对比。
哈萨比斯将AGI的实现时间定为5到10年。他的标准非常高:一个真正的AGI必须展现出人类拥有的所有认知、发明和创造能力。
当前模型的缺陷:目前的LLM虽然令人印象深刻,在某些领域(如国际奥林匹克数学竞赛奖牌或博士级别知识)表现出色,但它们是“锯齿状智能(jagged intelligences)”。它们的智能表现并不稳定和一致。缺失的关键能力:当前的系统仍缺少几项至关重要的能力,包括持续学习(continual learning)、在线学习(online learning)、长期的规划和推理。哈萨比斯认为,仅靠持续扩大现有系统的规模是否能达到AGI,这是一个经验问题。
规模化是基础:现有系统的规模化必须推到极致,因为规模化将至少是最终AGI系统的关键组成部分。突破是必要条件:他倾向于认为,回顾AGI的完成,可能还需要一到两次重大的突破,这种突破应是Transformer或AlphaGo级别的创新。哈萨比斯坦承,AI不仅带来了人类历史上最大的变革机会,也带来了巨大的风险。
哈萨比斯称其终身梦想是实现一种“激进丰裕(radical abundance)”。
解决重大挑战:AI可以解决人类社会面临的许多最大问题,包括清洁可再生能源(如核聚变、优化电池)、材料科学以及疾病治疗。人类的繁荣:最终,人类将进入一个后稀缺时代(post scarcity era),实现繁荣,甚至能够进行星际旅行和传播意识。尽管前景光明,哈萨比斯对AI的风险保持着清醒的认识。他指出,风险主要分为两类:
恶意行为者:利用AI实现有害目的。具体的恶用场景包括利用AI制造病原体和外国行为者利用AI进行网络恐怖主义。自主性风险:当AI接近AGI并变得更具能动性(agentic)时,它可能以某种方式“脱轨”,危害人类。这尤其与智能体系统有关,如果它们发展出与设计者或人类意图相冲突的自我利益,将导致灾难性后果。在应对风险方面,哈萨比斯认为商业考量可能会成为一种自然约束力。
自律与问责:当模型提供商将智能体出租给大型企业时,这些企业将要求提供关于智能体行为和数据处理的保证(guarantees)。资本主义的奖励:如果智能体行为不当,企业会转向其他更负责任的提供商。因此,资本主义的机制将自然而然地奖励那些更负责任的行为者。至于对“末日概率论”(P-doom)的担忧,哈萨比斯拒绝给出精确的百分比,认为这种量化是“无稽之谈”,但他严肃指出,灾难性后果的可能性是“非零的”,因此必须投入巨大的资源和关注进行缓解。
哈萨比斯的访谈透露出三个值得深思的行业洞察:
尽管DeepMind在算法创新上仍保持领先地位,哈萨比斯强调,西方在算法创新方面仍然占据优势,尤其是在最新基准测试和系统方面。他认为,中国公司在追赶当前技术方面非常出色(可能只落后几个月),但尚未展示出超越现有技术水平的算法创新能力。
然而,这种优势是脆弱的。哈萨比斯的“科学家优先”哲学虽然赋予了DeepMind rigor和长期愿景,但却与当前“科技史上最激烈的竞争”形成了结构性张力。他坦言,由于竞争速度过快,他和团队甚至没有时间充分探索现有模型(如Gemini 3)能力的十分之一,就必须立即投入到下一轮创新中。这表明,即使是最顶尖的实验室,其研究节奏也被市场竞争和“摩尔定律式”的加速所裹挟。
哈萨比斯将AGI带来的颠覆性影响描述为比工业革命大10倍,且速度快10倍。这引发了关于人类是否能够跟上技术步伐的深刻疑问。
他基于神经科学的背景表达了对人类适应性的强烈信念。他指出,人类大脑从狩猎采集时代进化而来,却成功适应了现代文明的复杂性。他强调,人类大脑是我们所知的宇宙中通用智能的唯一存在证明。在后AGI时代,为了保持同步,人类可能需要借助脑机接口(BCI)等增强技术,与不断发展的AI共存。
对于AI行业是否存在泡沫的质疑,哈萨比斯给出了理性的回答。他认为,虽然某些领域(如早期轮次的超高估值)可能存在不可持续的泡沫,但从长远来看,鉴于AI是“有史以来最具变革性的技术”,目前的投资最终将是物有所值的。他将DeepMind的角色定义为Google的“引擎室”,无论泡沫破裂与否,其目标都是确保公司在竞争中获胜。
哈萨比斯的见解勾勒出了未来十年AI发展的清晰图景:技术焦点正从单一模型转向高度集成、具备自主能力的智能体和多模态系统。AGI并非遥不可及的科幻概念,而是5到10年内,通过规模化和一到两次关键算法突破即可触及的现实。DeepMind正凭借科学的严谨性、对多模态的专注以及对AGI使命的坚定,试图在这场竞赛中保持领先。
最终,AI的宏大叙事始终围绕着一个核心矛盾展开:如何最大化“激进丰裕”的潜力,同时将“失控”的风险降至非零以下? 随着通用智能体的能力日益增强,社会、政府和行业将如何共同协作,建立起足够强大的“守门人机制”,确保这些自主系统服务于人类福祉,而非自身的冲突利益?这是决定人类未来轨迹的最关键议题。
原始视频:https://youtu.be/tDSDR7QILLg?si=-KqB3pFs-XkMHu2t
中英文字幕:【谷歌DeepMind CEO震撼预言:AGI倒计时5-10年,AI新战场在何方?】