孙蕾蕾 | 视频生成模型在视听内容生产中的研发与应用——以央视听媒体大模型为例

摘要：随着大模型逐渐成为推动视听生产力变革的技术基础设施，广电视听行业正发生结构性变革。“央视听媒体大模型”是我国自主研发的视频生成模型，也是我国首个专注于视听媒体内容生产的 AI 大模型。它的研发与应用表明，坚持原创性研究是推动我国发展自主通用人工智能的根本所在。其代表的产研结合新范式将带领我们走出一条技术发展的差异化道路，形成独一无二的文化特色。

关键词：生成式人工智能；文生视频大模型；新质生产力；原创性研究；央视听媒体大模型

本文系国家社会科学基金项目“电视媒体虚拟现实媒介叙事手段建设与创新研究”〈项目编号：22BXW076〉阶段性研究成果

作者简介

孙蕾蕾

中央广播电视总台社教节目中心主任编辑、河北大学新闻传播学院硕士生导师、河北省城市传播研究院研究员。

以ChatGPT为标志，大模型如今已进入加速发展的第二年。2024年2月15日，OpenAI发布了文生视频大模型Sora，加速了通用人工智能（AGI）的到来，标志着人类社会向智慧社会迈进的世界模型底座业已启动。视听行业是生成式人工智能的第一落地应用场景，视听节目也是文生视频大模型这一基础设施建设的重大生产资料。随着大模型逐渐成为推动视听生产力变革的技术基础设施，广播电视网络视听业正发生结构性变革。当下，大模型技术已覆盖到传媒生产力的多个细分领域，比想象中更快速地应用到视听内容生产中，并不断推进媒体的融合发展。对于广电主流媒体而言，如何抓住生成式人工智能崛起的契机，借助AI赋能传媒业务，让新质生产力成为内容产品高质量发展的最大增量，已成为一个重大的现实议题。

一、总台运用AI赋能视听内容生产的创新实践

尽管目前 AGI 尚不成熟，但以GPT、Sora为代表的在特定领域具备泛化任务处理能力的类AGI正在成为新的生产工具，掀起泛视听业的内容生产革命。在AI技术迭代发展的浪潮下，中央广播电视总台一直站在视听行业的前沿，积极探索AI技术与影视创作的交融，致力于将新质生产力转化为新颖生动的精品节目。央视纪录片频道CCTV-9于2018年推出的大型纪录片《创新中国》，是世界首部利用人工智能模拟人声完成配音的大型纪录片，节目解说部分全程运用人工智能配音，使已逝“配音大师”李易先生的声音“复活”，重回荧屏；2022年5月，CCTV9推出了纪录片《码农的异想世界》，片中运用AI技术创作词曲并演唱的“程序员之歌”备受瞩目；在同样由CCTV9推出的纪录片《中国空间站》中，制作团队使用基于AI的3D降噪和超分辨率等技术，对拍摄于2003年的一段杨利伟搭乘神五载人飞船出征太空的视频画面进行修复，让原本编码失真、细节缺失的画面转变为画面清晰、色彩鲜艳的4K超清素材。

中央广播电视总台人工智能工作室揭牌仪式举行

为推动生成式人工智能AIGC在视听媒体的应用，2023年7月20日，中央广播电视总台联合上海人工智能实验室发布了“央视听媒体大模型”（CMG Media GPT），并首次应用于动画片《千秋诗颂》的创作。2月23日，中央广播电视总台人工智能工作室揭牌仪式举行，2月26日，中国首部文生视频AI动画片《千秋诗颂》在央视综合频道（CCTV-1）播出；3月10日，《千秋诗颂》英文版在总台CGTN正式上线发布；3月12日，总台推出首部以人工智能全流程赋能译制而成的英文版系列微纪录片《来龙去脉》；3月22日，我国首部AI全流程微短剧《中国神话》与观众见面。该剧由央视频、总台人工智能工作室联合清华大学新闻与传播学院元宇宙文化实验室合作推出，其美术、分镜、视频、配音、配乐全部由AI完成；4月14日，总台社教节目中心推出特别节目《科普中国在行动》，采用多形式AI技术数实融合，打造节目新样态。录制现场通过AI视觉方式展现了由中央音乐学院人工智能作曲系统原创的中国首部AI交响乐《千里江山图》，还打破虚拟与现实次元壁，制作出虚拟数字人橙络络，与真人主持人互动主持。

从国内首部AIGC动画片《千秋诗颂》，到AI技术全面覆盖的微纪录片《来龙去脉》，再到AI全流程微短剧《中国神话》和《AI看典籍》，短短一个多月，总台便完成了多项AI创新应用，成为主流媒体中用文生视频大模型赋能内容生产的先行者。继总台发布《千秋诗颂》开始，从总台到上海台、山东卫视、芒果台，各地广电密集又发布了多部AI作品，AI广电迎来加速度。作为首部以我国自主AIGC技术支撑制作的系列动画片《千秋诗颂》，其最大亮点在于，将现代的AI技术应用于中华传统文化的传播与呈现，通过文生视频的方式，以诗歌生成动画，更加生动形象地传播了中华优秀传统文化。依托央视听媒体大模型，《千秋诗颂》基于总台提供的丰富视听数据进行模型训练，综合运用可控图像生成、人物动态生成、文生视频等AI技术，将国家统编语文教材中的200多首诗词转化为唯美的国风动画。其美术设计和动效生成，都是基于模型，用文字生产。

首部以我国自主AIGC技术支撑制作的系列动画片《千秋诗颂》

借助最新的生成式人工智能技术，《千秋诗颂》将博大精深的中华古典诗词与现代视听艺术完美融合，高度再现了中国古诗词中的人物造型、场景和道具，并传递出真挚的情感和高尚的家国情怀。文生视频模型赋能内容生产，极大地提升了生产效率，团队创作的速度从一个月1集提升到一个月3集，并且获得了上佳的收视效果。《千秋诗颂》首播六集节目收视率在全国所有上星频道动画片中高居第一，累计触达观众9441.3万人次，央视频客户端直播观看量达1318.2万人次，微博话题阅读量累计9281.4万人次。

人工智能技术不仅被用于专题片的制作，同样也介入了电视媒体的新闻报道。3月29日，央视《晚间新闻》出现了一个新闻片段，通过AI技术再现了候鸟迁徙的壮观场面；4月3日，《新闻直播间》又继续利用AI视频向观众解释了“强对流天气”的成因，并提供了预防措施。这些AI在新闻生产中的应用片段，不仅丰富了新闻的表现手法，也提高了信息传递的效率和质量，标志着央视在新闻制作上又迈出一大步，人工智能技术已在新闻媒体领域得到快速渗透和应用。无论是新闻生产，还是文艺节目、影视剧、动画片，无论是节目的多语种译制，还是更普遍的新媒体传播，AI技术正在全链条、多方位地赋能视听内容生产，AIGC在主流价值传播中的作用日益彰显。在未来发展方向上，广电传媒必将在坚持社会主义核心价值观基础之上，继续以人工智能技术为路径，以受众为核心，进一步创新视听表达方式，强化主流价值传播效果。

人工智能技术应用于新闻报道

二、央视听媒体大模型的技术架构与功能

“央视听媒体大模型”是我国自主研发的视频生成模型，也是首个专注于视听媒体内容生产的AI大模型，集合了中央广播电视总台的海量视听数据与上海AI实验室原创先进算法、大模型训练基础设施的优势。包括视频生成大模型“书生·筑梦”、AnimateDiff文生视频框架在内的多项先进技术，共同构成了央视听媒体大模型的核心。该模型不仅集成了上海AI实验室书生通用大模型体系的语言处理和知识构建能力，还具备超强的视频理解能力和视听媒体问答能力，可通过逐步呈现的视觉元素，理解并分析视频。列如，当它“看”到央视节目《中国诗词大会》中“看图猜诗词”环节视频，可理解视频内容并生成出李白的《望庐山瀑布》。以大模型的多模态理解、交互和生成能力为基础，用户可通过与AI聊天对话的形式，深挖视频蕴含信息，进一步完善输出的内容。

在拥有超强理解能力的同时，央视听大模型还具备通用的生成能力，在生成内容的可控性、流畅性以及生成细节等方面均达到国际领先水平，其生成视频质量可达到高清视频标准（2K和24FPS）。并且，央视听大模型支持故事一致性和镜头连贯性生成，在生成有故事情节长视频的同时，还能保证故事转场的流畅性。央视听大模型所具备的视觉理解能力，源于跨模态互动技术的最新突破——大模型将图像和视频视为另一种“语言”，并将视觉与语言对齐，从而降低人工智能视觉任务的门槛。基于对多模态数据的建模，央视听大模型可感知图像的风格与纹理笔触，通过将用户输入的文本指令与图像对齐，实现按照用户需求生成画面。此外，央视听大模型还具有场景渲染的能力。基于全球首个城市级NeRF实景三维大模型书生·天际，它可以进行高精度的实景三维建模，建模范围具有无限可扩展性，同时提供对城市场景的编辑能力，包括移除、新建、旋转城市建筑，对场景进行光照、季节等风格变换。综上所述，到目前为止，央视听媒体大模型经过数据训练和模型微调，已经能够提供以下实际节目应用：

一是节目创作方面。可根据关键词和内容提示创作文稿，并将文稿生成镜头本，提示具体拍摄内容和查找媒资素材，在此基础上根据镜头本进行自动后期编辑，按照用户需要的时长合成节目成片；

二是短视频生成方面。可根据输入文案自动生成标题、匹配素材、字幕、模板、解说、背景音乐并生成短视频；

三是AIGC动画方面。可通过文生图和文生动画，确定二维图像到三维模型的映射关系，为三维动画模型建模，并为二维动画摄像机定位创造基础。还可以改善动画主体、镜头运动所带来的生成内容变形，增加AIGC对于空间、角度、遮挡、变形的判断力，从而使生成内容更趋平滑稳定；

四是节目剪辑方面。总台有大量节目为重播节目，而重播时长往往与原节目时长差异较大，尤其是体育节目，央视听媒体大模型可在原有节目基础上根据时长要求进行缩编，从而保留节目最精彩的部分；

五是超写实AI数字人方面。央视听大模型具备快速生成“数字人主播”的能力，能用较短时长的真人采集视频生成相对应的数字人。AI生成的数字人主播呈现出来的是近乎“真人”的形象，技术人员可通过央视听大模型对数字人进行语音、表情和动作的控制驱动，实现脸、唇、音、体等智能化的全维表达。央视听大模型的生成技术不仅可以实现主播“分身”，更能简化视频播报的创作过程，它能根据既定文案、场景要求快速生成播报视频。此外，大模型中还具备AI文案编写功能。在视频创作素材库中，用户可选择视频模板，输入文案，从而快速生成播报文案，合成数字人视频。

三、关于视频生成模型研发与应用的思考

随着智媒时代的媒介环境日益复杂多元，媒介内容的传播方式也趋向智能化和分众化，影像生产话语权逐渐下沉，视听内容创作也在全新的智媒传播环境下不断地适应与进化。在既往大众传播模式下，传统媒体尤其是官方媒体是内容生产流程的主导力量，媒介信息大多通过权威渠道触达受众，媒体矩阵的内容生产高度同质化。不过，这一现象在智能传播时代发生了根本性的改变，算法推荐基于用户的海量行为数据，能够实现内容的精准分发。随着算法不断学习与迭代，对用户画像的描摹也愈加准确。创作者、受众和内容之间的边界进一步模糊，文本创作过程更加开放，利用大数据筛选选题创意，将受众反馈融入创作过程等手法屡见不鲜。面对智能技术的冲击，受众与媒体之间的关系也在技术与需求的双重驱动下被重构。面对AI带来的全新挑战，广电主流媒体该如何在AI赛道上跑出“加速度”？总台近期一系列生动的AI实践，提供了以下几点启示：

第一，实际表明，坚持原创性研究是推动我国发展自主通用人工智能的根本所在。文生视频大模型对传统的广电视听内容生产既是挑战，也是机遇。总台敏锐抓住了这一轮科技革命和产业变革契机，积极用生成式人工智能赋能内容生产，提前布局，倾力打造出首部以我国自主AIGC技术支撑制作的动画片《千秋诗颂》。尽管相比Sora模型所展示的技术高度，我国自主研发的文生视频大模型还存在短板，但是通过进一步深入的研发，我们完全有能力仅需探索出更高质量和性能的文生视频大模型。列如自Sora 发布之后，4月27日，生数科技联合清华大学发布了视频大模型Vidu，成为继Sora 之后首个完成突破的视频模型。Vidu生成的视频最长可以达到 16秒左右，画面效果超级接近Sora，而且在镜头语言、保持时间和空间一致性、遵循物理规律、理解中国元素等方面有着明显的优势。

不过，当前全球通用的大模型数据训练集里，中国特色明显不足，中文语料仅占1.3%。为解决这一问题，2023年，总台与上海人工智能实验室等10家机构共同成立了“中国大模型语料数据库联盟”，为大模型发展提供高质量、大规模、安全可信的语料数据资源。总台拥有中国音像资料馆等丰富和规范的视听语料库，所有资料均已经实现标签化，这也是全球最大的中文音像语料库。以总台海量高品质视听数据和专业化的媒体创作知识进行训练，该模型有望在进一步的实战中快速成长，走出一条我国技术发展的差异化道路。

第二，要努力打造具有中国文化特色的文生视频大模型。在生成式AI技术研发应用方面，总台不仅始终坚持原创性研究，还努力打造具有中国文化特色的文生视频大模型。近年来总台所推动的一系列AI实践，注重以中华优秀传统文化为根脉，突出中国审美和中华文化特色，注重在历史的纵深中讲好中国故事。例如，在《千秋诗颂》的制作过程中，主创团队使用大量国画、古诗词为训练素材，与AI大模型进行沟通。文生视频，关键在“文”。为了让AI模型深刻理解并准确表达古诗词的内涵，导演和科研人员对其进行了大量精准数据的训练。长期浸润在中华文化中反复训练、深度学习，“央视听媒体大模型”的研发日益成熟，并最终具备了独特的风格和强项——中国审美。大模型能够准确理解“国风、唐代、写意、工笔画”等传统文化词汇，生成既符合历史背景又具有中国传统水墨、工笔风格的美术图像。总之，用文生视频大模型的技术手段呈现中华优秀传统文化，可生动再现中华古诗词的独特意境、气韵、美感，为其注入科技感和时代感，从而使古典文化焕发时代新生，这也正是《千秋诗颂》在当下成功破圈的缘由。

不过，与世界先进技术相比，我国自主研发的视频生成模型在生成能力和生成质量上，还存在较大差距。与Sora逼真的视觉效果相比，《千秋诗颂》等AI动画还存在着人物动作连贯性不足、背景模糊等问题。但是随着科研水平的进一步深入和提升，我国视频生成模型在对中华文化的理解以及媒体编创流程的融合方面，将逐渐显露出重大的特色优势。尽管用央视听媒体大模型生成的作品在细节上仍有待完善，但其整体质量已经接近传统手工制作水平，未来节目的制作周期也会进一步缩短，作品精细度也会不断升级。最为重大的是，央视听媒体大模型所代表的这种产研结合的新范式将带我们走出一条技术发展的差异化道路，形成基于本土的独一无二的文化特色。

第三，做好平台建设，深化推进“产学研用”一体化，持续优化安全可靠的AIGC技术平台。为进一步推进“央视听媒体大模型”研发和应用，2024年2月23日，中央广播电视总台牵头发起成立了“央视听媒体大模型”研发共同体，通过开放平台与国内有实力的科研机构和企业深化合作。大模型突破的核心在于算法、算力和数据。未来，总台将与上海人工智能实验室共同打造自主可控的国产智能算力平台，进一步推进大模型研发共同体和总台人工智能工作室的建设，整合总台广播电视和新媒体媒资平台资源；进一步联合国内一流科研机构、高校和企业，在科研攻关、需求应用、安全发展、产业生态等领域持续展开合作。

“央视听媒体大模型”研发共同体成立

四、结语

综上所述，将文生视频大模型应用于内容生产的发展前景广阔，央视的一系列AI实践也为广电视听行业提供了宝贵经验。央视听大模型不仅提高了创作效率，拓展了创意空间，还带来人机交互方式的变革。它借助强劲的对话能力和易用的互动模式，将人机互动推至新高度，为AI技术在视听内容生产领域的应用树立了新的标杆。这种结合通用模型和行业数据的垂直模型方法，有望使中国在AI技术的某些应用领域走在世界前沿。今后，总台将聚焦媒体领域重点示范应用场景，持续推进央视听媒体大模型的落地应用，进一步发挥在超高清视音频研究和应用上的优势，联动产业链上下游，优化内容创作。不过，AI技术在为视听产业带来巨大效率和革新机遇的同时，也为版权保护、隐私保护带来了一系列挑战。未来，该如何保证视听内容制作和新闻生产的准确性、真实性以及版权的可靠性，将是一个需要长期探索的课题，我们仍需要强调技术设计和应用的伦理规范，并努力在技术创新与新闻伦理之间找到的新的平衡点。

注：文章发表在《全媒体探索》2024年第6期。

本文转自 | 全中看传媒