(强烈推荐)手机端音视频从零到上手
来源:小东邪啊     阅读:553
云上智慧
发布于 2019-08-22 01:07
查看主页

概述

随着整个互联网的崛起,数据传递的形式也在不断更新变化,总的流行趋势如下:

纯文本的短信,QQ -> 空间,微博,朋友圈的图片文字结合 -> 微信语音 -> 各大直播软件 -> 抖音短视频

音视频的发展正在向各个行业不断扩展,从教育的远程授课,交通的人脸识别,医疗的远程就医等等,音视频方向已经占据一个相当重要的位置,而音视频真正入门的文章又少之甚少,一个刚毕业小白可能很难切入了解,由于音视频中涉及大量理论知识,而代码的书写需要结合这些理论,所以搞懂音视频,编解码等理论知识至关重要.本人也是从实习开始接触音视频项目,看过很多人的文章,在这里总结一个浅显易懂的文章,让更多准备学习音视频的同学更快入门。

划重点

本文中理论知识来自于各种音视频文章的归纳音视频编码基本原理汇总,其中也会有少量我自己总结添加的部分.若有错误可评论,检查后会更正.

为了防止大家了解过于空洞,作者花了三个月时间将最常用,最重要的少量功能的理论知识及实战Demo亲身写出来,配合文章阅读效果更佳.每一部分的文章可以在下面每章章节开始的深入学习中点击链接查看, 链接中文章均有Github地址,每个Demo都亲测可以通过,可以下载Demo运行.

假如喜欢,请帮忙点赞并支持转载,转载请附原文链接.

原理

推流,拉流流程

推流如下:
14.push_stream
拉流如下:
13.pull_stream

具体剖析

推流,拉流实际为互逆过程,这里按照从采集开始详情.

1. 采集

采集是推流的第一个环节,是原始的音视频数据的来源.采集的原始数据类型为音频数据PCM,视频数据YUV,RGB...。

1.1. 音频采集

1.2. 视频采集

注意: 像少量外置摄像头,如像利用摄像机的摄像头采集,而后用手机将数据解决编码并发出,也是可以的,但是数据的流向需要我们解析,即从摄像头的HDMI线转成网线口,网线口再转USB,USB转苹果Lighting接口,利用FFmpeg可以获取其中的数据.

1帧数据量 = 分辨率(width * height) * 每个像素的所占字节数(一般是3个字节)

注意上面计算的方法并不是唯一的,由于视频的数据格式有很多种,如YUV420计算方式为分辨率(width * height) * 3/2

1.3. 综上所述

我们假设要上传的视频是1080P 30fps(分辨率:1920*1080), 声音是48kHz,那么每秒钟数据量如下:

video = 1920 * 1080 * 30 * 3 = 186624000B = 186.624 MBaudio = (48000 * 16 * 2) / 8 = 192000B = 0.192 MB 

由此我们可得,假如直接将原始采集的数据进行传输,那么一部电影就需要1000多G的视频,假如是这样将多么恐怖,所以就涉及到我们后面的编码环节。

2. 解决

从上一步中,我们可以得到采集到的音频原始数据和视频原始数据,在手机端,一般是通过各自手机平台官方API中拿到, 前文链接中皆有实现的方法.

之后,我们可以对原始数据加以解决,对原始操作解决只能在编码之前,由于编码后的数据只能用于传输. 比方可
以对图像解决

对音频解决

目前流行的有很多大型框架专门用来解决视频,音频,如OpenGL, OpenAL, GPUImage...以上的各种解决网上均有开源的库可以实现,基本原理就是,我们拿到原始的音视频帧数据,将其送给开源库,解决完后再拿四处理好的音视频继续我们自己的流程.当然很多开源库仍需要根据项目需求稍微更改并封装.

3.编码

3.1. 为什么要编码

在第1.步采集最后已经讲到,原始的视频每秒钟就产生200多MB,假如直接拿原始数据传输,网络带宽即内存消耗是巨大的,所以视频在传输中是必需经过编码的.

相似的例子就像我们平时搬家,假如直接搬家,东西很零散,需要跑很多趟拿,假如将衣服,物品打包,我们仅仅需要几个行李箱即可以一次搞定.等我们到达新家,再将东西取出来,重新布置,编解码的原理就是如此.

3.2. 有损压缩 VS 无损压缩

正由于有着上面的压缩方法,视频数据量可以极大的压缩,有利于传输和存储.

3.3. 视频编码

实际应用中使用混合编码(变换编码+运动预计,运动补偿+熵编码)

12.video_encoder

3.4. 音频编码

11.audio_encoder

4. 封装编码数据

4.1 定义

封装就是把编码器生成的音频,视频同步以生成我们肉眼可见,耳朵可听并且看到的与听到的是同步的视频文件.即封装后生成一个容器,来存放音频和视频流以及少量其余信息(比方字幕, metadata等).

4.2 格式

4.3 将编码数据合成流

在手机端我们需要借助FFmpeg框架,正如上面详情的,FFmpeg不仅可以做编解码,还可以合成视频流,像常用的.flv流,.asf流.

最后, 合成好的数据就可用于写文件或者者在网络上传播

补充: FFmpeg (必学框架)

FFmpeg 是一个开源框架,可以运行音频和视频多种格式的录影、转换、流功能,包含了 libavcodec: 这是一个用于多个项目中音频和视频的解码器库,以及 libavformat 一个音频与视频格式转换库。

目前支持 Linux ,Mac OS,Windows 三个主流的平台,也可以自己编译到 Android 或者者 iOS 平台。
假如是 Mac OS ,可以通过 brew 安装 brew install ffmpeg --with-libvpx --with-libvorbis --with-ffplay

4.4. FLV流简介

5. 将数据通过RTMP协议传输

我们推送出去的流媒体需要传输到观众,整个链路就是传输网络.

5.1. Overview

RTMP协议是一个互联网TCP/IP五层体系结构中应用层的协议。RTMP协议中基本的数据单元称为消息(Message)。当RTMP协议在互联网中传输数据的时候,消息会被拆分成更小的单元,称为消息块(Chunk)。

5.2. 消息

消息是RTMP协议中基本的数据单元。不同种类的消息包含不同的Message Type ID,代表不同的功能。RTMP协议中一共规定了十多种消息类型,分别发挥着不同的作用。

8.message

2.消息块

在网络上传输数据时,消息需要被拆分成较小的数据块,才适合在相应的网络环境上传输。RTMP协议中规定,消息在网络上传输时被拆分成消息块(Chunk)。

消息块首部(Chunk Header)有三部分组成:

7.message_block

3.消息分块

在消息被分割成几个消息块的过程中,消息负载部分(Message Body)被分割成大小固定的数据块(默认是128字节,最后一个数据块可以小于该固定长度),并在其首部加上消息块首部(Chunk Header),就组成了相应的消息块。消息分块过程如图5所示,一个大小为307字节的消息被分割成128字节的消息块(除了最后一个)。

RTMP传输媒体数据的过程中,发送端首先把媒体数据封装成消息,而后把消息分割成消息块,最后将分割后的消息块通过TCP协议发送出去。接收端在通过TCP协议收到数据后,首先把消息块重新组合成消息,而后通过对消息进行解封装解决即可以恢复出媒体数据。

6.rtmp_block

4.RTMP中的逻辑结构

RTMP协议规定,播放一个流媒体有两个前提步骤

其中,网络连接代表服务器端应用程序和用户端之间基础的连通关系。网络流代表了发送多媒体数据的通道。服务器和用户端之间只能建立一个网络连接,但是基于该连接可以创立很多网络流。他们的关系如图所示:

5.rtmp_connect

5. 连接流程

播放一个RTMP协议的流媒体需要经过以下几个步骤:

RTMP连接都是以握手作为开始的。建立连接阶段用于建立用户端与服务器之间的“网络连接”;建立流阶段用于建立用户端与服务器之间的“网络流”;播放阶段用于传输视音频数据。

4.hand3.setup_connect2.set_up_stream1.play_stream

6. 解析并解码视频流

到这里为止,完整的推流过程已经详情完成,下面的过程即为逆向过程-拉流.

由于接收端拿到编码的视频流最终还是想将视频渲染到屏幕上, 将音频通过扬声器等输出设施播出,所以接着上面的步骤,接收端可以通过RTMP协议拿到视频流数据,而后需要利用FFmpeg parse数据,由于我们需要将数据中的音频跟视频分开,分离出音视频数据后需要分别对它们做解码操作.解码的视频即为YUV/RGB等格式,解码后的音频即为线性PCM数据.

需要注意的是,我们解码出来的数据并不能够直接使用,由于,移动端假如想要播放解码出来的数据是需要将其放入特定的数据结构中,在iOS中,视频数据需要放入CMSampleBufferRef中,而该数据结构又由CMTime,CMVideoFormatDes,CMBlockBuffer组成,所以我们需要提供它所需要的信息才能组成系统能够播放的格式.

CMSampleBufferCreate

7. 音视频同步并播放

当我们拿到解码后的音视频帧时,首先要考虑的问题就是如何同步音视频,在网络正常的情况下是不需要做音视频同步操作,由于我们parse到的音视频数据里本身带着它们在采集时的时间戳,只需我们在正当时间内拿到音视频帧,将它们分别送给屏幕与扬声器就可实现同步播放.但是考虑到网络波动,所以可能丢失少量帧或者推迟后才能获取,当这种情况出现时就会造成声音视频不同步,因而需要对音视频做同步解决.

我们可以这样了解: 有一把尺子 一只蚂蚁(视频)跟着一个标杆(音频)走, 标杆是匀速的 蚂蚁或者快或者慢,慢了你就抽它 让它跑起来,快了就拽它。这样音视频就能同步了。 这里最大的问题就是音频是匀速的,视频是非线性的。

分别取得音视频的PTS后,我们有三个选择:视频同步音频(计算音视频PTS之差,来判定视频能否有推迟)、音频同步视频(根据音视频PTS差值调整音频取的样值,即改变音频缓冲区的大小)和音频视频同步外部时钟(同前一个),由于调整音频范围过大,会造成令客户不适的尖锐声,所以通常我们选择第一种。

我们的策略是通过比较前一个 PTS 和当前的 PTS 来预测下一帧的 PTS。与此同时,我们需要同步视频到音频。我们将创立一个 audio clock 作为内部变量来跟踪音频现在播放的时间点,video thread 将用这个值来计算和判断视频是播快了还是播慢了。

现在假设我们有一个 get_audio_clock 函数来返回我们 audio clock,那当我们拿到这个值,我们怎样去解决音视频不同步的情况呢?假如只是简单的尝试跳到正确的 packet 来处理并不是一个很好的方案。我们要做的是调整下一次刷新的时机:假如视频播慢了我们就加快刷新,假如视频播快了我们就减慢刷新。既然我们调整好了刷新时间,接下来用 frame_timer 跟设施的时钟做一下比较。frame_timer 会一直累加在播放过程中我们计算的延时。换而言之,这个 frame_timer 就是播放下一帧的应该对上的时间点。我们简单的在 frame_timer 上累加新计算的 delay,而后和系统时间比较,并用得到的值来作为时间间隔去刷新。

参考文章

免责声明:本文为用户发表,不代表网站立场,仅供参考,不构成引导等用途。 系统环境 服务器应用
相关推荐
新手小白学Web前台要多久,Web前台怎样入门
Swift开发中遇到的注意点(一)
写给所有的在校大学生们
javascript中常见错误类型
初探Virtual dom & diff算法
首页
搜索
订单
购物车
我的