混音的原理

音频混音的原理: 空气中声波的叠加等价于量化的语音信号的叠加。

这句话可能有点拗口，我们从程序员的角度去观察就不难理解了。下图是两条音轨的数据，将每个通道的值做线性叠加后的值就是混音的结果了。比如音轨A和音轨B的叠加，A.1 表示 A 音轨的 1 通道的值 AB03 , B.1 表示 B 音轨的 1 通道的值 1122 , 结果是 bc25，然后按照低位在前的方式排列，在合成音轨中就是 25bc，这里的表示都是 16 进制的。

直接加起来就可以了？事情如果这么简单就好了。音频设备支持的采样精度肯定都是有限的，一般为 8 位或者 16 位，大一些的为 32 位。在音轨数据叠加的过程中，肯定会导致溢出的问题。为了解决这个问题，人们找了不少的办法。这里我主要介绍几种我用过的，并给出相关代码实现和最终的混音效果对比结果。

线性叠加平均

这种办法的原理非常简单粗暴，也不会引入噪音。原理就是把不同音轨的通道值叠加之后取平均值，这样就不会有溢出的问题了。但是会带来的后果就是某一路或几路音量特别小那么整个混音结果的音量会被拉低。

以下的的单路音轨的音频参数我们假定为采样频率一致，通道数一致，通道采样精度统一为 16 位。

其中参数 bMulRoadAudios 的一维表示的是音轨数，二维表示该音轨的音频数据。

Java 代码实现：

@Override
        public byte[] mixRawAudioBytes(byte[][] bMulRoadAudios) {

            if (bMulRoadAudios == null || bMulRoadAudios.length == 0)
                return null;

            byte[] realMixAudio = bMulRoadAudios[0];
            if(realMixAudio == null){
                return null;
            }

            final int row = bMulRoadAudios.length;

            //单路音轨
            if (bMulRoadAudios.length == 1)
                return realMixAudio;

            //不同轨道长度要一致，不够要补齐

            for (int rw = 0; rw < bMulRoadAudios.length; ++rw) {
                if (bMulRoadAudios[rw] == null || bMulRoadAudios[rw].length != realMixAudio.length) {
                    return null;
                }
            }

            /**
             * 精度为 16位
             */
            int col = realMixAudio.length / 2;
            short[][] sMulRoadAudios = new short[row][col];

            for (int r = 0; r < row; ++r) {
                for (int c = 0; c < col; ++c) {
                    sMulRoadAudios[r][c] = (short) ((bMulRoadAudios[r][c * 2] & 0xff) | (bMulRoadAudios[r][c * 2 + 1] & 0xff) << 8);
                }
            }

            short[] sMixAudio = new short[col];
            int mixVal;
            int sr = 0;
            for (int sc = 0; sc < col; ++sc) {
                mixVal = 0;
                sr = 0;
                for (; sr < row; ++sr) {
                    mixVal += sMulRoadAudios[sr][sc];
                }
                sMixAudio[sc] = (short) (mixVal / row);
            }

            for (sr = 0; sr < col; ++sr) {
                realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);
                realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);
            }

            return realMixAudio;
        }

自适应混音

参与混音的多路音频信号自身的特点,以它们自身的比例作为权重,从而决定它们在合成后的输出中所占的比重。具体的原理可以参考这篇论文：快速实时自适应混音方案研究。这种方法对于音轨路数比较多的情况应该会比上面的平均法要好，但是可能会引入噪音。

Java 代码实现：

@Override
 public byte[] mixRawAudioBytes(byte[][] bMulRoadAudios) {
     //简化检查代码

     /**
      * 精度为 16位
      */
     int col = realMixAudio.length / 2;
     short[][] sMulRoadAudios = new short[row][col];

     for (int r = 0; r < row; ++r) {
         for (int c = 0; c < col; ++c) {
             sMulRoadAudios[r][c] = (short) ((bMulRoadAudios[r][c * 2] & 0xff) | (bMulRoadAudios[r][c * 2 + 1] & 0xff) << 8);
         }
     }

     short[] sMixAudio = new short[col];
     int sr = 0;

     double wValue;
     double absSumVal;

     for (int sc = 0; sc < col; ++sc) {
         sr = 0;

         wValue = 0;
         absSumVal = 0;

         for (; sr < row; ++sr) {
             wValue += Math.pow(sMulRoadAudios[sr][sc], 2) * Math.signum(sMulRoadAudios[sr][sc]);
             absSumVal += Math.abs(sMulRoadAudios[sr][sc]);
         }

         sMixAudio[sc] = absSumVal == 0 ? 0 : (short) (wValue / absSumVal);
     }

     for (sr = 0; sr < col; ++sr) {
         realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);
         realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);
     }

     return realMixAudio;
 }

多通道混音

在实际开发中，我发现上面的两种方法都不能达到满意的效果。一方面是和音乐相关，对音频质量要求比较高；另外一方面是通过手机录音，效果肯定不会太好。不知道从哪里冒出来的灵感，为什么不试着把不同的音轨数据塞到不同的通道上，让声音从不同的喇叭上同时发出，这样也可以达到混音的效果啊！而且不会有音频数据损失的问题，能很完美地呈现原来的声音。

于是我开始查了一下 Android 对多通道的支持情况，对应代码可以在android.media.AudioFormat中查看,结果如下：

public static final int CHANNEL_OUT_FRONT_LEFT = 0x4;
public static final int CHANNEL_OUT_FRONT_RIGHT = 0x8;
public static final int CHANNEL_OUT_FRONT_CENTER = 0x10;
public static final int CHANNEL_OUT_LOW_FREQUENCY = 0x20;
public static final int CHANNEL_OUT_BACK_LEFT = 0x40;
public static final int CHANNEL_OUT_BACK_RIGHT = 0x80;
public static final int CHANNEL_OUT_FRONT_LEFT_OF_CENTER = 0x100;
public static final int CHANNEL_OUT_FRONT_RIGHT_OF_CENTER = 0x200;
public static final int CHANNEL_OUT_BACK_CENTER = 0x400;
public static final int CHANNEL_OUT_SIDE_LEFT =         0x800;
public static final int CHANNEL_OUT_SIDE_RIGHT =       0x1000;

一共支持 10 个通道，对于我的情况来说是完全够用了。我们的耳机一般只有左右声道，那些更多通道的支持是 Android 系统内部通过软件算法模拟实现的，至于具体如何实现的，我也没有深入了解，在这里我们知道这回事就行了。我们平时所熟知的立体声，5.1 环绕等就是上面那些通道的组合。

int CHANNEL_OUT_MONO = CHANNEL_OUT_FRONT_LEFT;

int CHANNEL_OUT_STEREO = (CHANNEL_OUT_FRONT_LEFT | CHANNEL_OUT_FRONT_RIGHT);

int CHANNEL_OUT_5POINT1 = (CHANNEL_OUT_FRONT_LEFT | CHANNEL_OUT_FRONT_RIGHT |
           CHANNEL_OUT_FRONT_CENTER | CHANNEL_OUT_LOW_FREQUENCY | CHANNEL_OUT_BACK_LEFT | CHANNEL_OUT_BACK_RIGHT);

知道原理之后，实现起来非常简单，下面是具体的代码：

@Override
public byte[] mixRawAudioBytes(byte[][] bMulRoadAudios) {

    int roadLen = bMulRoadAudios.length;

    //单路音轨
    if (roadLen == 1)
        return bMulRoadAudios[0];

    int maxRoadByteLen = 0;

    for(byte[] audioData : bMulRoadAudios){
        if(maxRoadByteLen < audioData.length){
            maxRoadByteLen = audioData.length;
        }
    }

    byte[] resultMixData = new byte[maxRoadByteLen * roadLen];

    for(int i = 0; i != maxRoadByteLen; i = i + 2){
        for(int r = 0; r != roadLen; r++){
            resultMixData[i * roadLen + 2 * r] = bMulRoadAudios[r][i];
            resultMixData[i * roadLen + 2 * r + 1] = bMulRoadAudios[r][i+1];
        }
    }
    return resultMixData;
}