怎么在Android中實(shí)現(xiàn)音頻合成功能

發(fā)布時(shí)間：2021-05-22 16:52:09 來源：億速云閱讀：121 作者：Leah 欄目：移動(dòng)開發(fā)

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)碛嘘P(guān)怎么在Android中實(shí)現(xiàn)音頻合成功能，文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

情景一

假設(shè)A音頻40秒，B音頻20秒，B音頻數(shù)據(jù)拼接到A音頻后面，得到60秒的C音頻文件。

這種情況最簡(jiǎn)單了，新建音頻文件C，將A音頻的PCM數(shù)據(jù)復(fù)制到C音頻文件上，再將B音頻的PCM數(shù)據(jù)復(fù)制到C音頻文件上，然后為C音頻寫上wav文件頭信息，得到可播放的WAV文件。

情景二

假設(shè)A音頻40秒，B音頻20秒，B音頻數(shù)據(jù)插入到A音頻10秒的地方，得到60秒的C音頻文件。

這種情況稍微復(fù)雜點(diǎn)，新建音頻文件C，將A音頻前10秒的PCM數(shù)據(jù)復(fù)制到C音頻文件上，再將B音頻的PCM數(shù)據(jù)復(fù)制到C音頻文件上，再將A音頻后30秒的PCM數(shù)據(jù)復(fù)制到C音頻文件上，最后為C音頻寫上wav文件頭信息，得到可播放的WAV文件。

情景三

假設(shè)A音頻40秒，B音頻20秒，B音頻5至15秒的數(shù)據(jù)插入到A音頻10秒的地方，得到50秒的C音頻文件。

這種情況更復(fù)雜，也是最常見的插入場(chǎng)景，裁剪B音頻并插入到A音頻的某個(gè)位置，這里涉及到B音頻數(shù)據(jù)的裁剪，當(dāng)然原理其實(shí)也是簡(jiǎn)單的，計(jì)算出B音頻5秒和10秒對(duì)應(yīng)的文件數(shù)據(jù)位置，然后復(fù)制這個(gè)區(qū)間的數(shù)據(jù)到C上，針對(duì)A文件的數(shù)據(jù)，也是同樣道理。

情景四

A音頻和B音頻中多段數(shù)據(jù)相互拼接

這種情況，原理同上面一樣，只要知道指定時(shí)間對(duì)應(yīng)的數(shù)據(jù)是什么，就可以實(shí)現(xiàn)自由拼接了。

音頻拼接的實(shí)現(xiàn)參考我的Github項(xiàng)目 AudioEdit，這里我就不貼具體代碼了。

音頻混合

音頻混合是指一段音頻和另一段音頻合在一起，能夠同時(shí)播放，比如最常見的人聲錄音和背景音樂的合成，可以得到一首人聲歌曲。
音頻混合的原理是

音頻混合原理: 量化的語音信號(hào)的疊加等價(jià)于空氣中聲波的疊加。

也就是說將輸入的每段音頻的某個(gè)時(shí)間點(diǎn)的采樣點(diǎn)數(shù)值進(jìn)行相加，即可將聲音信號(hào)加入到輸出的音頻中。

音頻采樣點(diǎn)數(shù)值的大小是（-32768，32767），對(duì)應(yīng)short的最小值和最大值，音頻采樣點(diǎn)數(shù)據(jù)就是由一個(gè)個(gè)數(shù)值組成的的。如果單純疊加，可能會(huì)造成相加后的值會(huì)大于32767，超出short的表示范圍，也就是溢出，所以在音頻混合上回采用一些算法進(jìn)行處理。下面列舉下簡(jiǎn)單的混合方式。

直接疊加法

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）疊加后求平均值，得到C（（A1+B1）,（A2+B2）,（A3+B3）,（A4+B4））
這種情況，輸出的音頻中A和B音頻數(shù)據(jù)都可以以相同聲音大小播放，但是可能出現(xiàn)溢出的情況。假設(shè)A音頻指定時(shí)間點(diǎn)的某段采樣數(shù)據(jù)是（23,67,511,139,307），B音頻對(duì)應(yīng)該時(shí)間點(diǎn)的采樣數(shù)據(jù)是（1101,300,47,600,22），那么兩者直接疊加的話，得到的采樣數(shù)據(jù)是（1124,367,558,739,329），這個(gè)短采樣數(shù)據(jù)就是兩者聲音混合的數(shù)據(jù)了。

疊加后求平均值

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）疊加后求平均值，得到C（（A1+B1）/2,（A2+B2）/2,（A3+B3）/2,（A4+B4）/2）
這樣可以避免出現(xiàn)溢出的情況，但是會(huì)出現(xiàn)兩者聲音會(huì)比之前單獨(dú)的聲音小了一半，比如人聲和背景音樂混合，導(dǎo)致輸出的音頻中，人聲小了一半，背景音樂也小了一半，這種情況可能就不是想要的效果，特別是多段音頻混合的情況。

權(quán)值疊加法

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）權(quán)值疊加，A權(quán)值為x，B權(quán)值為y，得到C（（A1 * x+B1 * y）,（A2 * x+B2 * y）,（A3 * x+B3 * y）,（A4 * x+B4 * y））
這樣可以更方便條件A和B的音量的大小，比如A的權(quán)值為1.2，B的權(quán)值為0.8，那么A的聲音相對(duì)提高了，B的聲音相對(duì)減弱了。嚴(yán)格來說，直接疊加法和疊加求平均值法都屬于該類型。

此外還有各種更復(fù)雜的混合算法，如動(dòng)態(tài)權(quán)值法，A和B的權(quán)值會(huì)根據(jù)當(dāng)前時(shí)刻采樣點(diǎn)數(shù)值的大小進(jìn)行動(dòng)態(tài)變化，得到一個(gè)動(dòng)態(tài)增益和衰減的混合方式。

下面是直接疊加法的實(shí)現(xiàn)，需要注意short值要按大端存儲(chǔ)的方式計(jì)算，存儲(chǔ)時(shí)按大端方式存儲(chǔ)。

 /**
 * 疊加合成器
 * @author Darcy
 */
 private static class AddAudioMixer extends MultiAudioMixer{

 @Override
 public byte[] mixRawAudioBytes(byte[][] bMulRoadAudioes) {

  if (bMulRoadAudioes == null || bMulRoadAudioes.length == 0)
  return null;

  byte[] realMixAudio = bMulRoadAudioes[0];

  if(bMulRoadAudioes.length == 1)
  return realMixAudio;

  for(int rw = 0 ; rw < bMulRoadAudioes.length ; ++rw){
  if(bMulRoadAudioes[rw].length != realMixAudio.length){
   Log.e("app", "column of the road of audio + " + rw +" is diffrent.");
   return null;
  }
  }

  //row 代表參與合成的音頻數(shù)量
  //column 代表一段音頻的采樣點(diǎn)數(shù)，這里所有參與合成的音頻的采樣點(diǎn)數(shù)都是相同的
  int row = bMulRoadAudioes.length;
  int coloum = realMixAudio.length / 2;
  short[][] sMulRoadAudioes = new short[row][coloum];

  //PCM音頻16位的存儲(chǔ)是大端存儲(chǔ)方式，即低位在前，高位在后，例如(X1Y1, X2Y2, X3Y3)數(shù)據(jù)，它代表的采樣點(diǎn)數(shù)值就是(（Y1 * 256 + X1）, （Y2 * 256 + X2）, （Y3 * 256 + X3）)
  for (int r = 0; r < row; ++r) {
  for (int c = 0; c < coloum; ++c) {
   sMulRoadAudioes[r][c] = (short) ((bMulRoadAudioes[r][c * 2] & 0xff) | (bMulRoadAudioes[r][c * 2 + 1] & 0xff) << 8);
  }
  }

  short[] sMixAudio = new short[coloum];
  int mixVal;
  int sr = 0;
  for (int sc = 0; sc < coloum; ++sc) {
  mixVal = 0;
  sr = 0;
  //這里采取累加法
  for (; sr < row; ++sr) {
   mixVal += sMulRoadAudioes[sr][sc];
  }
  //最終值不能大于short最大值，因此可能出現(xiàn)溢出
  sMixAudio[sc] = (short) (mixVal);
  }

  //short值轉(zhuǎn)為大端存儲(chǔ)的雙字節(jié)序列
  for (sr = 0; sr < coloum; ++sr) {
  realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);
  realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);
  }

  return realMixAudio;
 }

 }

注意事項(xiàng)

音頻的拼接和混音，有一些是需要注意和處理的。

1. 需要確保A音頻和B音頻的采樣位數(shù)一致。例如A音頻是16位采樣位數(shù)，B音頻是8位采樣位數(shù)，那么這時(shí)是不能直接拼接的，需要轉(zhuǎn)換成相同的采樣位數(shù)，才能做后續(xù)操作。

2. 需要確保A音頻和B音頻的采樣率一致。這個(gè)在錄音和歌曲拼接時(shí)要特別注意，假如錄音的音頻頻率是16000，歌曲的音頻是44100，那么兩者也是不能直接拼接的，需要轉(zhuǎn)換成相同的采樣率，轉(zhuǎn)換采樣率可以使用resample庫。

3. 需要確保A音頻和B音頻的聲道數(shù)一致。當(dāng)然這個(gè)并不是指單聲道和雙聲道的音頻不能合成了，事實(shí)上錄音音頻通常是單聲道的，而歌曲通常是雙聲道的。單聲道和雙聲道音頻合成，一般是按雙聲道為基準(zhǔn)，需要將單聲道音頻轉(zhuǎn)換成雙聲道音頻，轉(zhuǎn)換原理也簡(jiǎn)單，將單聲道的采樣點(diǎn)數(shù)據(jù)多復(fù)制一份，比如將單聲道的ABCD數(shù)據(jù)轉(zhuǎn)換成雙聲道的AABBCCDD數(shù)據(jù)。

那么我們可能會(huì)有疑問，如果A音頻和B音頻的采樣率位數(shù)，采樣率，聲道數(shù)不一樣的話，合成后是有效的音頻文件嗎？這個(gè)其實(shí)是有效的，同樣可以播放，但是會(huì)造成合成后的音頻不同部分的音頻播放速度不一樣，例如單聲道的A和雙聲道的B拼接，會(huì)造成A部分的播放速度比B的播放速度快一倍，而B的播放速度是正常的。

Android是什么

Android是一種基于Linux內(nèi)核的自由及開放源代碼的操作系統(tǒng)，主要使用于移動(dòng)設(shè)備，如智能手機(jī)和平板電腦，由美國Google公司和開放手機(jī)聯(lián)盟領(lǐng)導(dǎo)及開發(fā)。

上述就是小編為大家分享的怎么在Android中實(shí)現(xiàn)音頻合成功能了，如果剛好有類似的疑惑，不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

怎么在Android中實(shí)現(xiàn)音頻合成功能

Android是什么

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽