溫馨提示×

語音識別開發(fā)需要哪些數(shù)據(jù)集

小樊
82
2024-10-26 11:26:22
欄目: 編程語言

語音識別開發(fā)需要多種數(shù)據(jù)集,以下是一些常用的語音識別數(shù)據(jù)集:

  • Common Voice:包含26,119小時的錄音,涵蓋104種語言,提供年齡、性別、口音等人口統(tǒng)計元數(shù)據(jù)。
  • CMU Wilderness Multilingual Speech Dataset:包含700多種不同語言的語音數(shù)據(jù),平均每種語言提供大約20小時的句子長度轉錄。
  • GigaSpeech:一個不斷發(fā)展的多域英語語音識別語料庫,包含10000小時的高質量標記音頻和40000小時的總音頻。
  • MagicData-RAMC:包括351組多輪普通話對話,時長共計180小時,標注信息包括轉錄文本、語音活動時間戳等。
  • Free ST Chinese Mandarin Corpus:包含855個speakers的120個話語,每個話語都經過人仔細的轉錄和核對。

這些數(shù)據(jù)集為語音識別開發(fā)提供了豐富的資源,有助于提高模型的準確性和魯棒性。選擇合適的數(shù)據(jù)集對于開發(fā)高效的語音識別系統(tǒng)至關重要。

0