【23年12月】团子AI研发日志
团子AI · 2024-01-01 预告
【23年12月】团子AI研发日志

本月开始我们进入了“长草期”,本月(并且预计接下来的几个月)团子网站将以稳定维护状态运行,但这并不代表团子在“摸鱼”👻👻,我们下一代算法的架构层面已经在几个月前任意乐器分离3.0训练时已经确定,目前团子的算力将用来实验下一代(也就是10.0系列)的算法。

在DangoNet3架构中,我们将复杂的“提取”任务拆解成几个细分的子任务并独立交给不同的AI模块去处理,而它的确得到了不错的性能的提升。我们认为AI用来提取声音,需要在两个方向做的好——“识别能力”和“提取能力”,其中,识别能力代表了AI是否会正确的识别人声,会不会把某些乐器错误当成人声,会不会把某些复杂的人声错误的保留而不是剔除;而提取能力则是AI是否能正确、无残留的从歌曲中删除人声。

而目前我们正在改善10.0的“识别能力”,我们在10.0中拟增加30%的新训练数据(虽然“30%”听起来很少,但我们的基础训练数据已经是十分庞大了),而除了数据,算法也很重要,我们在几个月前已经拟定了10.0的“识别能力”的算法,只是因为没有算力去验证(算力正在训练任意乐器分离的模型),目前我们将开始训练识别能力模块。

而“提取能力”模块,我们需要等“识别模块”训练完毕后再开始研发,前面说到,提取模块的主要目的是如何无残留的提取内容物,在10代中我们也有了一定的目标性,在9代中我们收到一些反馈,在10代中我们会尝试针对性的改进,例如团子对“有损歌曲”的识别能力支持并不好,尽管团子经常强调希望用户能上传无损歌曲来达到最佳的提取效果,但部分歌曲在互联网中非常难找到无损版本,团子预计将针对性的提升对MP3的提取效果同时不降低整体的模型性能;另一个问题是部分人声在母带mix过程中,人声本身电平就已经超过了0dB,这会导致人声产生“爆音”,并顺带着这些爆音混合到母带中,类似短暂尖锐的咔哒咔哒声音,但可能乐器的声音较大会掩盖这些爆音,而团子只会删除人声,这些“爆音”仍然保留在伴奏轨,导致部分伴奏轨能清晰的听到一些“爆音”,并反馈认为这是团子提取问题,尽管这是因为作曲人混音时已经夹杂了人声的爆音,但团子并不希望给用户增加额外负担,在10.0系列中我们同样会尝试改善爆音带来的Click声音问题。