【24年01月】团子AI研发日志

团子AI · 2024-01-31 新功能

久等啦！🤗

本月我们已经开始了第十代算法的实验，本月有大量的小伙伴咨询我们的客服询问10.0算法的进程，尽管被关注是很开心的事情，但团子要和大家说明的是，“实验”这个东西并没有一个明确的进度，在每一个实验的结果出来之前我们也只是靠猜想和过往的经验来保证尽可能正确的达到我们的目标，所以我们没办法精确的承诺“还有多久”可以研发出下一代算法😣😣，所以还请小伙伴们耐心等待，当然，即便如此团子目前的9.0算法仍然是我们最领先、最好用的一代算法，感谢各位小伙伴的支持！

回到正题，本月我们的初步实验结果已经完成，我们已经完成了“识别模块”的训练，效果非常满意，在9.0中，它的识别能力（SDR，源失真比，您可以理解为“分数”越高，生成的伴奏越接近于原曲）为17.301dB，而本代，我们改善了识别能力的算法、增加了额外30%的训练数据以及优化了训练的过程，在多管齐下的情况下，我们得到了18.004dB的恐怖分数，相对的提升了0.7dB的SDR分数，这甚至远高于8.0到9.0的提升（8.0到9.0相对提升了0.43dB的分数）。

而在我们进行困难提取样本的实际测试中，它的性能改善尤为明显，对于中国风格的歌曲，它对二胡这样的弦乐器识别能力更强，能非常好的区分二胡和人声，而在复杂人声和和声组成的歌曲中，前代算法尽管听不到明显的人声，但会偶尔残留一些“很闷”低频的和声声音。而本代算法可以正确的消除这些和声，这说明第十代的识别模块已经能够正确学习音乐中人声和和声的常见匹配范式，并成组的消除、提取他们，因此可以生成更正确的伴奏低频。

我们对AI的识别能力已经训练完毕，它可以正确的区分“什么是人声”、“什么不是人声”，相对于上一代算法，本代对各种乐器的分辨能力更加强悍，对复杂的人声也可以清晰提取；而接下来，我们将开始训练精细化的“提取效果”模块，在9.0中，我们自研的WMIR架构已经得到非常多用户的好评，相对于市面上其他的提取算法来说，集成了WMIR模块的团子架构普遍听起来“更舒服”，没有其他算法那种听起来就很“AI”的感觉，在本代，我们将继续改进WMIR架构，本代我们的重心将放到“抗干扰”上，主要是让AI提升对低清声音的提取能力，比如复杂厚重的vocoder，或MP3压缩等干扰，这会提高团子对用户上传的低音质音乐的提取能力，我们已经实验了部分抗干扰的效果，提升非常明显，在压缩非常严重的音乐中（MP3 VBR9.99级压缩），没有加入抗干扰模块我们只能得到16.85dB的分数，而加入了抗干扰模块后，我们得到了17.77dB的分数，这说明团子允许从极端损坏的频谱中仍然找到提取的目标，并减少音质损坏导致的“异响”和“伪影”的出现。

返回到团子博客