【24年03月】团子AI研发日志
团子AI · 2024-03-31 预告
【24年03月】团子AI研发日志

慵懒的3月份即将结束啦,本月团子发布了有史以来最重磅的10代伴奏人声提取系列算法——没有“虚头巴脑”,在实打实的提升之后,一经发布我们获得了大量小伙伴们的好评。

不过因为10代系列算法的AI“脑容量”相比9代要提升将近一倍,我们训练AI所需的时间、以及处理小伙伴们歌曲所需要的算力也随之提升一倍,这使得我们需要将10代算法拆开进行发布,在本月11日,我们发布了小伙伴们用的最多的“伴奏人声提取”功能,而其他的两项功能——“更好人声提取”和“和声保留”则需要在之后依次发布。

在本月中旬开始,我们启动了10代更好人声提取的训练,我们提供此算法来为那些需要“更好的人声”而不是“更好的伴奏”的小伙伴们使用,目前此算法的训练即将结束,我们正在进行最后的微调和测试,预计在4月初发布。

得益于我们数据的增多和架构的大幅改进,全新的更好人声提取算法获得了11.65dB的SDR分数,而上一代我们则是获得了11.25dB的成绩,相较上一代我们提升了0.4dB的SDR成绩,而除了冰冷的数字以外,我们在内部的测试中也能明显感觉到提升,新的算法提取人声更加准确,相较上代能更加的准确提取出音量小的人声、更多的和声提取能力以及更少的乐器泄露,有关更多的提升介绍还请等待我们发布后查看😇

接下来,我们将进行“和声保留”的训练,这也是我们最后的“重磅项目”,我们全新的架构对于和声的理解更上了一个层次,这在前两个算法中已经得到充分验证,我们有理由认为本次的和声保留算法也能带来“巨量”提升,团子和您都很期待它的表现,敬请期待😇😇


说明:有关SDR值

最近有部分小伙伴比较好奇团子的SDR为何“如此之高”,如伴奏人声提取10.0中获得了18.0dB的SDR值,而在一些记录的开源算法排行榜中,它们的SDR最高也才获得17.5dB左右的值,需要注意的是,团子在发布时介绍的“SDR”成绩均来自于团子内部的私有测试集,并非公开排行榜的测试集测试得到的,因此测试的内容不同,获得的SDR值一定会有一系列偏差存在,团子测试得出的SDR值无法与其他SDR值进行公平对比。

以伴奏人声提取算法为例,我们的算法并不是单纯的“完全消除人声”,而是会保留一部分极度不需要翻唱的人声,如某些非常合成器、电音化的Choir声(合唱)或一些短暂的Adlib声音(如歌声中突然出现的短暂尖叫“哦~”这样的声音👻),它的行为类似于团子曾经发布的“翻唱元素保留”算法,但更加保守且稳定,无论如何,团子并不是“完完整整”的删除人声,这会导致某些“完全删除人声”的测试集(如MusDB18、Mvsep)在团子上进行测试时性能可能会得不到期望值,因为这些“完全删除人声”的测试集的Domain和团子不符,即测试集认为“这里应该删除”而团子并不这么认为,从而使测试出的SDR分数会有偏差——因此,我们创建了符合我们数据Domain的私有测试集来进行内部的评估,这对于我们“自己和自己比较”会有更清晰的量化认知,所以团子每次发布时提出的“SDR”值提升仅适合在团子的以往版本中进行公平参考,请勿将此值与任何公开的测试集结果进行比较。