Как правило, люди могут достаточно хорошо выделять голос одного собеседника в шумной толпе, то компьютеры с этой задачей справляются значительно хуже. Однако в компании Google разработали решение для устранения этой проблемы.
Группа исследователей в рамках Google разработала систему глубокого обучения, которая способна выделять конкретные голоса, фиксируя лица людей и определяя, когда они говорят. Команда обучила свою нейронную сеть распознавать отдельных говорящих людей, а затем создавала виртуальные «группы» (вместе с фоновым шумом), чтобы научить ИИ, как изолировать несколько голосов на отдельные звуковые дорожки.
В результате, система искусственного интеллекта научилась достаточно хорошо распознавать голос отдельного человека, даже когда несколько человек говорит одновременно. При этом, получается создавать отдельные звуковые дорожки с чистой речью каждого говорящего. ИИ справляется даже с теми ситуациями, когда человек частично закрывает лицо руками или микрофоном. С результатом работы системы можно ознакомиться в видео.
