ASIMO научился понимать три голоса одновременно

Окуно и Накадаи продемонстрировали новинку на Международной конференции робототехники и автоматики (ICRA 2008)

🕛 16.06.2008, 09:16

Человекоподобный робот ASIMO продолжает своё победное шествие по планете, "подрастая" с каждым днём. Теперь к многочисленным функциям андроида добавилась ещё одна.

Отныне ASIMO способен улавливать и воспринимать речь сразу трёх человек. Конечно, полное распознавание любых фраз ему пока не по силам, но первый шаг в данном направлении, несомненно, сделан.

Японцы Хироси Окуно (Hiroshi Okuno) из университета Киото (Kyoto University) и Кадзухиро Накадаи (Kazuhiro Nakadai) из исследовательского института Хонды (Honda Research Institute) создали программное обеспечение, которое назвали HARK (аббревиатура расшифровывается как HRI-JP Audition for Robots with Kyoto University, что не делает её понятнее).

Теперь ASIMO может по-своему сыграть в детскую игру "Камень, ножницы, бумага", прослушивая одновременно три человеческих голоса. Сравнив сказанные слова, он решает, кто из говорящих выиграл.

Система HARK (читайте о ней подробнее, PDF-документ, 580 килобайт) использует массив из восьми микрофонов, расположенных на голове и теле андроида.

Она обнаруживает, откуда пришёл звук, и отделяет каждый голос от внешнего шума. При этом ей не задаётся количество источников звука и их местоположение.

Прежде чем пересылать поток данных к системе распознавания речи, специальное ПО определяет степень достоверности полученной информации. К примеру, все части звуковых файлов, которые содержат слишком много фонового шума, будут вырезаны, соответственно - точность снизится.

На данный момент HARK, будучи установленной на туловище ASIMO, способна надёжно (70-80% точности) распознавать три речевых потока. Смогут ли робототехники усовершенствовать технологию в будущем - посмотрим.

Тем не менее уже сейчас новая разработка опережает человека. Наш мозг способен вычленять из внешнего звукового потока какой-то один голос (это явление ещё называется феноменом или эффектом вечеринки), ASIMO же благодаря учёным "приобрёл" эффект принца Сётоку (Shotoku). Согласно японской легенде, этот принц мог выслушивать обращение десяти просителей одновременно (то есть фокусировался сразу на нескольких голосах).

И хотя пока достоверно определяются лишь три голоса, а не десяток (точность распознавания снижается до недопустимых 30-40%), да и "словарный запас" HARK не слишком велик, всё же достижение значительное. Ведь систему удалось интегрировать с машиной и даже показать её работу в реальном времени.

Читайте также о том, как ASIMO сделали более аккуратным, научили синхронизировать свои движения с человеком, а позже ещё увеличили ему уровень интеллекта и автономности.