Исследователи создали робота-собаку для людей с нарушениями зрения

4 мин
Исследователи создали робота-собаку для людей с нарушениями зрения

Исследователи из Университета штата Нью-Йорк в Бингемтоне создали роботизированную собаку-поводыря, которая ведёт диалоги с людьми с нарушениями зрения, используя языковые технологии искусственного интеллекта для навигации.

Разработчики разработки отмечают, что из-за острой нехватки собак-поводырей только приблизительно 2% американцев с нарушениями зрения пользуются ими. Они ссылаются на исследование, проведённое в реальных условиях, в ходе которого участники с юридически подтверждённой слепотой оценили полнофункциональную систему голосового сопровождения как наиболее удобную и простую в общении.

Робособака-поводырь способна вести простые диалоги о навигации со своим хозяином, описывать окружающую обстановку и обсуждать варианты маршрута, ведя его за собой. Моделирование показало, что платформа правильно определяла пункты назначения в 94,8% случаев и хорошо справлялась даже с сильно искажённой речью.

Команда из Бингемтона представила свою работу на 40-й ежегодной конференции AAAI по искусственному интеллекту. Большая языковая модель обрабатывает разговор, интерпретируя то, что говорит оператор, с помощью модели преобразования речи в текст, задавая уточняющие вопросы, когда запрос неясен, и выдавая ответы вслух с помощью преобразования текста в речь. Планировщик маршрута обрабатывает логистику, рассчитывая пошаговый путь, который должен пройти робот, в том числе время и двери на пути. 

Например, оператор в гарнитуре говорит: «Мне хочется пить». Вместо того чтобы выбирать случайный пункт назначения, робот определяет подходящие варианты из мест, которые ему уже известны, и запускает свой планировщик в фоновом режиме. Согласно статье, платформа затем генерирует ответ приблизительно следующего содержания: «Мы можем пойти на кухню или к фонтанчику. На кухню нужно открыть одну дверь, и это займет около трёх минут. К фонтанчику нет дверей, и это займёт около одной минуты. Куда бы вы хотели пойти?». Оператор делает выбор, и робот отправляется в путь.

Исследователи называют это «вербализацией плана», когда робот переводит свои внутренние расчёты маршрута в устную речь. Как только поводырь начинает движение, включается вторая функция: «вербализация сцены». Когда робот пересекает новые зоны, приближаясь к двери или входя в коридор, он объявляет о происходящем в режиме реального времени, помогая оператору составить мысленную карту пространства, которое он не видит. 

Для оценки системы исследователи привлекли семь человек с нарушениями зрения в возрасте от 40 до 68 лет, двое из которых имели опыт работы с настоящими собаками-поводырями. Участники перемещались по офисному помещению, пока робот направлял их. В целях безопасности опытный оператор дистанционно управлял физическими движениями робота; тот ещё не перемещался самостоятельно. Такая настройка позволила команде сосредоточиться на том, насколько хорошо работают функции общения.

Каждый участник опробовал три варианта настройки: минимальное вербальное взаимодействие во время прогулки, только описания сцен и полная платформа, объединяющая информацию о маршруте перед отправлением с описаниями сцен по пути. В этом небольшом исследовании полная система показала лучшие результаты по всем параметрам, получив 4,83 из 5 баллов за полезность и 4,50 балла за простоту общения. Участники, использовавшие полную систему, равным образом чаще всего заявляли, что предпочли бы робота настоящей собаке-поводырю, хотя оценки предпочтений во всех условиях оставались умеренными.

Полная платформа получила некоторое количество более низкую оценку по восприятию в качестве безопасной (3,83 против 4,00 в других условиях). Отзывы участников показали, что это не связано с опасностью именно робота. Прогулка рядом с роботизированным животным просто стала новым опытом для большинства. 

Помимо очных испытаний, команда провела моделирование, основанное на 77 запросах на навигацию от 16 студентов университета, от прямых («Я хочу в туалет») до расплывчатых («Я хочу сесть и отдохнуть»). Используя GPT-4 для имитации пользователя с нарушениями зрения, исследователи протестировали, что платформа могла определять, куда человек хочет попасть, только по его намёкам. Такая симуляция не идеально отражает речь реальных людей, но при наличии возможности задавать уточняющие вопросы платформа правильно определяла желаемое место назначения в 94,8 процентов случаев.

Исследователи также провели стресс-тестирование системы на невнятной речи, имитируя ошибки, возникающие в шумных условиях реального мира, с большим количеством речевых ошибок, где почти каждый третий символ мог быть искажён. Даже в таких словиях точность снизилась всего около на 5%. Более простая платформа, основанная на ключевых словах, напротив, практически не справилась с тем же уровнем шума.

Когда робот заранее предоставлял информацию о навигации, в том числе расстояния и количество дверей, пользователи неизменно выбирали более короткие и эффективные маршруты. В итоге разговоры длились немного дольше, но общее время выполнения задачи сократилось.

Между тем инженеры из Университета Ватерлоо в Онтарио представили робота, который способен искать потерянные предметы. Он способен различать предметы, а также записывать время и дату, когда объекты попадают в поле ввода зрения устройства или покидают его. По словам исследователей, подход будет полезно для страдающих деменцией и тех, кто за ними ухаживает.

Читают сейчас

Meta* переманила трех топ-менеджеров Stargate — а дата-центр в Великобритании поставлен на паузу

26 минут назад

Meta* переманила трех топ-менеджеров Stargate — а дата-центр в Великобритании поставлен на паузу

Три ключевых руководителя инфраструктурного проекта Stargate уходят из OpenAI в Meta* (компания признана экстремистской и запрещена в РФ). Bloomberg со ссылкой на источники сообщил 11 апреля, что Пите

Представлен публике инициатива cURL Doom — релиз Doom, которая воспроизводится по сети через cURL

38 минут назад

Представлен публике инициатива cURL Doom — релиз Doom, которая воспроизводится по сети через cURL

Разработчик под ником Sawyer X показал открытый инициатива cURL Doom. Это рабочая версия игры в Doom, которая воспроизводится по сети через cURL. Ознакомиться далее

Дуров: Telegram не раскрыл ни одного байта сообщений пользователей за всю свою 12-летнюю историю

1 час назад

Дуров: Telegram не раскрыл ни одного байта сообщений пользователей за всю свою 12-летнюю историю

12 апреля 2026 года Павел Дуров заявил, что заявления WhatsApp** о «сквозном шифровании по умолчанию» — это огромное мошенничество с потребителями. По его словам, это Telegram не раскрыл ни одного бай

Почтовое программа Avec даёт возможность листать письма как анкеты в Tinder

1 час назад

Почтовое программа Avec даёт возможность листать письма как анкеты в Tinder

Новое программа Avec для мобильных устройств призвано помочь разобраться с почтой, используя свайпы как в Tinder и диктовку ответов, пишет TechCrunch. Ознакомиться далее

2 часа назад

Z.Ai снова обновили цены на свои подписки Coding Plan

Z.Ai снова поменяли цены на их подписки для кодинга, это происходит не начальный раз. Посмотрим, стоит ли подписка своей цены или есть более интересные альтернативы Ознакомиться далее