Microsoft разрабатывает искусственный интеллект, способный управлять программами Windows

Thursday 02 January 2025 - 17:00

Microsoft объявила о разработке новой модели искусственного интеллекта под названием «Модель больших действий, или LAM», которая отличается способностью запускать программы Windows и выполнять задачи независимо. Эта модель представляет собой качественный скачок с точки зрения искусственного интеллекта. выполнять команды.

В отличие от традиционных языковых моделей, таких как GPT-4o, функции которых ограничиваются обработкой и генерацией текста, новая модель LAM от Microsoft обладает способностью преобразовывать запросы пользователя в реальные действия, которые включают в себя запуск программ или управление оборудованием.

Такая идея уже существовала, но LAM — первая модель, специально обученная для работы с настольными продуктами Microsoft Office и другими приложениями Windows.

Например: при совершении покупок в Интернете традиционные модели могут предоставлять текстовые инструкции о том, как совершить покупку, а модель LAM может завершить процесс покупки самостоятельно, перемещаясь по веб-интерфейсу сайта.

По мнению Microsoft, разработка этой модели требует четырех основных шагов: обучение планированию задач и разделению задачи на логические этапы, изучение продвинутых моделей (таких как GPT-4o), чтобы превратить планы в действия, и самоисследование, которое позволяет модели искать новые решения и преодоление препятствий. Другие модели не могут этого достичь, равно как и обучение на основе вознаграждения для повышения точности выполнения.

Исследователи протестировали модель LAM в тестовой среде для программы редактирования текста «Word» и успешно выполнили задачи с показателем 71%, опередив GPT-4o, который достиг показателя успеха 63% без визуальной информации. Модель LAM также была быстрее: на выполнение задачи требовалось 30 минут и всего одна секунда на выполнение задачи по сравнению с 86 секундами для GPT-4o. Однако когда GPT-4o давали визуальную информацию, ее точность улучшалась до 75,5%.

Команда Microsoft опиралась на тысячи обучающих данных, полученных из документов Microsoft, статей WikiHow и результатов поиска Bing, а затем использовала модель GPT-4o для расширения этих задач на другие, более сложные задачи.

При таком развитии модель LAM сталкивается с некоторыми проблемами, включая неправильную реализацию действий, некоторые организационные проблемы, требующие решения, а также технические ограничения, влияющие на масштабируемость и применение в различных областях.

Исследователи считают, что LAM представляет собой крупный прорыв в области искусственного интеллекта, отмечая, что он может проложить путь к развитию общего искусственного интеллекта (AGI). Вместо систем, которые просто понимают и создают текст, компании вскоре смогут предлагать цифровых помощников, которые действительно помогают эффективно выполнять повседневные задачи.