- 17:10Биткоин достиг исторического максимума, превысив $118 000
- 16:30Газа: ООН осуждает сотни смертей вблизи пунктов гуманитарной помощи
- 15:45Вашингтон рассматривает тарифные льготы для Юго-Восточной Азии как часть своей торговой войны
- 15:00США вводят 35%-ную пошлину на канадский импорт в связи с обострением торговой напряжённости
- 14:15Новый Марокко - Парламентский саммит ЕС запланирован в Рабате в октябре
- 13:30Лавров указывает на растущие риски, угрожающие перспективам создания палестинского государства
- 12:15ОПЕК+ планирует приостановить увеличение производства после запланированного увеличения в сентябре
- 12:02Песков защищает подавление российских СМИ, называя это частью «информационной войны»
- 11:30Взрывное потребление энергии ИИ угрожает стабильности мировых поставок
Следите за нами в Facebook
Meta запускает модель искусственного интеллекта Spirit LM для имитации человеческих голосов
Meta запустила свою новую модель с открытым исходным кодом «Spirit LM», которая решает проблемы, связанные с мультимодальными моделями искусственного интеллекта при генерации звука.
Новая модель призвана обеспечить более естественное и выразительное звучание, что является продвинутым шагом в разработке интеллектуальных роботов, способных к голосовому общению более сложными и реалистичными способами.
Модель «Spirit LM» основана на предварительно обученной языковой модели, содержащей 7 миллиардов параметров, и отличается способностью обрабатывать звук иначе, чем традиционные модели, опирающиеся на технологии автоматического распознавания речи (ASR).
Мета отмечает, что традиционный подход приводит к утрате многих естественных выражений голоса. Поэтому Spirit LM полагается на использование фонем, тонов и высоты тона для преодоления этих ограничений, что позволяет ему воспроизводить естественные звуки и изучать новые задачи, включая распознавание речи, преобразование текста в текст и классификацию голоса.
Meta раскрыла эту модель в исследовательской работе, а также упомянула детали исследования, которые привели к разработке «Spirit LM», а также образцы аудиопроизводительности модели, дающие четкое представление о ее будущих возможностях.
Модель теперь доступна как проект с открытым исходным кодом, который разработчики и исследователи могут использовать и расширять. Ожидается, что в будущем она будет использоваться в мета-приложениях, таких как WhatsApp, Instagram и Facebook, что позволит пользователям взаимодействовать с искусственным интеллектом посредством естественного голоса. . разговоры, полные выражений, похожие на расширенный голосовой режим, недавно представленный OpenAI.