Google Deepmind Cloud Text-to-Speech читає тексти майже з nat; справжній звук

Завдяки нейронним мережам тепер можна мати природні години читання. Команда Google Deepmind розробила алгоритм перетворення тексту в мову, який розробники можуть легко включити у свої проекти - включаючи 32 голоси багатьма мовами, такими як англійська, німецька та японська.

Google представив свою хмарну службу синтезу мовлення у бета-версії. Ця система призначена для перетворення письмових текстів на мову, яка звучить максимально природно. Для цього Google використовує Deepmind, відділ, який займається нейронними мережами для виконання різних завдань - крім Go games та Starcraft 2, також говорять тексти.

Розробники повинні мати можливість використовувати Cloud Text-to-Speech для власних проектів. Для цієї мети Google пропонує інтерфейс програмування (API), який може отримувати та направляти попередньо навчені моделі із хмари. Компанія використовує технологію Wavenet для генерації мови, яка звучить максимально природно. Це нейронна мережа, яка генерує звукові сигнали від різних нейронів. На даний момент це доступно лише для американських голосів.

Відео: Google TTS випробував [1:26]

Більшість голосів англійською

Послуга працює на мобільних пристроях, таких як смартфони, а також на ПК, динаміках та телевізорах. На даний момент він також пропонує на вибір 30 різних голосів. Однак значна частина цього пов’язана з британською чи американською англійською. Інший діалект США також може бути використаний із самим Wavenet. Різниця незначна. Однак у німецькій мові є лише два голоси без підтримки Wavenet: жіночий та чоловічий. Кумедний побічний ефект: читання англійських текстів німецьким голосом працює з типово німецьким звучанням. Інші мови - іспанська, португальська, французька, турецька та японська. Якість можна випробувати у веб-інструменті з тестовими текстами.

Окрім вибору голосу, можна змінювати й інші параметри. Користувачі можуть регулювати висоту та темп мови. Однак обидва елементи управління також фальсифікують голосовий звук, так що, наприклад, швидкомовний зчитувач звучить більше як комп’ютер. Вихідні тексти JSON також можуть відображатися у веб-інструменті, завдяки чому розробникам досить легко включати тексти у свої програми. Тексти можна експортувати в різні аудіофайли, такі як MP3, Linear16 та Ogg Opus. Також надається підтримка SSML. Крім того, інтонацію та паузи під час розмови можна регулювати вручну за допомогою міток.

Cloud Text-to-Speech можна протестувати безкоштовно. Однак для цього потрібен обліковий запис Google і членство в Google Cloud Platform, які також можна протестувати протягом дванадцяти місяців із кредитом 300 доларів США.