Как через Python генерировать голос из текста

Время создания: 05.03.2024 09:25

Текстовые метки: python, голос, слова, речь, генерировать, генерация, текст, русский, язык, VitsModel, AutoTokenizer, transformers, torch, scipy, пример

Раздел: Компьютер - Программирование - Язык Python - Нейросети, машинное обучение

Запись: xintrea/mytetra_syncro/master/base/17096199196k02d1173w/text.html на raw.githubusercontent.com

Вот минимальный пример, как с помощью инструментов Transformers/Torch/Scipy сделать на Python генерацию текста в речь. Поддерживается русский язык.

from transformers import VitsModel, AutoTokenizer

import torch

import scipy

model = VitsModel.from_pretrained("facebook/mms-tts-rus")

tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-rus")

text = "Здравствуйте, вас беспокоят из службы безопасности Сбербанка."

inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():

output = model(**inputs).waveform

scipy.io.wavfile.write("call.wav", rate=model.config.sampling_rate, data=output)

Данный пример сгенерирует звуковой wav-файл, в котором будет находиться озвучка заданного текста.

Так же в этом разделе:

Hello, world для TensorFlow. Библиотека машинного обучения от Google
Как через Python генерировать голос из текста
Анимация лица по аудио с помощью нейросети методом EchoMimic

MyTetra Share v.0.67