Hướng dẫn AI

OmniVoice là gì? Phân tích repo k2-fsa/OmniVoice và hướng dẫn sử dụng

Tìm hiểu OmniVoice, mô hình text-to-speech zero-shot đa ngôn ngữ hỗ trợ voice cloning, voice design, Python API, CLI, batch inference, triển khai và lưu ý an toàn khi nhân bản giọng nói.

Xuất bản: 4 thg 6, 2026Cập nhật: 4 thg 6, 2026Thời gian đọc: 13 minLượt xem: 2
OmniVoiceText-to-SpeechVoice CloningVoice Designk2-fsaAI Speech

💡Điểm chính của bài viết

  • Tìm hiểu OmniVoice, mô hình text-to-speech zero-shot đa ngôn ngữ hỗ trợ voice cloning, voice design, Python API, CLI, batch inference, triển khai và lưu ý an toàn khi nhân bản giọng nói.

OmniVoice là gì? Phân tích repo k2-fsa/OmniVoice và hướng dẫn sử dụng dễ hiểu

OmniVoice logo từ trang dự án chính thức
OmniVoice logo từ trang dự án chính thức

Ảnh trích xuất từ README/trang dự án OmniVoice, file JPG chính thức của dự án. Ảnh không phải SVG.1

Tóm tắt nhanh

OmniVoice là mô hình text-to-speech mã nguồn mở hướng tới khả năng đọc văn bản thành giọng nói ở quy mô rất lớn. Repo chính thức mô tả OmniVoice là mô hình TTS zero-shot đa ngôn ngữ quy mô lớn, hỗ trợ hơn 600 ngôn ngữ, có khả năng voice cloningvoice design, đồng thời dùng kiến trúc diffusion language model-style để tạo giọng nói chất lượng cao với tốc độ suy luận nhanh.2

Nói dễ hiểu: bạn nhập văn bản, OmniVoice tạo file âm thanh. Nếu bạn đưa thêm một đoạn audio mẫu ngắn, mô hình có thể bắt chước màu giọng đó để đọc câu mới. Nếu không có audio mẫu, bạn có thể mô tả giọng muốn tạo như “female, low pitch, british accent” hoặc để model tự chọn giọng.

Điểm cần nhấn mạnh: OmniVoice là công cụ mạnh cho TTS và voice cloning, nên phải dùng có trách nhiệm. README cấm dùng model để nhân bản giọng trái phép, giả mạo danh tính, lừa đảo hoặc các hoạt động phi pháp/phi đạo đức.3

OmniVoice dùng để làm gì?

OmniVoice phù hợp với các bài toán tạo giọng nói đa ngôn ngữ:

  • tạo voice-over cho video;
  • tạo audiobook hoặc nội dung đọc tự động;
  • tạo giọng nói cho trợ lý AI;
  • thử nghiệm TTS trong nhiều ngôn ngữ;
  • clone giọng hợp pháp từ audio đã có quyền sử dụng;
  • tạo giọng theo thuộc tính như giới tính, tuổi, cao/thấp giọng, accent hoặc dialect;
  • batch sinh audio số lượng lớn;
  • nghiên cứu TTS đa ngôn ngữ và non-autoregressive diffusion models.

Một workflow đơn giản:

Văn bản
  + tùy chọn: audio mẫu / mô tả giọng
        ↓
OmniVoice
        ↓
Audio 24 kHz dạng waveform
        ↓
WAV / voice-over / app / pipeline media

Repo k2-fsa/OmniVoice có gì đáng chú ý?

Trang GitHub của k2-fsa/OmniVoice mô tả repo là “High-Quality Voice Cloning TTS for 600+ Languages”, có license Apache-2.0 và package Python tên omnivoice.45

README nêu các điểm chính:

  • Hỗ trợ hơn 600 ngôn ngữ.
  • Voice cloning từ audio tham chiếu ngắn.
  • Voice design bằng mô tả thuộc tính speaker.
  • Non-verbal symbols như [laughter], [sigh].
  • Pronunciation control bằng pinyin cho tiếng Trung hoặc CMU pronunciation dictionary cho tiếng Anh.
  • Tốc độ inference có RTF thấp tới 0.025, tương đương 40x nhanh hơn realtime trong điều kiện benchmark của tác giả.
  • Có Python API, Gradio web demo, single-item CLI và batch inference CLI.2

Hugging Face model card ghi model thuộc task Text-to-Speech, có 646 languages, license Apache-2.0, model size 0.6B params và base model tree liên quan Qwen3-0.6B-Base.6

OmniVoice không phải là gì?

OmniVoice làOmniVoice không phải là
Mô hình TTS đa ngôn ngữCông cụ nhận dạng giọng nói ASR
Công cụ tạo âm thanh từ văn bảnTrình chỉnh sửa audio chuyên nghiệp
Có voice cloning và voice designCông cụ hợp pháp hóa mọi việc clone giọng
Có CLI, Python API, Gradio demoMột dịch vụ cloud bắt buộc
Có thể chạy local nếu đủ phần cứngLuôn nhẹ cho mọi máy yếu
Phù hợp nghiên cứu và ứng dụng TTSCông cụ thay thế human consent

Nếu bạn cần chuyển audio thành chữ, đó là ASR, không phải OmniVoice. Nếu bạn cần đọc chữ thành audio, OmniVoice là đúng nhóm công cụ.

Điểm khác biệt của OmniVoice

Theo paper, OmniVoice dùng kiến trúc discrete non-autoregressive diffusion language model-style. Khác với nhiều hệ TTS chia thành hai bước “text → semantic tokens → acoustic tokens”, OmniVoice trực tiếp ánh xạ text sang multi-codebook acoustic tokens.7

Hai ý tưởng kỹ thuật được paper nhấn mạnh:

  1. Full-codebook random masking để huấn luyện hiệu quả.
  2. Khởi tạo từ pre-trained LLM để tăng intelligibility.

Paper cũng nói OmniVoice dùng 581k giờ dữ liệu đa ngôn ngữ được curate hoàn toàn từ nguồn open-source, đạt độ phủ ngôn ngữ rất rộng và kết quả tốt trên benchmark tiếng Trung, tiếng Anh và đa ngôn ngữ.7

Cách hiểu đơn giản:

Text input
  ↓
Diffusion language model-style TTS
  ↓
Acoustic tokens
  ↓
Audio waveform

Các chế độ tạo giọng

README nói OmniVoice có ba chế độ generation chính.8

1. Voice Cloning

Bạn đưa audio mẫu ngắn và transcription của audio đó. Model tạo câu mới bằng giọng tương tự.

Ví dụ:

from omnivoice import OmniVoice
import soundfile as sf
import torch

model = OmniVoice.from_pretrained(
    "k2-fsa/OmniVoice",
    device_map="cuda:0",
    dtype=torch.float16,
)

audio = model.generate(
    text="Hello, this is a test of zero-shot voice cloning.",
    ref_audio="ref.wav",
    ref_text="Transcription of the reference audio.",
)

sf.write("out.wav", audio[0], 24000)

Nếu không truyền ref_text, README nói model sẽ dùng Whisper ASR để tự transcribe audio mẫu.8

2. Voice Design

Bạn không cần audio mẫu. Bạn mô tả giọng bằng instruct.

audio = model.generate(
    text="Hello, this is a test of zero-shot voice design.",
    instruct="female, low pitch, british accent",
)

Voice design hỗ trợ thuộc tính như gender, age, pitch, whisper style, English accent và Chinese dialect.9

3. Auto Voice

Bạn chỉ đưa text, model tự chọn giọng.

audio = model.generate(text="This is a sentence without any voice prompt.")

Dùng Auto Voice khi bạn chỉ cần audio nhanh, không cần giữ một giọng cụ thể.

Voice cloning: cách dùng đúng

README khuyến nghị reference audio dài khoảng 3–10 giây. Audio dài hơn có thể làm suy luận chậm và giảm chất lượng cloning.8

Checklist audio mẫu:

  • Chỉ dùng giọng bạn có quyền sử dụng.
  • Dài 3–10 giây.
  • Ít nhiễu, ít nhạc nền.
  • Nói rõ, không bị cắt đầu/cuối.
  • Nếu muốn pronunciation chuẩn, dùng audio mẫu cùng ngôn ngữ với câu cần đọc.
  • Nếu cross-lingual cloning, giọng tạo ra có thể mang accent của ngôn ngữ audio mẫu.8

Ví dụ tiếng Việt giả định:

audio = model.generate(
    text="Xin chào, đây là bản thử nghiệm chuyển văn bản thành giọng nói.",
    ref_audio="voice_sample.wav",
    ref_text="Xin chào, đây là đoạn âm thanh mẫu.",
)

Voice design: mô tả giọng không cần audio mẫu

Tài liệu voice design nói instruct là chuỗi thuộc tính speaker, phân tách bằng dấu phẩy. Mỗi attribute thuộc một category như gender, age, pitch, style, accent hoặc dialect.9

Ví dụ:

audio = model.generate(
    text="This is a voice designed without a reference audio.",
    instruct="female, young adult, high pitch, british accent",
)

Một số attribute được hỗ trợ:

NhómVí dụ
Gendermale, female
Agechild, teenager, young adult, middle-aged, elderly
Pitchvery low pitch, low pitch, moderate pitch, high pitch, very high pitch
Stylewhisper
English accentamerican accent, british accent, indian accent, chinese accent, japanese accent
Chinese dialect四川话, 陕西话, 东北话, 青岛话, 河南话

Tài liệu cũng lưu ý voice design được huấn luyện chủ yếu trên tiếng Trung và tiếng Anh; có thể generalize sang ngôn ngữ khác nhưng một số ngôn ngữ low-resource hoặc edge case có thể không ổn định.89

Cài đặt OmniVoice

Yêu cầu Python

pyproject.toml ghi package omnivoice yêu cầu Python >= 3.10 và phụ thuộc vào torch, torchaudio, transformers, accelerate, pydub, gradio, tensorboardX, webdataset, numpy, soundfile và librosa.5

Tạo môi trường mới

python -m venv .venv
source .venv/bin/activate

Windows PowerShell:

python -m venv .venv
.\.venv\Scripts\Activate.ps1

Cài PyTorch cho NVIDIA GPU

README đưa ví dụ CUDA 12.8:

pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128

Bạn nên chọn bản PyTorch đúng với CUDA/driver của máy.10

Cài trên Apple Silicon

pip install torch==2.8.0 torchaudio==2.8.0

Sau đó dùng:

device_map="mps"

trong OmniVoice.from_pretrained(...).8

Cài trên Intel Arc GPU

README nói Intel Arc GPU được hỗ trợ qua PyTorch XPU backend. Cài PyTorch từ Intel wheel index:10

pip install torch torchaudio --index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/us/

Kiểm tra:

python -c "import torch; print(torch.xpu.is_available(), torch.xpu.device_count())"

Dùng:

device_map="xpu"

Cài OmniVoice

Từ PyPI:

pip install omnivoice

Từ GitHub:

pip install git+https://github.com/k2-fsa/OmniVoice.git

Dành cho development:

git clone https://github.com/k2-fsa/OmniVoice.git
cd OmniVoice
pip install -e .

Cài bằng uv

git clone https://github.com/k2-fsa/OmniVoice.git
cd OmniVoice
uv sync

Nếu khó tải từ Hugging Face, README gợi ý đặt mirror endpoint:11

export HF_ENDPOINT="https://hf-mirror.com"

Quickstart: chạy web UI

Cách nhanh nhất cho người mới là chạy Gradio demo:

omnivoice-demo --ip 0.0.0.0 --port 8001

Sau đó mở trình duyệt vào:

http://localhost:8001

Web UI phù hợp để thử:

  • voice cloning;
  • voice design;
  • auto voice;
  • thay đổi tham số generation;
  • nghe output nhanh.

README cũng cung cấp Hugging Face Space và Google Colab để thử mà không cần setup local ngay.11

CLI: sinh một file audio

Voice cloning

omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "This is a test for text to speech." \
  --ref_audio ref.wav \
  --ref_text "Transcription of the reference audio." \
  --output hello.wav

ref_text có thể bỏ qua; model sẽ dùng Whisper để tự transcribe reference audio.12

Voice design

omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "This is a test for text to speech." \
  --instruct "male, British accent" \
  --output hello.wav

Auto voice

omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "This is a test for text to speech." \
  --output hello.wav

CLI: batch inference nhiều file

omnivoice-infer-batch dùng JSONL input và có thể phân phối inference trên nhiều GPU.12

Chạy:

omnivoice-infer-batch \
  --model k2-fsa/OmniVoice \
  --test_list test.jsonl \
  --res_dir results/

Ví dụ test.jsonl:

{"id": "sample_001", "text": "Hello world", "ref_audio": "/path/to/ref.wav", "ref_text": "Reference transcript", "instruct": "female, british accent", "language_id": "en", "duration": 10.0, "speed": 1.0}

README nói chỉ idtext là bắt buộc. ref_audioref_text dùng cho voice cloning; instruct dùng cho voice design; language_id, duration, speed là tùy chọn.12

Điều khiển tốc độ và thời lượng

Tài liệu generation parameters cho biết model.generate() nhận các tham số như num_step, speed, duration, guidance_scale, position_temperature, class_temperature và chunking cho long-form generation.13

Ví dụ:

audio = model.generate(
    text="Hello, this is a test of duration control.",
    num_step=32,
    speed=1.2,
)

Cố định thời lượng 10 giây:

audio = model.generate(
    text="Hello, this is a test of duration control.",
    duration=10.0,
)

Ưu tiên tham số:

duration > speed

Nếu cần output khớp chính xác duration, tài liệu khuyến nghị tắt silence removal bằng postprocess_output=False, vì bước hậu xử lý có thể cắt silence cuối file làm audio ngắn hơn duration yêu cầu.13

Sinh văn bản dài

Tài liệu generation parameters nói model có cơ chế tự chia text dài thành các đoạn nhỏ khi ước lượng duration vượt audio_chunk_threshold. Mỗi đoạn tạo khoảng audio_chunk_duration giây audio; cách này giúp tạo long-form speech với mức VRAM gần như ổn định.13

Ví dụ:

audio = model.generate(
    text=long_text,
    audio_chunk_duration=15.0,
    audio_chunk_threshold=30.0,
)

Ứng dụng:

  • audiobook;
  • narration video dài;
  • đọc blog;
  • đọc tài liệu hướng dẫn;
  • batch tạo voice-over.

Non-verbal symbols và pronunciation control

OmniVoice hỗ trợ tag phi ngôn ngữ inline:14

audio = model.generate(
    text="[laughter] You really got me. I didn't see that coming at all."
)

Một số tag:

[laughter], [sigh], [confirmation-en], [question-en],
[question-ah], [question-oh], [question-ei], [question-yi],
[surprise-ah], [surprise-oh], [surprise-wa], [surprise-yo],
[dissatisfaction-hnn]

Tiếng Trung có thể dùng pinyin với tone numbers để sửa phát âm:14

audio = model.generate(
    text="这批货物打ZHE2出售后他严重SHE2本了,再也经不起ZHE1腾了。"
)

Tiếng Anh có thể dùng CMU pronunciation dictionary dạng uppercase trong brackets:14

audio = model.generate(
    text="He plays the [B EY1 S] guitar while catching a [B AE1 S] fish."
)

Nên chọn chế độ nào?

Nhu cầuChế độ
Muốn giữ giọng một người đã có audio hợp phápVoice cloning
Muốn tạo giọng theo mô tả mà không có audio mẫuVoice design
Muốn tạo nhanh audio không quan tâm speakerAuto voice
Muốn tạo nhiều file cùng lúcBatch inference
Muốn giao diện thử nhanhomnivoice-demo
Muốn tích hợp vào backendPython API
Muốn chạy nhiều job offlineCLI + JSONL

Triển khai cho cá nhân

Quy trình đơn giản:

python -m venv .venv
source .venv/bin/activate

pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128
pip install omnivoice

omnivoice-demo --ip 127.0.0.1 --port 8001

Sau khi thử web UI, chuyển sang CLI:

omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "Xin chào, đây là bản thử nghiệm giọng nói." \
  --output out.wav

Với voice cloning:

omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "Đây là câu mới được đọc bằng giọng tham chiếu." \
  --ref_audio ref.wav \
  --ref_text "Đây là đoạn âm thanh tham chiếu." \
  --output cloned.wav

Triển khai cho backend/app

Một backend đơn giản có thể theo mô hình:

API request
  ↓
Validate text + voice mode
  ↓
OmniVoice worker
  ↓
WAV output
  ↓
Storage/CDN
  ↓
Return URL

Gợi ý thiết kế:

  • Không chạy inference trực tiếp trong request web nếu audio dài.
  • Dùng queue như Redis/RQ, Celery, Sidekiq hoặc task worker riêng.
  • Cache output theo hash của text + voice config.
  • Giới hạn độ dài text.
  • Giới hạn duration.
  • Xóa file tạm.
  • Tách model worker khỏi API server.
  • Ghi metadata: model version, mode, text length, duration, ref_audio id, seed/config nếu có.
  • Không log raw ref_audio nếu có dữ liệu cá nhân.

Triển khai cho team sản xuất nội dung

Workflow đề xuất:

  1. Người viết tạo script.
  2. Text normalization: số, ngày tháng, ký hiệu.
  3. Chọn voice mode: cloning/design/auto.
  4. Generate audio draft.
  5. Người biên tập nghe và kiểm tra.
  6. Sửa pronunciation bằng pinyin/CMU nếu cần.
  7. Export WAV.
  8. Mix/master trong DAW hoặc công cụ audio/video.

Không nên tự động publish audio voice cloning nếu chưa có người kiểm tra, vì TTS có thể sai phát âm, sai ngắt câu hoặc tạo âm thanh không mong muốn.

Lưu ý cho tiếng Việt

OmniVoice hỗ trợ hơn 600 ngôn ngữ, nhưng chất lượng thực tế phụ thuộc dữ liệu huấn luyện từng ngôn ngữ, dấu câu, cách viết số và audio mẫu.15

Với tiếng Việt, nên:

  • viết câu có dấu đầy đủ;
  • dùng dấu câu rõ ràng;
  • chuyển số thành chữ nếu phát âm số sai;
  • tránh viết tắt mơ hồ;
  • dùng audio mẫu tiếng Việt nếu muốn phát âm tự nhiên;
  • kiểm tra kỹ các tên riêng, tiếng Anh lẫn trong câu, mã sản phẩm;
  • chia đoạn dài thành câu ngắn hơn.

Lưu ý về Min Nan/Hokkien

Tài liệu tips nói Min Nan Chinese / Hokkien hiện chỉ synthesize bằng input Tai-lo romanization; Chinese characters chưa được hỗ trợ trong model version hiện tại.16

Đây là ví dụ cho thấy “hỗ trợ ngôn ngữ” không luôn có nghĩa là mọi kiểu chữ/orthography của ngôn ngữ đó đều chạy như nhau.

Training, evaluation và fine-tuning

README nói thư mục examples/ chứa complete pipeline từ data preparation tới training, evaluation và finetuning.17

Dùng phần này khi bạn muốn:

  • fine-tune cho domain riêng;
  • đánh giá model trên tập dữ liệu riêng;
  • tạo benchmark nội bộ;
  • huấn luyện cải thiện pronunciation hoặc speaker style;
  • nghiên cứu TTS architecture.

Với người dùng thông thường, nên bắt đầu từ pretrained model trước khi fine-tune.

Lưu ý bảo mật và đạo đức

Voice cloning có rủi ro cao hơn nhiều công cụ AI khác vì có thể tạo audio giống người thật. README cấm dùng model cho unauthorized voice cloning, voice impersonation, fraud, scams hoặc hoạt động phi pháp/phi đạo đức.3

Checklist bắt buộc:

  • Chỉ clone giọng khi có quyền/đồng ý rõ ràng.
  • Không giả mạo người thật.
  • Không dùng cho gọi điện lừa đảo, quảng cáo giả mạo hoặc deepfake danh tính.
  • Không tạo audio làm bằng chứng giả.
  • Không công bố dataset giọng nói riêng tư.
  • Gắn watermark hoặc metadata nếu workflow yêu cầu.
  • Lưu consent record cho voice mẫu.
  • Có human review trước khi publish.
  • Với hệ thống public, thêm abuse detection/rate limit.
  • Với voice cloning, nên có chính sách xóa audio mẫu theo yêu cầu.

Khi nào nên dùng OmniVoice?

Nên dùng khi:

  • bạn cần TTS đa ngôn ngữ;
  • bạn cần clone giọng hợp pháp từ audio mẫu ngắn;
  • bạn muốn tạo giọng theo thuộc tính speaker;
  • bạn làm voice-over, audiobook, trợ lý AI, demo sản phẩm;
  • bạn nghiên cứu TTS đa ngôn ngữ hoặc diffusion TTS;
  • bạn cần batch sinh audio nhiều câu.

Không nên dùng khi:

  • bạn không có quyền dùng giọng mẫu;
  • bạn cần output pháp lý không có kiểm tra người thật;
  • bạn muốn ASR hoặc speech-to-text;
  • máy không đủ tài nguyên chạy model;
  • bạn cần realtime hard guarantee chưa benchmark;
  • bạn chưa có policy chống misuse.

So sánh OmniVoice với các repo trước

RepoMục tiêu chính
OmniVoiceText-to-speech đa ngôn ngữ, voice cloning, voice design
PaddleOCROCR và document parsing ảnh/PDF
MarkItDownchuyển file tài liệu sang Markdown
NVIDIA Cosmosworld models cho Physical AI
Claude Taptrace/debug AI coding agent
Headroomnén context/tool output cho LLM
RTKnén output CLI cho coding agent

OmniVoice nằm ở tầng speech generation, khác nhóm công cụ coding agent, document processing hoặc Physical AI.

FAQ

OmniVoice là gì?

OmniVoice là mô hình text-to-speech zero-shot đa ngôn ngữ của k2-fsa, hỗ trợ hơn 600 ngôn ngữ, voice cloning và voice design.2

OmniVoice hỗ trợ bao nhiêu ngôn ngữ?

README nói hơn 600 ngôn ngữ; tài liệu languages ghi 646 languages và 581k giờ training data.215

Voice cloning cần audio dài bao lâu?

README khuyến nghị audio tham chiếu khoảng 3–10 giây; audio dài hơn có thể làm chậm inference và giảm chất lượng cloning.8

Có cần nhập ref_text không?

Không bắt buộc. Nếu bỏ ref_text, README nói model sẽ dùng Whisper ASR để tự transcribe reference audio.8

Voice design có ổn định không?

README ghi voice cloning là chế độ ổn định nhất vì model chủ yếu được train cho task này. Voice design được train trên Chinese/English data và có thể không ổn định với một số low-resource languages hoặc edge cases.8

OmniVoice có license gì?

Repo và Hugging Face model card ghi license Apache-2.0.46

Kết luận

k2-fsa/OmniVoice là repo TTS đáng chú ý vì kết hợp ba yếu tố: độ phủ ngôn ngữ rất rộng, voice cloning từ audio ngắn và voice design bằng mô tả speaker. Người mới nên bắt đầu bằng omnivoice-demo, sau đó chuyển sang omnivoice-infer hoặc Python API khi cần tích hợp vào app.

Điểm quan trọng nhất khi triển khai không chỉ là kỹ thuật. Vì OmniVoice có voice cloning, mọi workflow production cần có consent, kiểm soát lạm dụng, giới hạn truy cập, review nội dung và chính sách rõ ràng. Dùng đúng, nó hữu ích cho voice-over, audiobook, trợ lý AI và nghiên cứu TTS; dùng sai, nó có thể trở thành công cụ giả mạo giọng nói.

Nguồn tham khảo

Footnotes

  1. OmniVoice project image used in README and Hugging Face model card. https://zhu-han.github.io/omnivoice/pics/omnivoice.jpg

  2. OmniVoice README. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/README.md 2 3 4

  3. OmniVoice README, Disclaimer section. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/README.md 2

  4. GitHub. k2-fsa/OmniVoice. https://github.com/k2-fsa/OmniVoice 2

  5. OmniVoice pyproject.toml. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/pyproject.toml 2

  6. Hugging Face model card for k2-fsa/OmniVoice. https://huggingface.co/k2-fsa/OmniVoice 2

  7. arXiv paper “OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models.” https://arxiv.org/abs/2604.00688 2

  8. OmniVoice README, Python API section. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/README.md 2 3 4 5 6 7 8 9

  9. OmniVoice voice design docs. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/docs/voice-design.md 2 3

  10. OmniVoice README, Installation section. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/README.md 2

  11. OmniVoice README, Quick Start section. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/README.md 2

  12. OmniVoice README, Command-Line Tools section. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/README.md 2 3

  13. OmniVoice generation parameters docs. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/docs/generation-parameters.md 2 3

  14. OmniVoice README, Non-Verbal & Pronunciation Control section. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/README.md 2 3

  15. OmniVoice supported languages file. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/docs/languages.md 2

  16. OmniVoice tips file. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/docs/tips.md

  17. OmniVoice README, Training & Evaluation section. https://raw.githubusercontent.com/k2-fsa/OmniVoice/master/README.md

PR

Được biên soạn bởi PixelRouter Editorial Team

Chúng tôi cung cấp các bài viết chuyên sâu và chính xác về hạ tầng AI, bảo mật API, quản lý tài chính đám mây và tối ưu hóa hệ thống cho nhà phát triển.

Câu hỏi thường gặp

OmniVoice là gì?

OmniVoice là mô hình text-to-speech zero-shot đa ngôn ngữ của k2-fsa, hỗ trợ hơn 600 ngôn ngữ, voice cloning và voice design.

OmniVoice hỗ trợ bao nhiêu ngôn ngữ?

README nói OmniVoice hỗ trợ hơn 600 ngôn ngữ; tài liệu languages ghi 646 languages.

Voice cloning với OmniVoice cần audio tham chiếu dài bao lâu?

README khuyến nghị dùng audio tham chiếu khoảng 3–10 giây. Audio dài hơn có thể làm suy luận chậm và giảm chất lượng cloning.

Có bắt buộc nhập ref_text khi voice cloning không?

Không bắt buộc. Nếu bỏ ref_text, README nói model sẽ dùng Whisper ASR để tự transcribe audio tham chiếu.

OmniVoice có những cách sử dụng nào?

Bài viết nêu OmniVoice có Python API, Gradio web demo, CLI sinh một file audio và batch inference CLI.

OmniVoice có license gì?

Repo GitHub và Hugging Face model card ghi OmniVoice có license Apache-2.0.