AI Giọng Nói Thực Tế Trên Thiết Bị local

Nội dung

F5 TTS là một mô hình chuyển đổi văn bản thành giọng nói (Text-to-Speech) tiên tiến, hỗ trợ nhiều ngôn ngữ, trong đó có tiếng Việt. Với khả năng tạo ra giọng nói tự nhiên và gần giống giọng người thật, F5 TTS đang thu hút sự quan tâm của nhiều người dùng muốn triển khai trên máy tính cá nhân. Bài phân tích này sẽ tập trung vào khả năng triển khai F5 TTS cho tiếng Việt trên máy local, đặc biệt là trên dòng máy Mac M4.

Hệ Thống Của F5 TTS

F5 TTS là một mô hình AI nặng, đòi hỏi tài nguyên phần cứng đáng kể:

GPU: Cần card đồ họa mạnh với ít nhất 8GB VRAM (NVIDIA RTX 3060 trở lên)
RAM: Tối thiểu 16GB, khuyến nghị 32GB trở lên
Bộ nhớ trống: Cần khoảng 10-20GB để lưu mô hình và dữ liệu liên quan
Hệ điều hành: Hỗ trợ Linux, Windows và macOS (với một số hạn chế)

Phân Tích Khả Năng Chạy Trên Mac M4

Mac M4 (dòng Mac sử dụng chip M4 của Apple) có những ưu điểm và hạn chế sau khi chạy F5 TTS:

Ưu Điểm:

Hiệu năng CPU: Chip M4 có hiệu năng CPU rất mạnh, có thể xử lý tốt các tác vụ tính toán thông thường
Hiệu quả năng lượng: Mac M4 hoạt động hiệu quả về mặt năng lượng, ít tỏa nhiệt
Tích hợp Neural Engine: Neural Engine trên chip M4 có thể tăng tốc một số tác vụ AI

Hạn Chế:

Khả năng tương thích phần mềm: F5 TTS được tối ưu hóa cho nền tảng CUDA của NVIDIA, không hỗ trợ tốt cho kiến trúc ARM của Mac M4
Hạn chế về GPU: Dù GPU của M4 mạnh, nhưng không tương thích với các thư viện học sâu phổ biến như PyTorch, TensorFlow trên nền tảng macOS
Vấn đề driver và hỗ trợ: Thiếu driver và hỗ trợ đầy đủ cho các framework AI trên macOS
Hạn chế bộ nhớ: Dù Mac M4 có thể có RAM thống nhất (unified memory), nhưng việc phân bổ cho tác vụ AI vẫn gặp nhiều thách thức

Các Giải Pháp Thay Thế

1. Sử Dụng Dịch Vụ Đám Mây

Google Colab: Sử dụng GPU miễn phí hoặc trả phí để chạy F5 TTS
AWS, Google Cloud, Azure: Triển khai trên các dịch vụ đám mây có GPU mạnh
Hugging Face Spaces: Sử dụng nền tảng đã có sẵn F5 TTS cho tiếng Việt

2. Sử Dụng Các Mô Hình TTS Nhẹ Hơn

VITS Vietnamese: Mô hình TTS nhẹ hơn, có thể chạy trên Mac M4
Coqui TTS: Hỗ trợ tiếng Việt và yêu cầu tài nguyên thấp hơn
PaddleSpeech: Của Baidu, có phiên bản hỗ trợ tiếng Việt

3. Tối Ưu Hóa F5 TTS Cho Mac M4

Sử dụng Core ML: Chuyển đổi mô hình sang định dạng Core ML để tận dụng Neural Engine
Giảm kích thước mô hình: Sử dụng kỹ thuật quantization để giảm kích thước và yêu cầu tài nguyên
Chạy qua Docker: Sử dụng container để giải quyết vấn đề tương thích

Hiện tại, việc chạy F5 TTS cho tiếng Việt trên máy Mac M4 chưa khả thi do các vấn đề về tương thích phần mềm, hạn chế về hỗ trợ framework AI và yêu cầu tài nguyên cao của mô hình. Người dùng Mac M4 muốn sử dụng F5 TTS cho tiếng Việt nên xem xét các giải pháp thay thế như sử dụng dịch vụ đám mây hoặc chuyển sang các mô hình TTS nhẹ hơn được tối ưu hóa cho nền tảng macOS.

Trong tương lai, khi có sự hỗ trợ tốt hơn cho kiến trúc ARM trên macOS và các framework AI được tối ưu hóa cho chip Apple Silicon, khả năng chạy F5 TTS trên Mac M4 có thể được cải thiện. Tuy nhiên, hiện tại, đây vẫn là một thách thức kỹ thuật đáng kể.

Chạy thử

Model 1000h

NeuTTS Air

NeuTTS Air là trí tuệ nhân tạo giọng nói thực tế đầu tiên trên thiết bị. Nó có khả năng sao chép giọng nói chỉ trong 3 giây. Nó sử dụng định dạng GGUF. Nó chạy trực tiếp trên CPU. Giọng nói của nó nghe giống con người một cách đáng kinh ngạc.

Người viết đã tìm thấy NeuTTS Air trên Hugging Face. Ban đầu, người viết nghĩ đây là một kho lưu trữ sao chép TTS khác. Người viết dự đoán nó sẽ làm quá tải GPU. Tuy nhiên, NeuTTS Air chạy cục bộ. Nó tạo ra giọng nói thực sự giống con người. Điều tốt nhất là nó không yêu cầu khóa API. Nó cũng không cần điểm cuối đám mây.

NeuTTS Air là mã nguồn mở hoàn toàn. Nó sử dụng định dạng GGUF. Định dạng này tối ưu hóa cho việc chạy trên CPU. Nó sẵn sàng hoạt động trên CPU. Thông điệp chính của nó là: “AI giọng nói thuộc về thiết bị của bạn.” Nó khẳng định AI giọng nói không nên nằm trên máy chủ của người khác.

Trong nhiều năm, công nghệ chuyển văn bản thành giọng nói (TTS) hoạt động theo một cách. Nó yêu cầu gửi dữ liệu đến một mô hình đám mây lớn. Người dùng phải chờ đợi vài giây. Giọng nói thường nghe không tự nhiên. Nó có thể giống như một “máy nướng bánh mì hít khí heli”.

Công ty Neuphonic đã quyết định thay đổi điều này. Họ muốn tạo ra một công nghệ nhanh, nhỏ gọn và chân thực. Họ đã phát triển NeuTTS Air. Đây là một mô hình với 0.5 tỷ tham số.

Mô hình này chạy theo thời gian thực. Nó hoạt động trên các CPU tầm trung. Điều này bao gồm cả máy tính xách tay. Nó cũng tương thích với Raspberry Pi 5.

Nó có thể sao chép một giọng nói. Quá trình này mất khoảng 3 giây. Chỉ cần một mẫu âm thanh rất nhỏ.

Giọng nói được tạo ra nghe giống con người. Nó không bị robot hóa. Nó cũng không bị làm cho quá hoàn hảo một cách giả tạo.

Nó được phân phối dưới định dạng GGUF. Định dạng này cho phép nén mô hình hiệu quả. Điều này giúp mô hình chạy trên CPU mà không cần GPU mạnh. Điều này cho phép sử dụng với llama.cpp. Nó cũng tương thích với bất kỳ công cụ nhẹ nào khác.

Nó tự động thêm dấu mờ (watermark) vào âm thanh. Điều này giúp ngăn chặn việc sử dụng cho deepfake. Nó đảm bảo tính minh bạch và nguồn gốc của giọng nói.

Sự kết hợp giữa nhỏ gọn, chân thực và chạy cục bộ là độc đáo. Sự kết hợp này chưa từng tồn tại trước đây.

Cách thức hoạt động

Về mặt kỹ thuật, NeuTTS Air hoạt động dựa trên một sự kết hợp. Đây là một sự kết hợp tinh tế của các thành phần.

Nó sử dụng một mô hình nền tảng Qwen 0.5 B. Mô hình này dùng để hiểu văn bản. Nó cũng dùng để xử lý ngữ điệu.
Nó có một bộ mã hóa thần kinh tùy chỉnh. Bộ mã hóa này được gọi là NeuCodec. NeuCodec thực hiện mã hóa âm thanh hiệu quả. Nó sử dụng một sổ mã duy nhất.
Nó xuất ra một dạng sóng có thể truyền trực tuyến. Âm thanh nghe giống như phát ra từ một micro thật.

Để sử dụng, bạn cung cấp một tệp .wav tham chiếu nhỏ. Tệp này có độ dài từ 3 đến 10 giây. Bạn cũng cung cấp văn bản đầu vào của mình. Nó sẽ nói bằng giọng nói đã sao chép. Quá trình này đơn giản chỉ bằng một khối mã.

Ưu điểm: Tốt, Nhanh và Ngoại tuyến

Người viết đã thử nghiệm NeuTTS Air. Người viết sử dụng đoạn ghi âm từ mic laptop. Người viết cũng dùng một vài câu ngẫu nhiên. Kết quả sao chép giọng nói đã gây ấn tượng mạnh. Nó giữ nguyên tông giọng. Nó giữ nguyên nhịp điệu của các từ đệm. Nó thậm chí còn giữ lại những hơi thở nhỏ.

Độ trễ của nó là tức thì. Mức sử dụng CPU là có thể quản lý được. Đây là công nghệ TTS cục bộ đầu tiên. Nó có khả năng thực sự cung cấp năng lượng cho một sản phẩm. Nó không chỉ dừng lại ở mức bản demo.

So sánh với các mô hình lớn

Dưới đây là bảng so sánh NeuTTS Air với các mô hình TTS khác:

XTTS v2 (Coqui)
- Ý tưởng cốt lõi: Đa ngôn ngữ, sao chép chân thực.
- Ưu điểm: Hỗ trợ nhiều ngôn ngữ, biểu cảm.
- Nhược điểm: Nặng cho CPU, chậm hơn.
- Đánh giá: Tuyệt vời cho phòng thí nghiệm, không phù hợp cho thiết bị biên.
OpenVoice (MyShell)
- Ý tưởng cốt lõi: Kiểm soát cảm xúc và phong cách.
- Ưu điểm: Đa ngôn ngữ, kiểm soát tông giọng.
- Nhược điểm: Tốn GPU, ưu tiên web.
- Đánh giá: Hiện đại nhưng dựa vào đám mây.
Piper
- Ý tưởng cốt lõi: Nhanh và nhỏ gọn cho Pi.
- Ưu điểm: Cực kỳ nhẹ, đơn giản.
- Nhược điểm: Tông giọng robot.
- Đánh giá: Tốt nhất cho người kể chuyện nhúng.
NeuTTS Air
- Ý tưởng cốt lõi: Chân thực + cục bộ + nhỏ gọn.
- Ưu điểm: Sao chép thời gian thực, có dấu mờ, thân thiện với CPU.
- Nhược điểm: Ưu tiên tiếng Anh.
- Đánh giá: Điểm vàng cho các tác nhân trên thiết bị.

Điều kỳ diệu ở đây là bạn không cần GPU. Bạn cũng không cần tài khoản đám mây. Bạn vẫn có thể có được giọng nói TTS giống con người.

Ý tưởng ứng dụng thực tế

NeuTTS Air có thể dễ dàng tích hợp vào các ứng dụng thực tế:

Trợ lý giọng nói cục bộ: Chúng có thể nói chuyện giống bạn. Điều này loại bỏ độ trễ do đám mây.
Các ki-ốt ưu tiên quyền riêng tư: Chúng có thể hướng dẫn bệnh nhân. Chúng hoạt động ngoại tuyến. Dữ liệu bệnh nhân được bảo mật hoàn toàn.
Công cụ dành cho người sáng tạo: Chúng có thể giữ dữ liệu cục bộ. Giọng nói vẫn đạt chất lượng chuyên nghiệp. Điều này bảo vệ quyền riêng tư của người sáng tạo.

Về cơ bản, nếu một ứng dụng cần nói. Và bạn không muốn trả phí GPU cho mỗi từ. NeuTTS Air là giải pháp phù hợp.

Đánh giá

Mô hình này đạt đến một điểm cân bằng hiếm có. Nó kết hợp tính chân thực, quyền riêng tư và khả năng triển khai. Tất cả nằm trong một gói phần mềm nhẹ. XTTS v2 vượt trội về ngôn ngữ. OpenVoice vượt trội về biểu cảm. NeuTTS Air lại vượt trội về tính thực tiễn. Đây là công nghệ bạn có thể thực sự đưa vào một sản phẩm thực tế. Giống như cách LLM cục bộ đã khiến mọi người ngạc nhiên. LLM cục bộ cho phép trò chuyện ngoại tuyến. NeuTTS Air cũng làm điều tương tự cho giọng nói. Điều này thực sự có ý nghĩa rất lớn.

Please try here:
🔗GitHub — neuphonic/neutts-air
🎤Spaces Demo
💻 Official:neuphonic.com

Tham khảo: medium.com

Small ERP