Làm việc với mô hình AI giọng nói về cơ bản giống như sử dụng mô hình dựa trên văn bản. Xét cho cùng, khi nói đến ChatGPT, bạn có thể đang sử dụng GPT-4o, dù ở dạng văn bản hay giọng nói. Điều đó cũng áp dụng cho Advanced Voice mới hiện có sẵn rộng rãi cho tất cả người đăng ký trả phí.
Tôi đã sử dụng nó trong một tháng và vẫn ngạc nhiên về độ tự nhiên khi nói chuyện so với mọi mô hình giọng nói AI khác mà tôi đã thử — có lẽ ngoại lệ duy nhất là EVI 2 của Hume.
Có một số hạn chế đối với Advanced Voice mà không có ở basic voice, hoặc thậm chí là Gemini Live của Google. Ví dụ, nó không có quyền truy cập internet trực tiếp, vì vậy nó không thể tìm kiếm trên web. Nó cũng không thể truy cập GPT tùy chỉnh — nhưng nó dễ tương tác hơn nhiều.
Advanced Voice có khả năng đàm thoại ấn tượng, vì vậy thay vì đưa ra năm lời nhắc để thử nghiệm, tôi đã đưa ra năm câu mở đầu cuộc trò chuyện có thể dẫn đến một cuộc thảo luận thay vì bài giảng một chiều mà bạn thường thấy ở các mô hình khác.
Tạo ra những câu mở đầu cho cuộc trò chuyện
Advanced Voice sẽ được triển khai cho tất cả người dùng Plus và Team trong ứng dụng ChatGPT trong tuần này. Trong khi bạn kiên nhẫn chờ đợi, chúng tôi đã thêm Hướng dẫn tùy chỉnh, Bộ nhớ, năm giọng nói mới và cải thiện giọng nói. Nó cũng có thể nói “Xin lỗi, tôi đến muộn” bằng hơn 50 ngôn ngữ. pic.twitter.com/APOqqhXtDgNgày 24 tháng 9 năm 2024
Đối với mỗi ví dụ này, tôi đã cố gắng tập hợp một số ví dụ tốt nhất mà tôi đã thấy từ những người khác hoặc tự mình trải nghiệm về những gì Advanced Voice có thể làm. Ví dụ, nói với các giọng khác nhau hoặc dạy một ngôn ngữ khác.
Cũng có những thứ về mặt kỹ thuật nó có thể làm nhưng không làm. Ví dụ, GPT-4o có khả năng ngân nga, tạo ra âm thanh và thậm chí tạo ra nhạc. Tuy nhiên, những khả năng đó đã bị OpenAI hạn chế thông qua các rào cản, nhưng đôi khi nó vẫn làm vậy.
1. Kể một câu chuyện với giọng điệu
Đầu tiên trong cuộc trò chuyện kỳ lạ của chúng tôi, tôi đã yêu cầu Advanced Voice “kể cho tôi nghe một câu chuyện phiêu lưu mạo hiểm bằng giọng kể của cướp biển, kèm theo tiếng sóng biển ầm ầm ở phía sau?“Tôi đang thử vận may của mình với những con sóng, nhưng cũng đáng để thử.
Lời nhắc bắt đầu sẽ cho bạn thấy cách Advanced Voice có thể tạo ra và đan xen nhiều giọng nói khác nhau vào câu chuyện. Nó cũng có thể tăng gấp đôi giọng nói. Giọng nói yêu thích của tôi là Pirate Yoda.
2. Dạy ngôn ngữ thông qua thơ ca
Tôi bắt đầu cuộc trò chuyện này bằng: “Tôi đang học tiếng Tây Ban Nha. Bạn có thể đọc một bài thơ bằng tiếng Tây Ban Nha, lúc đầu chậm, sau đó tăng dần tốc độ không?“
Điều này khiến nó sử dụng khả năng điều chỉnh giọng nói và nhịp độ của mình. Nó có thể điều chỉnh tốc độ và giọng điệu của giọng nói trên nhiều ngôn ngữ và giọng điệu khác nhau. Làm như vậy có thể hỗ trợ khả năng hiểu và thực hành. Tôi đã thúc đẩy nó hơn nữa và yêu cầu nó phân tích từng từ và cung cấp bản dịch tiếng Anh.
3. Giúp tôi thở
Trong cuộc trò chuyện tiếp theo, đó là cuộc trò chuyện mà bạn sẽ có với một nhà trị liệu để giúp bạn bình tĩnh lại. Tôi đã yêu cầu nó giúp tôi thư giãn. Cụ thể: “Tôi cảm thấy hơi căng thẳng. Bạn có thể hướng dẫn tôi bài tập thở không?“
Lời nhắc này khai thác tiềm năng giảm căng thẳng của AI, kết hợp hướng dẫn bằng giọng nói với một số hiệu ứng âm thanh hạn chế. Trong thử nghiệm này, nó thậm chí có thể bắt chước âm thanh hít vào và thở ra trong khi đếm hơi thở.
4. Làm nhạc
ChatGPT Advanced Voice không thể tạo ra âm nhạc. Vâng, nó có thể, nhưng không được phép. OpenAI thậm chí đã cấm nó ngân nga. Một số người dùng đã thuyết phục nó xác định một nốt nhạc trên bàn phím hoặc giúp lên dây đàn guitar, nhưng nó thường từ chối. Nó đã làm với tôi.
Ý tưởng ban đầu của tôi là yêu cầu nó giúp tôi chỉnh dây đàn guitar, nhưng khi điều đó không thành công, tôi yêu cầu nó rap. Nó cũng từ chối, vì vậy tôi yêu cầu nó “viết một số lời rap và sau đó nói chúng thật nhanh” — nó đã biểu diễn một đoạn rap. Sau đó tôi yêu cầu nó thử bắt chước nhịp điệu của Eminem. Nó từ chối cho đến khi tôi mô tả và thử — nhưng không thành công.
5. Thực hiện độc thoại
Cuối cùng, tôi yêu cầu nó phát triển một đoạn độc thoại từ góc nhìn của nhân vật chính trong một kịch bản. Tôi nói: “Tôi đang viết kịch bản về việc khám phá ra một công nghệ có thể đưa con người ra khỏi hệ mặt trời. Bạn có thể thực hiện một đoạn độc thoại kịch tính từ góc nhìn của nhân vật chính không?“Nó đã làm rất tốt việc truyền tải cảm xúc của thời điểm đó.
Lời nhắc này mời AI thể hiện khả năng diễn xuất của mình, thổi hồn vào nhân vật thông qua giọng nói và cách truyền tải biểu cảm. Bạn thậm chí có thể ngắt lời và yêu cầu thêm cảm xúc hoặc thêm kịch tính. Bạn là đạo diễn trong tình huống này và rất tuyệt để tạo ra một câu chuyện phiêu lưu theo phong cách tự chọn hoặc để nó hành động như một người quản ngục.
Thêm từ Tom's Guide