Chú thích đóng đã trở thành một yếu tố chính của trải nghiệm xem TV và xem phim. Đối với một số người, đó là một cách để giải mã đối thoại lầy lội. Đối với những người khác, như những người bị điếc hoặc khó nghe, đó là một công cụ tiếp cận quan trọng. Nhưng chú thích không hoàn hảo, và các công ty và hãng phim công nghệ đang ngày càng tìm kiếm AI để thay đổi điều đó.
Chú thích cho các chương trình truyền hình và phim ảnh phần lớn vẫn được thực hiện bởi những người thực sự, những người có thể giúp đảm bảo độ chính xác và bảo tồn sắc thái. Nhưng có những thách thức. Bất cứ ai đã xem một sự kiện trực tiếp với chú thích đóng đều biết văn bản trên màn hình thường bị trễ, và có thể có lỗi trong quá trình vội vàng. Lập trình kịch bản cung cấp nhiều thời gian hơn cho độ chính xác và chi tiết, nhưng nó vẫn có thể là một quá trình thâm dụng lao động-hoặc, trong mắt của các hãng phim, một quá trình tốn kém.
Vào tháng 9, Warner Bros. Discovery đã tuyên bố hợp tác với Google Cloud để phát triển chú thích đóng được hỗ trợ AI, “cùng với sự giám sát của con người để đảm bảo chất lượng.” Trong một thông cáo báo chí, công ty cho biết sử dụng AI trong việc chú thích giảm chi phí lên tới 50%và giảm thời gian cần thiết để chú thích một tập tin lên tới 80%. Các chuyên gia nói rằng đây là một cái nhìn về tương lai.
“Bất cứ ai không làm điều đó chỉ là chờ đợi để bị thay thế”, Joe Devon, một người ủng hộ khả năng truy cập web và đồng sáng lập Ngày Nhận thức về Truy cập Toàn cầu, nói về việc sử dụng AI trong chú thích. Chất lượng của chú thích thủ công ngày nay là “loại khắp nơi, và nó chắc chắn cần phải cải thiện.”
Khi AI tiếp tục biến đổi thế giới của chúng ta, nó cũng định hình lại cách các công ty tiếp cận khả năng tiếp cận. Chẳng hạn, tính năng chú thích biểu cảm của Google sử dụng AI để truyền đạt cảm xúc và giai điệu trong video tốt hơn. Apple đã thêm phiên âm cho các tin nhắn và bản ghi nhớ bằng giọng nói trong iOS 18, tăng gấp đôi như cách để làm cho nội dung âm thanh dễ truy cập hơn. Cả Google và Apple đều có các công cụ chú thích theo thời gian thực để giúp những người bị điếc hoặc nghe thấy nội dung âm thanh trên thiết bị của họ và Amazon đã thêm các tính năng tin nhắn và chú thích cho Alexa.
Warner Bros. Discovery đang hợp tác với Google Cloud để tung ra các chú thích do AI cung cấp. Một con người giám sát quá trình.
Trong không gian giải trí, Amazon đã ra mắt một tính năng vào năm 2023 có tên là Đối thoại Boost trong Prime Video, sử dụng AI để xác định và tăng cường lời nói có thể khó nghe trên âm nhạc và hiệu ứng nền trên. Công ty cũng đã công bố một chương trình thí điểm vào tháng 3 sử dụng phim AI để lồng tiếng và các chương trình truyền hình “mà không được mệnh danh là khác”, nó nói trong một Bài viết trên blog. Và trong một dấu ấn của việc người xem phụ thuộc chung đã trở thành chú thích như thế nào, Netflix vào tháng Tư đã đưa ra một tùy chọn phụ đề chỉ dành cho cuộc đối thoại cho bất kỳ ai chỉ muốn hiểu những gì được nói trong các cuộc trò chuyện, trong khi bỏ qua các mô tả âm thanh.
Khi AI tiếp tục phát triển và khi chúng tôi tiêu thụ nhiều nội dung hơn trên màn hình cả lớn và nhỏ, đó chỉ là vấn đề thời gian trước nhiều studio, mạng và công ty công nghệ khai thác tiềm năng của AI – hy vọng, trong khi nhớ tại sao chú thích đóng lại ở nơi đầu tiên.
Giữ khả năng tiếp cận hàng đầu
Sự phát triển của chú thích khép kín ở Mỹ bắt đầu như một biện pháp tiếp cận vào những năm 1970, cuối cùng làm mọi thứ từ các chương trình phát sóng truyền hình trực tiếp đến các bộ phim bom tấn phim công bằng hơn cho khán giả rộng hơn. Nhưng nhiều người xem không bị điếc hoặc khó nghe cũng thích xem phim và chương trình truyền hình có chú thích – cũng thường được gọi là phụ đề, mặc dù về mặt kỹ thuật liên quan đến dịch ngôn ngữ – đặc biệt là trong trường hợp đối thoại sản xuất khó giải mã.
Một nửa số người Mỹ cho biết họ thường xem nội dung với phụ đề, theo một cuộc khảo sát năm 2024 của trang web học ngôn ngữ chuẩn bị và 55% tổng số người được hỏi cho biết việc nghe đối thoại trong các bộ phim và chương trình trở nên khó khăn hơn. Những thói quen đó không giới hạn ở người xem lớn tuổi; Một cuộc khảo sát năm 2023 YouGov cho thấy 63% người trưởng thành dưới 30 tuổi thích xem TV có phụ đề – so với 30% người từ 65 tuổi trở lên.
“Mọi người, và cả những người sáng tạo nội dung, có xu hướng cho rằng các chú thích chỉ dành cho cộng đồng khiếm thính hoặc khiếm thính”, Ariel Simms, chủ tịch và CEO của khuyết tật thuộc về. Nhưng chú thích cũng có thể giúp mọi người xử lý và lưu giữ thông tin dễ dàng hơn.
Bằng cách tăng tốc quá trình chú thích, AI có thể giúp nhiều nội dung có thể truy cập được nhiều hơn, cho dù đó là chương trình truyền hình, phim ảnh hay phương tiện truyền thông xã hội, SIMMS lưu ý. Nhưng chất lượng có thể bị ảnh hưởng, đặc biệt là trong những ngày đầu.
“Chúng tôi có một tên cho các chú thích do AI tạo ra trong cộng đồng khuyết tật-chúng tôi gọi chúng là 'tào laotions, '”Simms cười.
Đó là bởi vì chú thích tự động vẫn phải vật lộn với những thứ như dấu câu, ngữ pháp và tên riêng. Công nghệ có thể không thể chọn các điểm nhấn, phương ngữ hoặc mô hình lời nói khác nhau theo cách của một con người.
Lý tưởng nhất, Simms cho biết, các công ty sử dụng AI để tạo ra chú thích vẫn sẽ có một con người trên tàu để duy trì độ chính xác và chất lượng. Các hãng phim và mạng cũng nên làm việc trực tiếp với cộng đồng khuyết tật để đảm bảo khả năng tiếp cận không bị xâm phạm trong quá trình này.
“Tôi không chắc chúng ta có thể đưa con người hoàn toàn ra khỏi quá trình này”, Simms nói. “Tôi nghĩ rằng công nghệ sẽ tiếp tục tốt hơn và tốt hơn. Nhưng vào cuối ngày, nếu chúng ta không hợp tác với cộng đồng khuyết tật, chúng ta sẽ để lại một quan điểm cực kỳ quan trọng về tất cả các công cụ tiếp cận này.”
Các hãng phim như Warner Bros. Discovery và Amazon, chẳng hạn, nhấn mạnh vai trò của con người trong việc đảm bảo chú thích và lồng tiếng do AI cung cấp là chính xác.
“Bạn sẽ mất danh tiếng nếu bạn cho phép AI Slop thống trị nội dung của mình”, Devon nói. “Đó là nơi con người sẽ ở trong vòng lặp.”
Nhưng do công nghệ đang phát triển nhanh như thế nào, sự tham gia của con người có thể không tồn tại mãi mãi, ông dự đoán.
“Các hãng phim và đài truyền hình sẽ làm bất cứ điều gì chi phí ít nhất, điều đó chắc chắn,” Devon nói. Nhưng, ông nói thêm, “Nếu công nghệ trao quyền cho một công nghệ hỗ trợ để thực hiện công việc tốt hơn, ai là ai để cản trở điều đó?”
Ranh giới giữa chi tiết và áp đảo
Đó không chỉ là TV và các bộ phim mà AI đang tăng áp chú thích. Các nền tảng phương tiện truyền thông xã hội như Tiktok và Instagram đã triển khai các tính năng tự động khai thác để giúp giúp nhiều nội dung có thể truy cập được nhiều hơn.
Các chú thích bản địa này thường hiển thị dưới dạng văn bản thuần túy, nhưng đôi khi, người sáng tạo chọn hiển thị flashier trong quá trình chỉnh sửa. Một phong cách “karaoke” phổ biến liên quan đến việc làm nổi bật từng từ riêng lẻ khi nó được nói, trong khi sử dụng các màu khác nhau cho văn bản. Nhưng cách tiếp cận năng động hơn này, trong khi bắt mắt, có thể thỏa hiệp khả năng đọc. Mọi người không thể đọc theo tốc độ của riêng họ, và tất cả các màu sắc và chuyển động có thể gây mất tập trung.
“Không có cách nào để làm cho 100% người dùng hài lòng với chú thích, nhưng chỉ có một phần trăm nhỏ được hưởng lợi từ và thích phong cách karaoke”, Meryl K. Evans, một nhà tư vấn tiếp thị tiếp cận, người bị điếc. Cô ấy nói rằng cô ấy phải xem các video với chú thích động nhiều lần để nhận được tin nhắn. “Các chú thích dễ tiếp cận nhất là nhàm chán. Họ để video là ngôi sao.”
Nhưng có nhiều cách để duy trì sự đơn giản trong khi thêm bối cảnh hữu ích. Tính năng chú thích biểu cảm của Google sử dụng AI để nhấn mạnh một số âm thanh nhất định và cung cấp cho người xem ý tưởng tốt hơn về những gì đang xảy ra trên điện thoại của họ. Một “sinh nhật vui vẻ!” Chẳng hạn, có thể xuất hiện trong tất cả các mũ, hoặc sự nhiệt tình của một phát thanh viên thể thao có thể được chuyển tiếp bằng cách thêm các chữ cái vào màn hình để nói, “Amaaazing Shot!” Chú thích biểu cảm cũng có vẻ như tiếng vỗ tay, thở hổn hển và huýt sáo. Tất cả văn bản trên màn hình xuất hiện trong màu đen và trắng, vì vậy nó không gây mất tập trung.
Chú thích biểu cảm đặt một số từ trong tất cả các phạm vi để truyền đạt sự phấn khích.
Khả năng tiếp cận là trọng tâm chính khi phát triển tính năng này, nhưng Angana Ghosh, giám đốc quản lý sản phẩm của Android, cho biết nhóm này nhận thức được rằng người dùng không bị điếc hoặc nghe thấy sẽ được hưởng lợi từ việc sử dụng nó. (Hãy nghĩ về tất cả những lần bạn đã ra ngoài công cộng mà không có tai nghe nhưng vẫn muốn theo dõi những gì đang xảy ra trong một video, chẳng hạn.)
“Khi chúng tôi phát triển về khả năng tiếp cận, chúng tôi thực sự đang xây dựng một sản phẩm tốt hơn nhiều cho mọi người,” Ghosh nói.
Tuy nhiên, một số người có thể thích chú thích sống động hơn. Vào tháng Tư, công ty quảng cáo FCB Chicago đã ra mắt một nền tảng do AI cung cấp có tên là Caption với ý định, sử dụng hoạt hình, màu sắc và kiểu chữ biến để truyền tải cảm xúc, giai điệu và nhịp độ. Màu sắc văn bản riêng biệt đại diện cho các dòng của các ký tự khác nhau và các từ được tô sáng và đồng bộ hóa với bài phát biểu của diễn viên. Thay đổi kích thước và trọng lượng giúp chuyển tiếp việc ai đó đang nói, cũng như ngữ điệu của họ. Nền tảng nguồn mở có sẵn cho các hãng phim, công ty sản xuất và nền tảng phát trực tuyến để thực hiện.
FCB hợp tác với Hiệp hội điều trần Chicago để phát triển và kiểm tra các biến thể chú thích với những người bị điếc và khó nghe. Bruno Mazzotti, giám đốc sáng tạo điều hành tại FCB Chicago, cho biết kinh nghiệm của chính ông được nuôi dưỡng bởi hai cha mẹ điếc cũng giúp định hình nền tảng.
“Chú thích khép kín là một phần của cuộc sống của tôi; đó là một yếu tố quyết định của những gì chúng tôi sẽ xem như một gia đình”, Mazzotti nói. “Có đặc quyền thính giác, tôi luôn có thể chú ý khi mọi thứ không hoạt động tốt”, anh lưu ý, giống như khi chú thích bị tụt lại phía sau đối thoại hoặc khi văn bản bị xáo trộn khi nhiều người nói ngay lập tức. “Mục tiêu chính là mang lại nhiều cảm xúc, nhịp độ, giọng điệu và bản sắc loa cho mọi người.”
Chú thích với ý định là một nền tảng sử dụng hoạt hình, màu sắc và kiểu chữ khác nhau để truyền đạt giai điệu, cảm xúc và nhịp độ.
Cuối cùng, Mazzotti cho biết, mục tiêu là cung cấp nhiều tùy chọn tùy chỉnh hơn để người xem có thể điều chỉnh cường độ chú thích. Tuy nhiên, cách tiếp cận hoạt hình đó có thể quá mất tập trung đối với một số người xem và có thể khiến họ khó theo dõi những gì đang xảy ra trên màn hình. Cuối cùng nó sôi sục theo sở thích cá nhân.
“Điều đó không có nghĩa là chúng ta nên từ chối một cách rõ ràng các phương pháp đó”, Christian Vogler, giám đốc chương trình truy cập công nghệ tại Đại học Gallaudet cho biết. “Nhưng chúng ta cần nghiên cứu kỹ chúng với người xem khiếm thính và khiếm thính để đảm bảo rằng họ là một lợi ích ròng.”
Không dễ dàng sửa chữa
Mặc dù có những hạn chế hiện tại, AI cuối cùng có thể giúp mở rộng sự sẵn có của chú thích và cung cấp tùy chỉnh lớn hơn, Vogler nói.
Chế độ nhận tự động của YouTube là một ví dụ về cách thức, mặc dù bắt đầu khó khăn, AI có thể giúp nhiều nội dung video có thể truy cập được nhiều hơn, đặc biệt là khi công nghệ được cải thiện theo thời gian. Có thể có một tương lai trong đó các chú thích được điều chỉnh theo các cấp độ và tốc độ đọc khác nhau. Thông tin không nói cũng có thể trở nên mô tả hơn, để thay vì các nhãn chung như “nhạc đáng sợ”, bạn sẽ có thêm chi tiết truyền đạt tâm trạng.
Nhưng đường cong học tập là dốc.
“Chú thích AI vẫn hoạt động tồi tệ hơn những người chú thích tốt nhất của con người, đặc biệt là nếu chất lượng âm thanh bị xâm phạm, điều này rất phổ biến trong cả TV và phim ảnh”, Vogler nói. Ảo giác cũng có thể phục vụ các chú thích không chính xác mà cuối cùng cô lập người xem khiếm thính và khó nghe. Đó là lý do tại sao con người nên vẫn là một phần của quá trình chú thích, ông nói thêm.
Những gì có thể sẽ xảy ra là việc làm sẽ thích nghi, Deborah Fels, giám đốc Trung tâm thiết kế và truyền thông toàn diện tại Đại học Toronto Metropolitan cho biết. Chú thích của con người sẽ giám sát lao động một thời mà AI sẽ đưa ra, cô dự đoán.
“Vì vậy, bây giờ, chúng tôi có một loại công việc khác cần thiết trong chú thích,” Fels nói. “Con người tốt hơn nhiều trong việc tìm ra lỗi và quyết định làm thế nào để sửa chúng.”
Và trong khi AI để chú thích vẫn là một công nghệ non trẻ, giới hạn trong một số ít các công ty, nhưng điều đó có thể sẽ không xảy ra lâu dài.
“Tất cả họ đều đi theo hướng đó,” Fels nói. “Đó là vấn đề thời gian – và không nhiều thời gian.”
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.