Cái khó của dịch phụ đề

Nếu dịch web hoặc dịch PDF, sách vở nói chung người ta ít lo lắng về vấn đề tính thời điểm thì dịch phụ đề phim, nhạc, vlog, v.v.. (video nói chung) gặp một trở ngại rất lớn là phải khớp thời gian (timing) cho đúng.

Một câu trong dịch các file tĩnh như web có thể chuyển từ câu thứ hai lên trước câu thứ nhất cho thuận tai, đúng cách nói của người Việt, nhưng nếu chúng ta chuyển thoại ở thời điểm X thay thế thoại cho thời điểm Y thường là lỗi nặng khi làm với phụ đề, kể cả đấy là một người thoại (câu của cùng một người); nếu tráo nhầm thoại của người khác vào thì khỏi còn thanh minh được gì nữa! Đấy là một phần lý do công cụ dịch tự động trên YouTube có kiểu dịch rất khó chịu là dịch gần như ‘liên thanh’, nhả ra theo từng từ (để đảm bảo timing tối đa).

Dịch phụ đề còn khó ở chỗ, số lượng ký tự, từ tiếng Việt thường nhiều hơn hẳn số lượng tương ứng trong tiếng Anh cho cùng một ý diễn đạt. Hệ quả là nếu người nói nói nhanh, việc đọc phụ đề hoàn chỉnh trở nên khó khăn cho người xem (bạn chắc hẳn có nhiều kinh nghiệm trong chuyện này khi phải tạm dừng video để đọc hết phụ đề phải không?).

Vậy là dịch phụ đề [E1, E2, E3,.., E10] / tiếng Anh, để khớp timing người ta sẽ phải triển khai nó chính xác thành [V1, V2, V3,…, V10] / tiếng Việt. Trong đó số 1 đến 10 là các index, thứ tự của thoại được nói ra trong video.

Tức là mỗi phần từ E1 cho đến E10 sẽ phải dịch tương ứng bằng V1 cho đến V10 (đúng thời gian và đúng thứ tự). Đồng thời sẽ phải cố gắng để các Vx dịch sao cho ngắn gọn mà vẫn đủ ý trong trường hợp nó dài so với Ex (mà chuyện này lại thường xảy ra!).

Vì cấu trúc ngữ pháp nên việc Ex = Vx hoàn toàn là điều không thường xuyên xảy ra (chỉ trừ trong một ý trọn vẹn), nhưng mấu chốt ở đây là ranh giới phải được đảm bảo.

Ranh giới này có 2 cái:

  • Ex của người nói nào thì Vx sẽ phải của người nói ấy. Tức là dù Ex không giống hoàn toàn Vx thì nó phải của cùng người nói để tránh truyền đạt sai thông tin.
  • Ex và Vx phải nằm trong cùng một ý diễn đạt. Ví dụ E1 + E2 + E3 là một ý, thì V1 + V2 + V3 phải là cùng một ý đó, cho dù V1 có chút khác biệt với E1 (tương tự cho các V2, E2 và V3, E3) do việc sắp xếp câu bản dịch cho tự nhiên.

Nhưng nếu một công cụ dịch máy chỉ có đầu vào là một chuỗi văn bản, và trong chuỗi đó có sự trao đổi tranh luận khá nhanh qua lại giữa hai hoặc nhiều người thì dẫn đến một tình trạng công cụ rất dễ nhầm lẫn thoại giữa 2 người khác nhau. Người biên tập phụ đề sẽ có thêm ngữ cảnh hình ảnh, âm thanh nên sẽ điều chỉnh được vấn đề này.

Nếu thoại tương đối dài, không bị cắt quá vụn, công cụ dịch máy có nhiều ngữ cảnh hơn để phân biệt người này với người kia, và rủi ro thấp hơn đáng kể ‘râu ông nọ cắm cằm bà kia‘.

Văn bản như sách truyện có cách trình bày chuẩn mực (để phân biệt ai nói) nên dịch máy ít gặp vấn đề hơn.

Các công cụ dịch tự động phụ đề thường làm việc trên phụ đề cũng được tạo tự động từ phiên bản âm thanh! và hiện trên YouTube họ không bổ sung thêm thông tin người nói mà chỉ tạo ra chuỗi văn bản tương ứng với chuỗi âm thanh. Nói cách khác: Thông tin đã bị hao hụt!

Điều này một lần nữa dẫn đến bài toán, về lý thuyết có thể dịch hay hơn bằng cách để E1 + E2 + E3 = V1 + V2 + V3, nhưng không cần E1 = V1, E2 = V2, E3 = V3; nhưng cơ sở tiền đề làm điều đó là ranh giới người nói khó xác định chính xác 100% trong các câu thoại ngắn, nhanh và kết quả là để chắc ăn nhất (vì chỉ cần sai thứ tự một cái, nó sẽ tạo thành chuỗi gãy vỡ domino cho toàn phần còn lại), công cụ dịch máy thiếu ngữ cảnh sẽ dịch theo nội bộ từng phát ngôn (index) và cố điều chỉnh cấu trúc chỉ trong nội bộ này, chỉ khi rất chắc chắn (một câu dài mà nó biết chắc là thuộc cùng một ý, một người nói) thì mới điều chỉnh nhẹ các index (tức là lúc này E1 khác V1, E2 khác V2, E3 khác V3 để bản dịch hay hơn).

Tóm lại việc tái tạo trong khi thiếu thông tin chắc chắn không hoàn hảo!

Vậy thì cung cấp thêm ngữ cảnh cho công cụ dịch máy!

Chắc chắn rồi, đây sẽ phải là hướng phải đi nếu muốn dịch máy tốt hơn. Nhưng trở ngại về chi phí sẽ giới hạn lựa chọn này. Khả năng phân tích video, audio của AI nói chung đã rất tốt, nhưng chi phí còn cao. Giải pháp thêm ngữ cảnh audio hiện tại chấp nhận được trên những video không quá dài, do chi phí phát sinh vừa phải hơn.

Ngữ cảnh thiếu còn tạo ra một vấn đề tương đối đặc thù trong tiếng Việt: Đại từ nhân xưng.

Tiếng Anh sẽ nói I/you nhưng tiếng Việt để phù hợp văn hóa không thể luôn dịch là Tôi/bạn được. Ví dụ trong cuộc trao đổi giữa một người trẻ và một người già, công cụ dịch tốt sẽ phải nhận biết được và chuyển I thành ‘cháu’, và chuyển you thành ‘ông/bà’.

Đại từ nhân xưng không chỉ phụ thuộc tuổi tác, nó còn phụ thuộc giới tính! you có thể là ông, chú, mà cũng có thể là bà, cô.

Ở một chừng mực nào đó công cụ dịch dựa trên văn bản thuần túy có thể phân tích được sự chênh lệch tuổi tác hoặc giới tính thông qua các tín hiệu trong văn bản. Nhưng các tín hiệu đó không phải lúc nào cũng có hoặc nếu có thì không phải lúc nào cũng rõ ràng.

Nếu công cụ ‘xem’ trực tiếp video, nó chắc chắn đủ ngữ cảnh để phân biệt tuổi và giới và sẽ dùng được đại từ nhân xưng chuẩn xác hoàn toàn.

Một lần nữa giải pháp bù đắp nhưng vẫn hao hụt thông tin là cung cấp thêm âm thanh cũng chưa chắc đảm bảo 100% về khả năng ước tính giới/tuổi (nhất là tuổi).

Do vậy dịch máy phụ đề trong bối cảnh phụ thuộc hoàn toàn vào văn bản đầu vào sẽ dịch ổn với thoại trao đổi ít người, chẳng hạn như vlog một người nói, hoặc phóng sự hai, ba người. Nó sẽ cho kết quả tệ hơn (đặc biệt về mặt xưng hô) nếu dịch trong bối cảnh nhiều nhân vật, ví dụ như phim truyện.

Giải pháp bù đắp thông tin thêm bằng file âm thanh sẽ giúp ích được khá lớn, đặc biệt ở khía cạnh ranh giới người nói (ai đang nói?) nhưng sẽ không triệt để được các vấn đề khác (tuổi/giới).


Tại sao dịch tương đối cứng theo từng index vẫn đủ tốt?

Trên thực tế việc dịch phụ đề dựa hoàn toàn vào văn bản đầu vào vẫn cho kết quả khá tốt mặc dù thiếu thông tin đầy đủ (hình ảnh, âm thanh). Việc dịch chính xác ý cốt lõi theo từng index loại bỏ hoàn toàn nguy cơ dịch lộn, dịch nhầm người nói là ưu điểm đầu tiên & quan trọng nhất (cơ chế timing). Nhưng nếu cơ chế này cũng áp dụng với dịch sách (chẳng hạn dịch từng câu trong sách theo đúng thứ tự rồi tạo thành bản dịch đầy đủ) thì kết quả sẽ không mấy thú vị, nhưng tại sao với thoại lại không tệ như vậy?

  • Phần lớn video, các cảnh là trao đổi giữa chỉ một vài nhân vật (giảm thiểu rắc rối về xưng hô, ranh giới).
  • Thoại không phải lúc nào cũng gấp gáp, quá vụn. Các thể loại như nói chuyện trước đám đông, vlog, hướng dẫn hay thậm chí cả phỏng vấn thì phần lớn thoại tương đối dài, dễ dàng phân biệt ranh giới (giúp cho dịch hay hơn khi có thể san sẻ ý nghĩa giữa các index trong bản dịch).
  • Các ý trong thoại có mức độ độc lập cao hơn (giúp việc diễn giải ý nghĩa dễ hơn, và đọc phụ đề tốt hơn). Nếu sách, PDF, web,.. văn bản thường được liên kết với nhau với độ chắc chắn cao và lan tỏa (tức là ý ở phần đầu có khả năng liên kết sâu với ý ở phần giữa, cuối) thì thoại có mức độc lập nhiều hơn hẳn. Cuộc trao đổi của hai người có thể dàn trải ra rất nhiều ý và mỗi ý thường không móc nối quá sâu với các ý khác. Lý do cho điều này phương thức thoại là trôi thông tin (dĩ nhiên vẫn nhớ được nhưng không thể rất chi tiết), trong khi văn bản tĩnh như web, ta có thể kéo lên kéo xuống đọc lại đoạn nào đó. Văn bản tĩnh có khả năng tạo ra một nội dung rất phức tạp (nhất là sách) vì nó biết người đọc có thể quay trở lại bất cứ lúc nào, phần nào khi họ muốn. Thoại thì không như thế, tất cả phụ thuộc vào trí nhớ của người nghe, ngoài ra họ không thể liên tục tạm dừng thoại để đào bới, phân tích các câu thoại trước đây. Và do vậy thoại có xu hướng tạo ra các thông tin đơn giản, dễ hiểu, dễ nhớ hơn, và tương đối độc lập (để khỏi phải truy lại chính xác cái câu 30 phút trước đây người kia nói).
  • Bản chất của dịch phụ đề là ‘ý trong thời gian (timing)’, còn bản chất của dịch sách/văn bản tĩnh nói chung là ‘ý trong không gian (sự liên kết)’.

Cải tiến thế nào?

Như phân tích trước đó, không thể có thông tin đầy đủ từ thông tin thiếu hụt.

Dịch máy phụ đề sẽ cải tiến lên mức cao nhất khi nó có cả thông tin về hình ảnh + âm thanh và có khả năng phân tích chúng.

Nếu gặp vấn đề chi phí, các công cụ nên bổ sung âm thanh như một giải pháp bù đắp đáng kể, nhất là trong các bối cảnh có nhiều nhân vật (vì lúc này ranh giới sẽ bị nhiễu tương đối nhiều trong văn bản thuần túy). Ngoài ra có thêm file âm thanh tuy không phải là giải pháp triệt để khắc phục vấn đề đại từ nhân xưng, nhưng thường nó sẽ cho cải thiện khá nhiều.

Bản chất timing của dịch phụ đề không bao giờ thay đổi được, nhưng nếu có ranh giới chắc chắn hơn (tức là ai đang nói) thì việc linh động, san sẻ ý giữa các index là hoàn toàn khả thi => câu dịch sẽ hay hơn thay vì bị bó cứng nếu chỉ thuần túy dựa vào văn bản đầu vào.