Tưởng tượng máy AI có thể tạo ra bức ảnh chân dung chính xác chỉ bằng giọng nói của bạn.

Những bức ảnh được tạo ra với sự trợ giúp của ánh sáng, nhưng nếu chân dung của mọi người có thể được tạo ra với âm thanh của giọng nói của họ thì sao? Các nhà nghiên cứu AI đang nghiên cứu để tái tạo lại khuôn mặt của một người chỉ bằng một đoạn ghi âm ngắn của người đó nói, và kết quả thu được rất ấn tượng.

Các nhà khoa học trí tuệ nhân tạo tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) của MIT lần đầu tiên công bố về một thuật toán AI gọi là Speech2Face trong một bài viết vào năm 2019.

“Chúng ta có thể suy ra bao nhiêu về ngoại hình của một người từ cách họ nói?” phần tóm tắt đọc. “Chúng tôi nghiên cứu nhiệm vụ tái tạo lại hình ảnh khuôn mặt của một người từ đoạn ghi âm ngắn của người đó đang nói.”

Một AI với kết quả kỳ lạ

Ðầu tiên, các nhà nghiên cứu đã thiết kế và tạo một mạng lưới thần kinh sâu bằng cách sử dụng hàng triệu video từ Youtube và Internet cho thấy nhiều người nói chuyện. Trong quá trình này, AI đã học được mối tương quan giữa âm thanh của giọng nói và ngoại hình của người nói. Những mối tương quan này cho phép nó đưa ra những phỏng đoán tốt nhất về độ tuổi, giới tính, và sắc dân của người nói.

Xem thêm:   Chỉnh độ phơi sáng

Quá trình tạo ra không có sự dính líu của con người, vì các nhà nghiên cứu không cần phải dán nhãn cho bất kỳ bộ dữ liệu nào – AI chỉ đơn giản là được cung cấp một lượng lớn video và có nhiệm vụ tìm ra mối tương quan giữa các đặc điểm giọng nói và đặc điểm khuôn mặt.

Sau khi được hình thành, AI đã rất giỏi trong việc tạo ra các bức chân dung chỉ dựa trên các bản ghi âm giọng nói nhìn hao hao giống với ngoại hình thật sự của người nói.

Ðể phân tích thêm độ chính xác của việc tái tạo khuôn mặt, các nhà nghiên cứu đã xây dựng một “bộ giải mã khuôn mặt” để tạo ra một bản tái tạo tiêu chuẩn cho khuôn mặt của một người từ khung hình tĩnh trong khi bỏ qua “các biến thể không liên quan” như tư thế và ánh sáng. Ðiều này cho phép các nhà khoa học dễ dàng so sánh các bản tái tạo giọng nói với các tính năng thực tế của người nói.

Một lần nữa, kết quả của AI rất gần với khuôn mặt thật trong một tỷ lệ lớn các trường hợp.

Những yếu điểm và vấn đề đạo đức

Có một số trường hợp AI gặp khó khăn trong việc hình dung người nói trông như thế nào. Các yếu tố như trọng âm, ngôn ngữ, và cao độ giọng nói là những yếu tố gây ra “sự không khớp giữa giọng nói và khuôn mặt” trong đó giới tính, tuổi tác hoặc sắc dân không chính xác.

Những trường hợp như: không khớp giới tính, không khớp tuổi tác (từ già thành trẻ), không khớp sắc dân, không khớp tuổi tác (từ trẻ thành già).

Những người có giọng cao (bao gồm cả các bé trai) thường được coi là nữ, trong khi những người có giọng thấp được coi là nam. Một người đàn ông Á châu nói tiếng Anh dẫn đến ngoại hình kém Á châu hơn so với khi anh ta nói tiếng Trung Quốc.

Khuôn mặt tái tạo của một người đàn ông Á châu nói tiếng Anh (trái) so với cùng một người đàn ông nói tiếng Trung (phải).

Nhiếp ảnh gia Thomas Smith viết: “Về mặt nào đó, hệ thống này hơi giống với một ông già kỳ thị,” “Có cảm giác nó luôn có thể nói lên chủng tộc hoặc gốc gác dân tộc của một người dựa trên cách họ phát âm – nhưng nó thường sai.”

Xem thêm:   Chỉnh độ phơi sáng

Các nhà nghiên cứu lưu ý rằng có những cân nhắc về đạo đức xung quanh dự án này.

Một vài áp dụng thực tế

Một ứng dụng của AI này có thể có trong thế giới thực là tạo ra hình ảnh hoạt hình của một người trên điện thoại hoặc cuộc gặp gỡ bằng video khi danh tính của người đó không xác định và họ không muốn chia sẻ khuôn mặt thật của mình.

Cơ quan thực thi pháp luật có lẽ cũng có thể sử dụng AI để tạo ra một bức chân dung cho thấy kẻ tình nghi trông như thế nào nếu bằng chứng duy nhất là một đoạn ghi âm giọng nói. Tuy nhiên, các ứng dụng của chính phủ chắc chắn sẽ là chủ đề của rất nhiều tranh cãi và tranh luận liên quan đến quyền riêng tư và đạo đức.

Mặc dù tạo ra những bức chân dung chân thực và chính xác của mọi người chỉ từ giọng nói của họ là một khái niệm hấp dẫn và trước đây là thứ khoa học viễn tưởng, các nhà nghiên cứu không nhắm loại công nghệ đó như mục tiêu cuối cùng của thuật toán AI này.

AN