CÔNG TY CỔ PHẦN ANH ĐỨC

Leading Server & WorkStation Distributor-Solution

Trụ sở Hà Nội

O911 047 055

Chi nhánh TP. HCM

O911 533 299

Trang chủ > 
Apple, Nvidia, và nhiều công ty lớn vướng bê bối đào tạo AI bằng các nguồn YouTube gây tranh cãi

Ngày đăng: 19/07/2024 09:37

Nhiều công ty công nghệ lớn, bao gồm Apple, Nvidia, Salesforce và Anthrophic, đang vướng vào một cuộc tranh cãi mới liên quan đến dữ liệu đào tạo AI. Theo báo cáo do ProofNews công bố, tập dữ liệu được các công ty này sử dụng để đào tạo các mô hình AI nội bộ của họ bao gồm phụ đề từ video YouTube.

Tập dữ liệu có tiêu đề "YouTube Subtitles", được tạo bởi EleutherAI và xuất bản vào năm 2020. Bên trong bộ dữ liệu là phụ đề từ 173.536 video YouTube được tải xuống từ hơn 48.000 kênh khác nhau.

Vấn đề nằm ở chỗ tập dữ liệu dường như đã đi ngược lại các điều khoản và điều kiện của YouTube, đó là cấm truy cập video bằng "phương tiện tự động". Theo ProofNews, YouTube Subtitles là tập dữ liệu đào tạo có dung lượng 5,7 GB (489 triệu từ) và bao gồm phụ đề từ hơn 12.000 video đã bị xóa khỏi nền tảng. Đáng chú ý, trong tập dữ liệu này có phụ đề video của nhiều nhà sáng tạo nội dung nổi tiếng trên YouTube, với lượng người đăng ký đông đảo

Đào tạo AI bằng các nguồn YouTube

Trên thực tế, tập dữ liệu “YouTube Subtitles” này thuộc một nhóm có tên "The Pile", bao gồm một số tập dữ liệu đào tạo khác. Hầu hết các bộ dữ liệu của Pile đều mở cho bất kỳ ai có đủ dung lượng và khả năng tính toán để truy cập.

Các công ty được nêu tên đã không trả lời yêu cầu bình luận của báo chí về những phát hiện và cáo buộc về việc sử dụng dữ liệu đào tạo phép. ProofNews đã tìm kiếm thông qua các bài đăng trực tuyến và sách trắng để tìm bằng chứng và xác định tài liệu sáng tạo của ai đã được sử dụng để đào tạo các mô hình AI cụ thể nào. Tuy nhiên, rất khá để tạo danh sách đầy đủ các công ty sử dụng bộ dữ liệu này, vì các công ty AI thường không tiết lộ dữ liệu họ sử dụng để đào tạo mô hình.

Marques Brownlee, một trong những nhà sáng tạo có nội dung bị sử dụng trái phép cho biết anh đã trả phí để sử dụng tính năng tạo bản ghi phụ đề trên YouTube. Vì vậy, việc các công ty sử dụng loại dữ liệu này mà không xin phép hay trả phí là một hành vi “vi phạm trắng trợn”.

Lưu ý rằng Apple và các công ty công nghệ khác không tự download phụ đề mà đã đào tạo các mô hình AI của họ bằng cách sử dụng phụ đề đó. Tuy nhiên, hành động này là một ví dụ về những hậu quả không mong muốn của AI. Một số nhà sáng tạo nói rằng họ không chắc chắn về khả năng AI có thể được sử dụng để bắt chước nội dung của họ trong tương lai.

LIÊN LẠC - TƯ VẤN

HOTLINE HÀ NỘI
O911 047 055

 

HOTLINE SÀI GÒN

 
O911 533 299 

 

 


Trụ sở Hà Nội - Showroom - Bảo hành:
• Địa chỉ: 44C Ngõ 89 Tứ Liên, P. Tứ Liên, Q. Tây Hồ, Hà Nội
• Điện thoại: (024) 3514.9887 - 3514 9905 (Hotline Hà Nội: O911 047 055)
• Email: sales@fastest.com.vn

CN TP.HCM - Showroom - Bảo hành:
• Địa chỉ: 488/15B Cộng Hòa, Phường 13, Q. Tân Bình, TP.HCM
• Điện thoại: (028) - 3948 3536 - 3948 3537 (Hotline Sài Gòn: O911 533 299)
• Email: sales@fastest.com.vn