Apple, Nvidia, và nhiều công ty lớn vướng bê bối đào tạo AI bằng các nguồn YouTube gây tranh cãi

Apple, Nvidia, và nhiều công ty lớn vướng bê bối đào tạo AI bằng các nguồn YouTube gây tranh cãi

Ngày đăng: 19/07/2024 09:37

Nhiều công ty công nghệ lớn, bao gồm Apple, Nvidia, Salesforce và Anthrophic, đang vướng vào một cuộc tranh cãi mới liên quan đến dữ liệu đào tạo AI. Theo báo cáo do ProofNews công bố, tập dữ liệu được các công ty này sử dụng để đào tạo các mô hình AI nội bộ của họ bao gồm phụ đề từ video YouTube.

Tập dữ liệu có tiêu đề "YouTube Subtitles", được tạo bởi EleutherAI và xuất bản vào năm 2020. Bên trong bộ dữ liệu là phụ đề từ 173.536 video YouTube được tải xuống từ hơn 48.000 kênh khác nhau.

Vấn đề nằm ở chỗ tập dữ liệu dường như đã đi ngược lại các điều khoản và điều kiện của YouTube, đó là cấm truy cập video bằng "phương tiện tự động". Theo ProofNews, YouTube Subtitles là tập dữ liệu đào tạo có dung lượng 5,7 GB (489 triệu từ) và bao gồm phụ đề từ hơn 12.000 video đã bị xóa khỏi nền tảng. Đáng chú ý, trong tập dữ liệu này có phụ đề video của nhiều nhà sáng tạo nội dung nổi tiếng trên YouTube, với lượng người đăng ký đông đảo

Đào tạo AI bằng các nguồn YouTube

Trên thực tế, tập dữ liệu “YouTube Subtitles” này thuộc một nhóm có tên "The Pile", bao gồm một số tập dữ liệu đào tạo khác. Hầu hết các bộ dữ liệu của Pile đều mở cho bất kỳ ai có đủ dung lượng và khả năng tính toán để truy cập.

Các công ty được nêu tên đã không trả lời yêu cầu bình luận của báo chí về những phát hiện và cáo buộc về việc sử dụng dữ liệu đào tạo phép. ProofNews đã tìm kiếm thông qua các bài đăng trực tuyến và sách trắng để tìm bằng chứng và xác định tài liệu sáng tạo của ai đã được sử dụng để đào tạo các mô hình AI cụ thể nào. Tuy nhiên, rất khá để tạo danh sách đầy đủ các công ty sử dụng bộ dữ liệu này, vì các công ty AI thường không tiết lộ dữ liệu họ sử dụng để đào tạo mô hình.

Marques Brownlee, một trong những nhà sáng tạo có nội dung bị sử dụng trái phép cho biết anh đã trả phí để sử dụng tính năng tạo bản ghi phụ đề trên YouTube. Vì vậy, việc các công ty sử dụng loại dữ liệu này mà không xin phép hay trả phí là một hành vi “vi phạm trắng trợn”.

Lưu ý rằng Apple và các công ty công nghệ khác không tự download phụ đề mà đã đào tạo các mô hình AI của họ bằng cách sử dụng phụ đề đó. Tuy nhiên, hành động này là một ví dụ về những hậu quả không mong muốn của AI. Một số nhà sáng tạo nói rằng họ không chắc chắn về khả năng AI có thể được sử dụng để bắt chước nội dung của họ trong tương lai.

Những tin tức khác

Danh mục tin tức

LIÊN LẠC - TƯ VẤN

HOTLINE HÀ NỘI
0911 047 055
HOTLINE SÀI GÒN
0911 533 299

Trụ sở Hà Nội - Showroom - Bảo hành:
• Địa chỉ: 44C Ngõ 89 Tứ Liên, P. Tứ Liên, Q. Tây Hồ, Hà Nội
• Điện thoại: (024) 3514.9887 - 3514 9905 (Hotline Hà Nội: 0911 047 055)
• Email: sales@fastest.com.vn

CN TP.HCM - Showroom - Bảo hành:
• Địa chỉ: 488/15B Cộng Hòa, Phường 13, Q. Tân Bình, TP.HCM
• Điện thoại: (028) - 3948 3536 - 3948 3537 (Hotline Sài Gòn: 0911 533 299)
• Email: sales@fastest.com.vn

Giới thiệu về FASTEST

FASTEST - Thành lập từ 2004 với niềm đam mê công nghệ cao. Bắt đầu với việc sử dụng Ni Tơ lỏng để Ép Xung cho CPU. Dần Dần đi sâu vào hàng chuyên dụng và kể từ đó đã tạo nên FASTEST ngày hôm nay. Chuyên cung cấp giải pháp công nghệ thông tin cho các Doanh Nghiệp tại Việt Nam và cả một số nước trong khu vực Đông Nam Á.

Xem thêm

CÔNG TY CỔ PHẦN ANH ĐỨC

Giấy chứng nhận đăng ký kinh doanh CTCP số: 0103005889 – Ngày 16/11/2004 - MST: 0101 592 592

CÔNG TY CỔ PHẦN ANH ĐỨC

Trụ sở Hà Nội

Chi nhánh TP. HCM

Supermicro Server

Dell Server

HPE Server

Nvidia Server

ASUS SERVER

AI SEVER

Storage SEAGATE (Enterprise Data Solutions)

Storage HP

Storage DELL

For Content Creators

For Engineering

Chassis

Mainboard Supermicro

Mainboard Asus

CPU INTEL

HDD Server

SSD Server

Ram Server

Card VGA

CARD RAID

Add-on Card

Deep Learning / AI Solutions

Card Mạng

Workstation for AI