Bloomberg vừa đưa tin rằng OpenAI, Google và công ty truyền thông AI Moonvalley đang thanh toán cho các YouTuber để mua lại những đoạn video chưa sử dụng nhằm phục vụ việc huấn luyện các thuật toán AI của họ. “Video chưa sử dụng” ở đây đề cập đến nội dung chưa được công bố, với mức thanh toán khoảng từ 1-4 USD mỗi phút tùy thuộc vào chất lượng và định dạng video.

Mục lục

Cơ Hội Mới Cho Các Nhà Sáng Tạo Nội Dung

Không chỉ YouTuber mà các nhà sáng tạo trên TikTok và Instagram cũng đang khai thác cơ hội này như một cách để đa dạng hóa thu nhập ngoài các hợp đồng quảng cáo với thương hiệu. Điều này cho thấy sự chuyển mình trong lĩnh vực nội dung số, nơi các nhà sáng tạo ngày càng tìm kiếm nguồn thu nhập mới.

Những Vấn Đề Pháp Lý Liên Quan Đến AI

Sự phát triển này diễn ra trong bối cảnh các nền tảng công nghệ lớn từng bị chỉ trích vì đã huấn luyện các ứng dụng AI của họ bằng cách sử dụng nội dung mà không có sự đồng ý hoặc giấy phép. Một vụ kiện gần đây được đệ trình bởi một nhóm tác giả tại Mỹ đã cáo buộc CEO Meta Mark Zuckerberg phê duyệt việc sử dụng các phiên bản “bị đánh cắp” của sách có bản quyền để huấn luyện các mô hình AI. Meta đã sử dụng tập dữ liệu từ dự án chia sẻ file LibGen (đang đối mặt với các vụ kiện pháp lý về vi phạm bản quyền) cho mục đích huấn luyện.

Trong tháng 7 năm 2024, một số gã khổng lồ AI khác bao gồm Apple, Nvidia, Salesforce và Anthropic cũng gặp rắc rối khi sử dụng bản ghi từ hơn 170.000 video YouTube mà không có sự đồng ý của các nhà sáng tạo và vi phạm điều khoản dịch vụ của YouTube. Hành vi này đã bị gọi là “hành vi người hưởng lợi miễn phí,” khi các tổ chức như OpenAI và Microsoft sử dụng nội dung mà không bồi thường và vi phạm luật bản quyền.

Thỏa Thuận Với Các Tổ Chức Tin Tức

Để giải quyết những vấn đề này, OpenAI và Meta đã ký kết các thỏa thuận với các tổ chức tin tức và các hãng nhạc lớn để tiếp cận nội dung của họ. Mặc dù Google đã triển khai các tính năng cho phép các nhà xuất bản trang web từ chối việc thu thập dữ liệu, nhưng vẫn còn nhiều lo ngại về việc thu thập và lập chỉ mục dữ liệu từ các trang web.

Cảnh Báo Về Việc Thiếu Dữ Liệu Huấn Luyện AI

Khi các công ty gia tăng tối đa hóa lợi nhuận từ cơn sốt AI, các chuyên gia hiện đang cảnh báo về nguy cơ cạn kiệt dữ liệu cho mục đích huấn luyện AI. CEO OpenAI Sam Altman và gần đây là Elon Musk đã bày tỏ lo ngại về việc kiến thức của con người dành cho các mục đích này đang đến gần mức độ cạn kiệt. Một nghiên cứu từ Data Provenance cho thấy sự gia tăng hạn chế trong việc thu thập và huấn luyện các mô hình AI thông qua dữ liệu từ các nguồn web.

Mặc dù vậy, các công ty vẫn có thể khám phá các chiến thuật thay thế cho việc huấn luyện AI giữa lúc các hạn chế gia tăng. Musk tin rằng dữ liệu tổng hợp (được tạo ra thông qua AI) có thể “mài giũa” các hệ thống mới và huấn luyện AI. Tuy nhiên, quá trình này cũng tiềm ẩn nhiều rủi ro như an ninh mạng, sự lan truyền thiên kiến và gia tăng sai sót do ảo giác.

Những Câu Hỏi Vẫn Chưa Có Lời Giải

Trong khi hầu hết các thỏa thuận đều cấm các công ty AI tạo ra bản sao kỹ thuật số hoặc bắt chước các cảnh quay chính xác, vẫn còn nhiều câu hỏi khác cần được làm rõ. MediaNama đã liên hệ với OpenAI, Moonvalley và Google để hỏi đáp và đang chờ phản hồi từ họ.

Một số câu hỏi được đặt ra bao gồm:

Làm thế nào tổ chức của bạn đảm bảo rằng nội dung video có giấy phép phù hợp với các hướng dẫn đạo đức trong việc huấn luyện AI?
Những biện pháp nào được thực hiện để xác minh tính nguyên bản của nội dung video do các nhà sáng tạo cung cấp nhằm tránh tranh chấp bản quyền?

Chúng tôi sẽ cập nhật câu chuyện ngay khi nhận được phản hồi từ họ.

Tóm lại

Sự phát triển mới này cho thấy ngành công nghiệp AI đang bước vào một giai đoạn mới, nơi mà sự cộng tác với các nhà sáng tạo nội dung trở thành một yếu tố quan trọng trong việc đảm bảo nguồn dữ liệu cho huấn luyện AI.