OpenAI đã sử dụng video YouTube để huấn luyện GPT-4

OpenAI đã sử dụng video YouTube để huấn luyện GPT-4

0 257

Các mô hình AI tạo ra cực kỳ ấn tượng nhưng chúng chỉ hoạt động tốt khi dữ liệu được đưa vào chúng. Giờ đây, người ta đã tiết lộ rằng OpenAI đã sử dụng video YouTube để đào tạo GPT-4 và YouTube cho biết điều đó trái với quy tắc của nền tảng.

Trong một báo cáo mới từ The New York Times , đã tiết lộ rằng OpenAI đã sử dụng “hơn một triệu” giờ bản ghi video YouTube để đào tạo GPT-4, mô hình AI thế hệ tiên tiến nhất hiện tại của nó.

Điều này được thực hiện bằng cách sử dụng một công cụ nội bộ có tên là “Whisper”, có thể phiên âm âm thanh từ các video trên YouTube, sau đó có thể được đưa vào đào tạo những gì sẽ trở thành GPT-4. Theo báo cáo, chủ tịch OpenAI Greg Brockman đã đích thân tham gia vào việc chọn video để sử dụng cho việc đào tạo AI, mặc dù một số nhân viên của OpenAI bày tỏ lo ngại rằng loại hành động này sẽ vi phạm các quy tắc của YouTube.

OpenAI rõ ràng tin rằng đây là “việc sử dụng hợp lý” các video có sẵn công khai, nhưng YouTube cho biết trong một tuyên bố với The Verge rằng “cả tệp robots.txt và Điều khoản dịch vụ của chúng tôi đều cấm việc lấy hoặc tải xuống nội dung YouTube trái phép”.

Giám đốc điều hành YouTube Neal Mohan cũng bày tỏ quan điểm tương tự trong cuộc thảo luận gần đây với Bloomberg về mô hình video của OpenAI, Sora, dự kiến ​​phát hành vào cuối năm nay . Theo điều khoản dịch vụ của YouTube, OpenAI không được phép thu thập video để đào tạo AI của mình.

Tuy nhiên, báo cáo cũng lưu ý rằng Google cũng đã làm điều tương tự trong việc đào tạo các mô hình AI được sử dụng trong Gemini.

Rõ ràng, công ty đã sử dụng bản ghi video YouTube tương tự để đào tạo AI. Báo cáo này cũng lưu ý rằng những thay đổi đối với điều khoản dịch vụ của Google đã cho phép công ty thu thập dữ liệu đào tạo từ các điểm dữ liệu hiển thị công khai khác trên các dịch vụ của mình, bao gồm các tệp Google Docs và Sheets công khai và thậm chí cả các bài đánh giá còn sót lại trên Maps. Người ta nói rằng, mặc dù Google biết OpenAI đang lấy dữ liệu từ YouTube nhưng công ty vẫn chưa hành động vì điều đó có thể dẫn đến phản ứng dữ dội đối với Google khi làm điều tương tự.

Các phương tiện tích cực để thu thập dữ liệu mới để đào tạo các mô hình nâng cao hơn có thể sẽ tiếp tục được sử dụng khi dữ liệu hiện có cạn kiệt. Viện nghiên cứu AI Epoch ước tính rằng tất cả dữ liệu hiện có có thể được sử dụng vào năm 2026, vì Google, OpenAI và các công ty khác đang sử dụng dữ liệu nhanh hơn tốc độ nó được tạo ra.