Tick Tok đang gây bão trên toàn thế giới. Theo Sensor Tower, ứng dụng video ngắn TikTok đã được tải xuống hơn 2 tỷ lần trên App Store và Google Play. Điều gì ma thuật đằng sau ứng dụng giật gân này khiến bạn bị ám ảnh đến vậy? Đừng ngạc nhiên, câu trả lời sẽ được giải đáp trong bài viết này.
Nội dung bài viết
- Giới thiệu chung về TikTok
- Thuật toán đề xuất từ TikTok ( Dữ liệu, tính năng, đối tượng, thuật toán )
- Quy trình đề xuất từ TikTok
Có ai không thích những video vui nhộn về những chú mèo hay chú chó? Đặc biệt trong thời gian hạn chế đi lại toàn cầu do dịch bệnh. Trên TikTok có rất nhiều video thú vị như vậy.
Nhưng điều này chỉ giải thích một phần câu chuyện thành công chưa từng có của TikTok. Trong vòng chưa đầy 2 năm, nó đã chuyển từ một ứng dụng của một cộng đồng người hâm mộ thành một ứng dụng lan truyền với gần 800 triệu người dùng hoạt động hàng tháng vào năm 2020. Tổng cộng, các video TikTok được gắn thẻ #coronavirus đã được xem 53 tỷ lần.
TikTok trở thành ứng dụng được tải nhiều nhất tại Mỹ vào tháng 1 năm 2020
Tổng số lượt tải ứng dụng TikTok trên toàn cầu
TikTok trở thành ứng dụng nổi tiếng với những bài hát lan truyền và video vui nhộn. Người dùng trung bình dành tới 52 phút mỗi ngày sử dụng TikTok. Trong khi đó thời gian trung bình sử dụng các ứng dụng Snapchat là 26 phút, Instagram là 29 phút và Facebook là 37 phút.
Báo cáo từ Oberlo
Để có được thành công này do TikTok có đầy đủ các loại video hài hước, hài kịch, nhảy múa và tài năng. Một mặt khác nó có công cụ đề xuất video tốt. Khiến cho người xem bị giữ chân lại và tiếp tục theo dõi những video tiếp theo mà không cần phải tìm kiếm.
Những đề xuất video mới dài như vô tận đã làm cho người dùng bị thu hút. Làm cho họ quên đi thời gian thực tại. Họ sẽ tiêu tốn nhiều thời gian trên TikTok, mà cảm giác như sử dụng TikTok có 5 phút nhưng đã tiêu tốn đến 1 giờ trong thời gian thực.
Bài viết này sẽ thảo luận về cách TikTok sử dụng học máy để phân tích người dùng về sở thích và sở thích của người dùng thông qua các tương tác sau đó hiển thị nguồn cấp dữ liệu được cá nhân hóa cho những người dùng khác nhau.
Công cụ đề xuất không phải là một phát triển mới, nó đã được áp dụng rất nhiều trên các mạng xã hội khác. Thêm vào đó nó còn có hệ thống nhận diện hình ảnh, khả năng đọc hiểu ngôn ngữ.
Tuy nhiên, công cụ đề xuất vẫn là một trong những hệ thống AI (trí tuệ nhân tạo) chiếm ưu thế có triển khai rộng rãi nhất trong hầu hết các dịch vụ và nền tảng trực tuyến. Công cụ đề xuất đã được áp dụng rộng rãi như việc đề xuất video trên Youtube, hay việc đề xuất gửi email tự động các sản phẩm bạn có thể thích trên Amazon.
Trên thực tế, theo tài liệu nghiên cứu được xuất bản bởi Gomez-Uribe và giám đốc sản phẩm của Netflix, Neil Hunt cho biết, hiệu quả tổng hợp của cá nhân hóa và các công cụ đề xuất đã tiết kiệm cho Netflix tựa hơn 1 tỷ đô la mỗi năm. Hơn nữa, 80% người đăng ký đang chọn video từ danh sách gợi ý tự động.
Mục lục
1. Giới thiệu công cụ đề xuất ( công cụ khuyến nghị)
Dưới đây là hai tài nguyên để bạn xây dựng một số kiến thức cơ bản cho công cụ đề xuất.
- Hướng dẫn toàn diện để xây dựng Công cụ đề xuất từ đầu [LINK]
- Công cụ đề xuất từ Andrew Ng [LINK] (mất một giờ để xem video)
Ngoài công cụ đề xuất cơ bản, công nghiệp hóa cần một thiết kế kiến trúc và phụ trợ mạnh mẽ để tích hợp. Dưới đây là một ví dụ chính.
Công cụ đề xuất – Được tạo bởi Catherine Wang
Một hệ thống thời gian thực phải có cơ sở dữ liệu vững chắc (để thu thập và lưu trữ) để hỗ trợ nhiều lớp trừu tượng (lớp thuật toán, lớp phục vụ và lớp ứng dụng) trên tất cả đó là giải quyết các vấn đề kinh doanh khác nhau.
2. Cấu trúc hệ thống đề xuất của TikTok
Người dùng TikTok là trung tâm của hệ thống đề xuất. Nói một cách đơn giản, TikTok sẽ chỉ đề xuất nội dung bạn yêu thích, từ điều chỉnh bắt đầu, đến đề xuất rõ ràng cho người dùng hoạt động.
Nếu bạn click xem video nhảy múa, nguồn cấp dữ liệu của bạn ban đầu sẽ được tùy chỉnh vào danh mục giải trí, thì cơ chế tiếp theo sẽ theo dõi hành vi của bạn để phân tích thêm, cuối cùng sẽ chỉ cung cấp các đề xuất chính xác cho bạn.
Quy trình làm việc
3 thành phần chính – Được tạo bởi Catherine Wang
Trong kiểu nguyên mẫu TikTok, có ba khối xây dựng chính,
1) Gắn thẻ nội dung,
2) Tạo hồ sơ người dùng và kịch bản người dùng
3) Đào tạo và phục vụ các thuật toán đề xuất.
Chúng ta sẽ thảo luận về từng người trong số họ trong nội dung sau đây.
2.1 Dữ liệu và tính năng
Trước hết, Dữ liệu. Nếu chúng tôi chính thức mô tả mô hình đề xuất, thì đó là một chức năng phù hợp với sự hài lòng của người dùng với Nội dung do người dùng tạo. Để cung cấp chức năng này đòi hỏi đầu vào của dữ liệu từ ba chiều.
Dữ liệu nội dung – TikTok là một nền tảng có nội dung lớn do người dùng tạo. Mỗi loại nội dung có đặc điểm của nó, hệ thống sẽ có thể xác định và phân biệt chúng cho một khuyến nghị đáng tin cậy.
Dữ liệu người dùng – Chúng bao gồm các nhãn quan tâm, nghề nghiệp, tuổi tác, giới tính, nhân khẩu học, v.v. Nó cũng bao gồm các tính năng tiềm ẩn từ phân cụm khách hàng dựa trên máy học.
Dữ liệu kịch bản – Dữ liệu này theo dõi kịch bản sử dụng và sự thay đổi tùy chọn của người dùng dựa trên các kịch bản khác nhau. Ví dụ: loại video mà người dùng muốn xem khi họ ở nơi làm việc, du lịch hoặc đi lại
Khi dữ liệu tương đối đã được thu thập, bốn loại tính năng được thiết kế quan trọng sẽ được dẫn xuất và đưa vào công cụ đề xuất.
Các tính năng tương quan: chúng biểu thị mối tương quan giữa các thuộc tính nội dung và thẻ người dùng, bao gồm đối sánh từ khóa, thẻ phân loại, đối sánh nguồn, thẻ chủ đề và các tính năng tiềm ẩn như khoảng cách vectơ giữa người dùng và nội dung.
Tính năng kịch bản người dùng: được thiết kế từ dữ liệu kịch bản bao gồm vị trí địa lý, thời gian trong ngày, thẻ sự kiện, v.v.
Tính năng xu hướng: chúng dựa trên tương tác của người dùng và thể hiện xu hướng toàn cầu, chủ đề nóng, từ khóa hàng đầu, chủ đề xu hướng, v.v.
Tính năng hợp tác: dựa trên kỹ thuật lọc cộng tác. Nó cân bằng giữa khuyến nghị hẹp (thiên vị) và khuyến nghị hợp tác (khái quát hóa). Chính xác hơn, nó sẽ không chỉ xem xét một lịch sử người dùng duy nhất mà còn phân tích các hành vi hợp tác của một nhóm người dùng tương tự (nhấp chuột, sở thích, từ khóa, chủ đề).
Mô hình sẽ dự đoán liệu nội dung có phù hợp với người dùng trong một kịch bản hay không bằng cách học hỏi từ các tính năng trên.
2.2. Mục tiêu vô hình
Trong mô hình được đề xuất, tỷ lệ nhấp, thời gian đọc, lượt thích, bình luận và đăng lại đều là những mục tiêu có thể định lượng. Bạn có thể sử dụng mô hình hoặc thuật toán để phù hợp với chúng sau đó đưa ra dự đoán một cách thuyết phục.
Tuy nhiên, các mục tiêu vô hình khác không thể được đánh giá bằng các chỉ số định lượng đó.
Ví dụ, để duy trì một cộng đồng lành mạnh và hệ sinh thái, TikTok đang nhắm đến việc loại bỏ nội dung liên quan đến bạo lực, lừa đảo, khiêu dâm, giảm cân quá mức và cân nhắc thực tế, nội dung chất lượng cao như tin tức.
Đối với mục tiêu này, một khung kiểm soát biên cần được xác định ngoài các mục tiêu mô hình có thể định lượng. (Hệ thống kiểm toán nội dung)
2.3 Thuật toán
Các mục tiêu đề xuất có thể được xây dựng thành một vấn đề máy học cổ điển. Sau đó, được giải quyết bằng các thuật toán bao gồm mô hình lọc cộng tác, mô hình hồi quy logistic, máy nhân tố, GBD và học sâu.
Một minh họa về lọc cộng tác
Một hệ thống khuyến nghị cấp công nghiệp đòi hỏi một nền tảng máy học linh hoạt và có thể mở rộng để xây dựng đường ống thử nghiệm để đào tạo các mô hình khác nhau một cách nhanh chóng. Sau đó xếp chúng để phục vụ trong thời gian thực. (ví dụ: kết hợp LR và DNN, SVM với CNN)
Ngoài thuật toán đề xuất chính, TikTok cũng cần đào tạo thuật toán phân loại nội dung và thuật toán lược tả người dùng. Dưới đây là một kiến trúc phân loại phân cấp để phân tích nội dung.
Cây phân loại phân cấp – Được tạo bởi Catherine Wang
Sử dụng cây phân loại giúp cho TikTok xác định được chính xác hơn nội dung. Qua mỗi lần phân loại sẽ xác định rõ ràng hơn được nội dung và tránh các sai lệch dữ liệu
2.4 Cơ chế đào tạo
TikTok sử dụng giao thức đào tạo trực tuyến thời gian thực, nó đòi hỏi ít tài nguyên tính toán hơn và cung cấp phản hồi nhanh. Đó là những điều quan trọng cho các sản phẩm mạng xã hội video như TikTok
Các hành vi và hành động của người dùng có thể được ghi lại ngay lập tức, sau đó phản hồi cho mô hình để phản ánh trên nguồn cấp dữ liệu tiếp theo. (ví dụ: khi bạn nhấp vào video mới, nguồn cấp dữ liệu của bạn sẽ nhanh chóng thay đổi dựa trên các hành động mới nhất của bạn)
Nhiều khả năng, TikTok đang sử dụng Storm Cluster để xử lý dữ liệu mẫu theo thời gian thực, bao gồm các lần nhấp, hiển thị, bộ sưu tập, lượt thích, nhận xét và chia sẻ.
Họ cũng xây dựng hệ thống hiệu suất cao của họ gồm kho lưu trữ mô hình và kho lưu trữ tính năng. Kho lưu trữ tính năng có thể bảo tồn và phục vụ mười triệu tính năng gốc. Và kho lưu trữ mô hình sẽ duy trì và cung cấp các mô hình.
Cơ chế đào tạo trực tuyến (Phiên bản đơn giản) – Được tạo bởi Catherine Wang
Quá trình đào tạo tổng thể là 1) máy chủ trực tuyến thu thập dữ liệu thời gian thực sau đó lưu trữ chúng vào Kafka, 2) Tiêu thụ dữ liệu Kafka và các tính năng sản phẩm, 3) Kho thu thập các tính năng mới và nhãn đề xuất để xây dựng bộ huấn luyện mới , 4) đường ống đào tạo trực tuyến giữ lại các tham số mô hình, cùng chúng vào kho mô hình, 5) cập nhật danh sách đề xuất phía khách hàng, nắm bắt phản hồi mới (hành động của người dùng) và lưu thông lại.
3. Quy trình công cụ đề xuất video của TikTok
TikTok không bao giờ tiết lộ thuật toán cốt lõi của nó cho công chúng hoặc cộng đồng công nghệ. Nhưng dựa trên thông tin được đăng tải thông qua công ty và những khám phá phát hiện bởi các chuyên viên máy tính sử dụng các kỹ thuật đảo ngược. Chúng ta có thể thấy quy trình công cụ đề xuất video TikTok như sau
Bước 0: Hệ thống kiểm toán kép cho nội dung do người dùng tạo (UGC)
Tại TikTok, có hàng triệu nội dung được người dùng tải lên mỗi ngày. Nội dung độc hại có thể dễ dàng tìm thấy các lỗ hổng trong hệ thống đánh giá máy duy nhất và đánh giá thủ công là không thực tế trong bối cảnh này. Do đó, bộ đôi đánh giá trở thành thuật toán chính của TikTok để sàng lọc nội dung video.
Đánh giá máy: Nói chung, mô hình Kiểm toán kép (dựa trên thị giác máy tính) có thể xác định hình ảnh và từ khóa video của bạn. Nó chủ yếu có hai chức năng chính: 1) xem xét liệu có vi phạm trong clip hay không và kiểm tra bản sao. Nếu nghi ngờ vi phạm, nội dung sẽ bị mô hình chặn lại và được gắn thẻ là màu vàng hoặc đỏ để xem xét của con người. 2) bằng cách trích xuất hình ảnh và khung hình chính từ video, thuật toán kiểm toán bộ đôi TikTok sẽ đánh giá xem video có phù hợp với các trích xuất trên cơ sở nội dung được lưu trữ lớn của nó. Sao chép sẽ được chọn và đưa ra lưu lượng truy cập thấp hơn và đặt ít trọng lượng hơn cho công cụ đề xuất.
Đánh giá thủ công: chủ yếu tập trung vào 3 lĩnh vực: Tiêu đề video, Hình thu nhỏ và Khung hình video. Đối với nội dung được gắn thẻ là đáng ngờ thông qua mô hình Duo-Audit, các kỹ thuật viên sẽ tự xem xét chúng. Nếu được xác định là vi phạm quy định, video sẽ bị xóa và tạm ngưng tài khoản.
Bước 1: Bắt đầu lạnh
Cốt lõi của cơ chế đề xuất TikTok từ là Kênh thông tin. Khi nội dung thông qua đánh giá bộ đôi kiểm toán, nó sẽ được đưa vào nhóm lưu lượng truy cập bắt đầu lạnh. Ví dụ: sau khi video mới của bạn vượt qua quá trình xem xét, TikTok sẽ chỉ định lưu lượng truy cập ban đầu cho 200 người dùng hoạt động 300300300, ở đó bạn có thể đạt được tới vài nghìn lần phơi sáng.
Trong cơ chế này, một người sáng tạo mới có thể cạnh tranh với một người có ảnh hưởng xã hội (người có thể có hàng chục nghìn người theo dõi), vì họ có cùng xuất phát điểm.
Bước 2: Cân dựa trên số liệu
Thông qua nhóm lưu lượng truy cập ban đầu, video có thể đạt được hàng nghìn lượt xem và những dữ liệu đó sẽ được thu thập và phân tích. Các số liệu được xem xét trong phân tích bao gồm lượt thích, lượt xem, lượt xem hoàn chỉnh, bình luận, người theo dõi, lượt đăng lại, lượt chia sẻ, v.v.
Sau đó, công cụ đề xuất sẽ cân nhắc nội dung của bạn dựa trên các số liệu ban đầu và điểm số tài khoản của bạn (cho dù bạn có phải là người tạo chất lượng cao hay không).
Nếu công cụ quyết định cân nhắc nội dung của bạn, 10% hàng đầu sẽ được cung cấp thêm 10.000 điểm tiếp xúc lưu lượng truy cập.
Bước 3: Bộ khuếch đại hồ sơ người dùng
Phản hồi từ nhóm lưu lượng bước 2 sẽ được phân tích kỹ hơn cho quyết định sử dụng bộ khuếch đại hồ sơ người dùng. Trong bước này, nội dung vượt trội sẽ được tăng cường và khuếch đại trong một nhóm người dùng cụ thể (ví dụ: người hâm mộ thể thao, người yêu thời trang).
Điều này tương tự với khái niệm về những gì bạn đoán chức năng của bạn. Công cụ đề xuất sẽ xây dựng cơ sở hồ sơ người dùng để có thể tìm thấy sự phù hợp nhất giữa nội dung và nhóm người dùng.
Bước 4: Đẩy nội dung theo xu hướng
Ít hơn 1% nội dung cuối cùng sẽ vào Nhóm Xu hướng. Lượng tiếp xúc mà nội dung có thể nhận được trong nhóm này cao hơn so với các nội dung khác. Bởi vì nội dung xu hướng sẽ được khuyến nghị cho tất cả người dùng một cách thờ ơ. (Giả sử, bất kể bạn là ai, bạn có thể muốn xem video người biểu tình mới nhất về cuộc sống của Black Black về vấn đề)
Bước khác: Đánh lửa bị trì hoãn
Một số Tiktokers sẽ nhận thấy rằng nội dung của họ đột nhiên có sức kéo rất lớn sau nhiều tuần đăng tải với hiệu suất trung bình.
Chủ yếu có hai lý do:
Đầu tiên, TikTok có một thuật toán (biệt danh là gra graveigger) để nhìn lại nội dung cũ và khai thác cho các ứng cử viên chất lượng cao để tiếp xúc. Nếu thuật toán của bạn đã được thuật toán này chọn, thì nó cho biết tài khoản của bạn có đủ video dọc để lấy nhãn sạch. Nhãn này sẽ tăng khả năng hiển thị nội dung của bạn trong gravedigger.
Thứ hai, hiệu ứng hợp thời trang. Điều đó có nghĩa là nếu một trong những nội dung của bạn nhận được hàng triệu lượt xem, nó sẽ hướng lưu lượng truy cập đến trang chính của bạn, do đó làm tăng lượt xem nội dung cũ của chúng tôi. Điều này thường xảy ra trong trình tạo dọc (ví dụ: trình tạo video mèo vui nhộn). Một video thời thượng sẽ hơn tất cả các video chất lượng cao khác (mọi người muốn xem nhiều hơn về chú mèo dễ thương, tò mò của bạn).
Giới hạn truy cập video
Nếu video đó trở thành xu hướng thì TikTok tiếp tục đề xuất cho đến mức giới hạn nhất định. Thường thì sau 1 tuần video đó sẽ bị hạn chế đề xuất xu hướng. Bởi vì TikTok muốn người dùng tiếp tục đăng tải những video mới và hấp dẫn hơn. Như vậy người sáng tạo video TikTok luôn phải làm việc để liên tục tạo ra thêm video đề xuất.
Cũng giống với Youtube, video của bạn chỉ được đề xuất trong thời gian ngắn và sau đó sẽ không còn nữa. Cho nên đây là cơ chế giúp cho các mạng xã hội video luôn thu hút và gây áp lực để sáng tạo ra nhiều hơn nội dung mới.