眾新聞 Logo
眾新聞 CitizenNews
眾說

ASI大數據:以《健康・旦》許冠傑郭富演唱會探討YouTube演算法 何謂大數據廣播


導讀

"Any sufficiently advanced technology is indistinguishable from magic."英國著名科幻小說作家亞瑟・克拉克(Arthur C. Clarke)為世人留下三大定律(Clarke's three laws),最後一條亦是最重要的一條說明,任何「魔法」背後其實涉及複雜的科技操作,沒有意外也不是巧合。對云云Youtuber而言,要在全球每分鐘上傳影片超過400小時的平台突圍而出,難度堪比施展魔法。本文將ASI大數據協助管理的其中兩條YouTube頻道作為實例,闡述YouTube魔法的「奧祕」,包括大數據廣播(Big Data Broadcasting)的部份操作原理。

什麼是YouTube演算法?

日本歌手竹內瑪莉亞1984的單曲 〈Plastic Love〉 在35年後意外爆紅,甚至獲官方機構日本華納音樂製作專屬MV,連串意外其實與YouTube的演算法有關。

事源一位化名「Plastic Lover」的用戶最早在2017年,將7分鐘版本的單曲配上黑白照片上載到YouTube,〈Plastic Love〉 一曲輾轉獲另一位網民在Reddit上發帖大讚:「Taeko Ohnuki gets posted here and elsewhere on Reddit a lot - she's amazing, and I found Maria Takeuchi through a YouTube suggestion. This song is so killer! Make sure you listen all the way through the to English at the end - just slays me.」

正正是Reddit這則大讚的帖文開始引起大眾關注並紛紛走到搜索引擎輸入「Plastic Love」,結果在YouTube演算法(Algorithm)下單曲開始爆紅,令那條有7分鐘影片最終錄得逾3,000萬次瀏覽(影片因為侵權已被下架)。問題是究竟YouTube的演算法是什麼、有關演算法如何運作?

作為全球最大的影片搜尋及分享平台,YouTube有點像你我認知的電影院院線,只是影片來自世界各地,早在2017年時YouTube每分鐘「上映」的新影片已超過400小時,而受眾每日觀看影片的時間則超過10億小時。

上載YouTuber的影片能否成功「送到」受眾眼球,取決於YouTube的分發機制,等於電影院院線會否將你的影片送到一線影院放映,荷里活一級猛片如《復仇者聯盟-終局之戰》再配上一級的院線,可以保證票房火爆,反之爛蕃茄電影配上地位位置放播時間欠佳的院線自然無人問津,事倍功半。

問題又來了,無論內容是入廚教學抑或古董車復修,每一位上載影片的Youtuber都認為自己的影片與媲美《復仇者聯盟》,應該可以吸引到大批觀眾,但最後卻淪為電視廣播(511)之流,YouTube頻道擁有65萬訂閱戶但線上觀看人數只有57人(往後會再探討訂閱戶多寡等因素)。

電影是否賣座以及應該放在那些院線上映,可能由院線一隊專業電影人決定。基於片量太大的關係,YouTube不會亦不可能仔細琢磨研究每條上載影片是否《復仇者聯盟》,她會將影片收集得來的大量影片數據進行運算,再得出是否應該將影片放在YouTube的首頁又或者推到你的眼眸。所以YouTube不會因為你是容祖兒楊千嬅或是古天樂,而將你的直播推送到觀眾眼前。

TVB的YouTube頻道坐擁65萬訂閱戶,但直播只有57人觀看。

YouTube會以推薦(Recommended)、建議(Suggested)以及相關影片(Related)等方式,將影片推送到你的眼球前,即是每次打開YouTube首頁均有大量不知名短片放在螢幕前,又或者觀看影片右欄總會有大堆大堆看似相關的影片等著你點閱。至於為什麼會出現這些影片,你永遠搞不清楚。

你搞不清楚是正常不過,因為YouTube利用她的一套演算法,將收集所得的影片大數據,再分析你的足跡喜好後才決定如何派發影片,只是YouTube如何演算既是黑箱作業、從不公開,又幾乎每天都會換轉。雖然YouTube如何分發影片的演算法從不公開,但她公開了會參考那些大數據,結果大家惟有利用每條影片的最終觀看次數或獲分發的廣告收益,倒推那些因素她比較看重、那些她相對看輕。

我們已知、YouTube已公布會參考的影片數據包括:平均觀看時間;平均觀看時間比例;曝光點閱率(即是觀眾看到縮圖後點開影片的頻率);不重複觀眾人數;觀看次數;觀看時間;等等。YouTube參考這些數據後會決定如何按推薦、建議及相關影片方式分發。

YouTube會參考大量數據再進行演算

以ASI大數據管理《健康・旦》作為例子

以已知的影片數據作為例子,若觀眾平均觀看時間比例愈高,YouTube派送影片的機會愈高,所以不少Youtuber會想盡辦法吸引觀眾多留一會,例如先預告重點吊胃口等等。不過這些都是你知我知的參考因素,更重要的要利用大數據技術去掌握每天都在變化的她在想什麼,以下會以《健康・旦》以及一家電視台YouTube頻道的成功例子講講,特別是前者先後進行了24小時總觀看次數逾100萬次的許冠傑及郭富城演唱會。

由於實例分享涉及內部資料,有必要進一步申報或說明,為什麼會以《健康・旦》及該條電視台YouTube頻道作為實例分享。作為ASI大數據數據分析及策略總監,ASI大數據共同擁有及管理《健康・旦》YouTube頻道,至於另一家電視台YouTube頻道我們則負責管理。ASI大數據其他管理層包括行政總裁羅燦、人工智能總設計師梁元邦以及首席研究總監黎國亨等。

目前《健康・旦》的訂閱人數超過11萬人,但其實有關頻道在今年2月才成立,羅燦、黎國亨、我與鄭丹瑞及蕭潮順等人在大年初三聚首跑馬地一家咖啡店,商討著要為疫情注入點正能量及分享專業知識下而成立。《健康・旦》廣為人知的直播影片分別是4月12日及5月9日,為許冠傑及郭富城主辦的兩場YouTube直播,從下表的數據可以簡單看到,頻道訂閱人數的多寡雖然與直播觀看次數密不可分,但並不存在訂閱人數多等於觀看直播人數多的必然關係,因為不少觀眾並非透過頻道訂閱而觀看節目。

以許冠傑及郭富城演唱會作為例子,首24小時影片的觀看次數分別達到180萬次及130萬次(若以某免費電視台每6萬人作為1點收視的話,可以高達30點及21點收視),而郭富城演唱會的影片在11日後累積觀看次數已達到300萬次。究竟這些觀眾透過什麼渠道收看兩場演唱會?

YouTube演算法決定你影片的觀看次數

以許冠傑演唱會頭24小時獲180萬次觀看為例,主要流量分別來自外部、瀏覽功能、YouTube搜尋以及其他YouTube功能,分別佔30.9%、29.5%、18.1%及9.4%,單是這幾個種來源已佔整體來源87.9%。這裡所指的外部即是來自facebook、WhatsApp、Google Search及其他網站等,而瀏覽功能則包括YouTube首頁、訂閱內容及觀看紀錄等等。至於郭富城演唱會頭24小時則獲得130萬次觀看,主要流量則分別來自YouTube搜尋、瀏覽功能、外部及其他YouTube功能,分別佔30.4%、27.5%、22.9%及7.4%,合共88.2%。

ASI大數據亦會分析大量數據。

作為頻道的管理公司,ASI大數據最重要的工作是在演唱會直播前,讓YouTube學習及認識什麼是「許冠傑」及「郭富城」,要讓她知道「許冠傑」及「郭富城」是屬於《復仇者聯盟》級數的一級製作,這樣她才會願意將影片推薦、建議或相關影片模式,將影片派送到一線院線及在一流時段播映,只是如何讓她學習及知道,過程涉及與YouTube演算法互相博奕及、繁複大數據分析及商業操作,包括以大數據系統分析刻下的趨勢、「許冠傑」及「郭富城」以往數千甚至數萬條影片數據及全球不同地區的搜尋量等等,具體操作涉及大量商業秘密,暫且略過。不過,兩次演唱會均透過ASI大數據管理的《健康・旦》頻道進行直播,ASI大數據的成功已重複印證:「Repeated again and again 」。

某電視台YouTube頻道的成功

ASI大數據提供不同的業務,除了大家常看到的民情分析及選舉預測外,大數據廣播(Big Data Broadcasting)是其中一項核心業務,除了參與成立、管理《健康・旦》頻道外,我們同時以相似技巧協助管理某電視台的YouTube頻道,且分享一些簡單指標。ASI大數據在2019年4月正式成為該頻道的管理公司,進行初步審核後並在6月正式管理,該頻道的訂閱人數由最初約1萬,在不足12個月增加超過20倍。

除了訂閱人數外,我嘗試公開幾個重要指標,讓大家知道頻道在ASI大數據管理前後的變化,指標包括:

1) 平均每人觀看短片數目(Average views pre viewer by video);

2) 估計營利播放次數(Estimated monetized playbacks by video);

3) 您的預估收益(Your estimated revenue by video);

頻道其中一項最重要的考慮因素是觀眾對頻道的忠誠度,這個指標可以以平均每人觀看短片數目 (Average views pre viewer by video)參考。該頻道2010年2月設立,2017年開始有具體數據,截至2018年8月時平均每人觀看短片數目約1.5條,但到了2020年4月已升至接近6條。

另一個重要的指標是估計營利播放次數 (Estimated monetized playbacks by video),這指標反映頻道的營利能力,主要考慮觀眾觀看影片時,影片最少有一次廣告曝光,另外亦會考慮觀眾在廣告播放期間會否即時停止觀看影片等。2018年8月時每月估計營利播放次數是0,但到了2020年4月已提升至接近1,000萬次。

您的預估收益(Your estimated revenue by video)主要反映ASI大數據如何透過大數據系統,避免該電視台YouTube頻道受到「黃標事件」所影響。

我在 〈大數據廣播成新趨勢 東華三院Youtube籌款Show失敗沒有告訴你的真相〉 中說過,今天「人人都去拍Youtube,唔通人人都識拍Youtube?」我應該修正,的確人人都可以拍YouTube,但不代表人人都懂得經營或管理YouTube頻道,每天上載一條10分鐘的影片可能可以應付,但每小時上載一條影片呢?舉辦觀看次數超過100萬的演唱會呢?如何避過黃標事件又或者處理版權問題呢?這些都不是一兩個人可以做到的。

話說回來,將克拉克定律直譯的話,"Any sufficiently advanced technology is indistinguishable from magic." 說的是任何足夠先進的科技均無異於魔法,可惜不諳科技不懂大數據的往往會視成功為巧合,但我們不相信重複又重複的成功是巧合的一種,正如美國職業籃球(NBA)公牛隊在90年代的重複勝利,沒有人認為是巧合或幸運。