眾新聞 Logo
眾新聞 CitizenNews
眾說

創科局嚇到你嘔電系列-Open Data 機讀格式之爭論


【撰文:胡人傑】

創科局早前語出驚人,為政府嘅open data 計劃文件被批評只得PDF 而冇「機讀」格式辯護,話「機讀」格式人類睇唔明,提供「人讀」格式係方便公眾云云,大致寓意缺乏「機讀」格式好出奇咩。
 
咁令人噴飯嘅答案,梗係惹嚟更多嘅批評啦,前科一眾小編都前後腳出咗兩個FB post 增慶。首先,「人讀」格式咪又係電腦睇「機讀」格式gen 出嘅,點會有「人讀」而冇「機讀」呢。另外,就算以創科局自己舉嘅XML「機讀」格式例子,只要加個XSL 咪係「人讀」格式囉(ITB Idiots)
 
不過,創科局攞嚟做例子嘅政府網頁( 2016中期人口統計:主要統計表 ),其實凸顯咗更深層次嘅問題。
 
依家政府搞嘅open data,重大缺陷唔係data format 嘅「人/機」謬論,亦唔係款式落後(JSON 潮過XML),而係規劃。如果啲download 唔係喺私隱保護容許之下嘅rawest possible data,而只係將個別summary presentation倒嘔就當係"open data",咁啲download 其實冇乜用,因為summary presentation喺政府網頁已經show 晒出嚟,再搞"open data" 係多餘。
 
真open data 應該係rawest possible data,用簡單嘅record structure 裝載,等用家可以根據自身需要幫數據做唔同嘅aggregation,建立同政府網站唔同嘅summary presentation以補不足。政府依家將summary presentation當係raw data,然後俾個好似MS Word 咁複雜嘅data structure 你做schema,叫人點用?到底政府係推廣AI reverse engineering of presentation layer to data layer 定係open data?況且,reverse 完都嘥氣,咪又係睇返政府網站上已經有嘅summary presentation,貪得意咩。
 
如果規劃得宜,政府網站嘅所謂「人讀」summary presentation,其實只係raw data 嘅其中一種表達,一定係先有raw data,然後有presentation。如果講次序,反而應該係open data 先出街,而唔係presentation。規劃得宜亦會帶嚟事半功倍嘅效果,因為提供open data 並唔係政府一個額外負擔,而係過程中嘅必然,亦毋須每個presentation 出dataset,只係一個master dataset 就代表可能上百種嘅summary presentation,慳水慳力,然後仲有大量網民免費幫你以補不足。
 
口講無憑,乜嘢叫做rawest possible?小弟就用US Census 一個選民統計嘅open data做例,公眾可以隨便download 佢有成90 幾萬隻records 嘅dataset,隨便做一個pivot table。

US Census - Citizen Voting Age by Race and Ethnicity, raw data, 962013 records
pivot table as summary presentation

用同一套90 幾萬隻records 嘅dataset,小弟可以做上百種唔同aggregation 嘅pivot table,悉隨尊便。依家香港政府就係將個pivot table 當係raw data,俾13 隻records 出嚟當係交差,一個summary presentation一 個dataset,部門做死,但對公眾又冇用,咁嘅"open data" 要嚟托咩,公眾喺政府網站咪睇咗個summary 囉,要得open data,梗係要嗰90 幾萬隻而唔係13 隻records 啦。反而部門只出一個master dataset,公眾又開心,部門又做少啲,皆大歡喜。
 
創科局搞咗個咁大嘅笑話,係咪暗示佢心目中嘅open data 規劃,只係將放喺成千上萬嘅MS Word/Excel document 入面嘅summary presentation convert 去XML,而唔係由database 著手?定係政府嘅presentation 不嬲都冇data support,要提供raw data 就要好辛苦作data 去match 返之前嘅presentation?
 
睇返ITB Idiots 個FB post,創科局係有一個「效率促進辦公室」嘅,佢哋係促進緊啲乜野效率?係咪教人點樣快啲見到Steve Jobs?


請加入成為眾新聞的月費訂戶,長期支持我們的工作。所有訂戶都可以收到我們的「每周時事」通訊 。

月費訂戶網址:hkcnews.com/aboutus/#subscribe