開放數據不應閉門造車

筆者因研究需要而經常瀏覽與數據有關的政府網站,留意到2020新年伊始香港開放數據平臺「資料一綫通」出現兩大更新:一是以圖表實時展示天氣、交通等生活數據的「城市儀表板」;二是公佈了2020-2022年度開放數據計劃。前者是全新功能,需時檢驗效果,而後者是繼2019年之后的第二份年度計劃,一年來公衆及傳媒對此已有所探討,筆者願在此與讀者分享初步觀察。

年度計劃有「發水」之嫌

政府制定及公佈開放數據年度計劃的做法始於2018年末,稱將在2019年開放超過650個新數據集,「資料一綫通」的數據集届時將由3300個增至近4000個,增長約兩成,可謂雄心勃勃。有傳媒點算,截至2019年11月已經開放695個數據集,期間雖有部門延遲發佈,不過綜觀全年是「交到數」。能按進度落實計劃值得肯定,惟原因既可能是執行力強,亦可能是刻意選取較容易的目標所致,魔鬼總是藏於細節中。

翻查2019年計劃清單,第一印象是龐雜,但略作瀏覽就不難發現規律乃至重複之處。以近月公衆較關心的區議會數據爲例,計劃中列出的相關數據集多達四十余項,僅選民登記資料就分18個區公佈(其實全由選舉事務處一個部門負責),然後分爲「登記」和「新登記」兩類並再按年份列出,於是乎本應為一個數據集的資料被拆分為36個及其倍數,有「發水」之嫌疑。作為對照,香港的長期參考對象新加坡就簡潔得多,從1955年至2015年的各類選舉資料全部匯集于同一個數據集之中,其實亦是一種更便利公衆查閲及分析的安排,值得學習。

公屋輪候時間及棕地等市民關心數據未見蹤影

將一個數據集拆分成多個發佈可令當局「做靚盤數」,但用家就多了一重合并數據的工作(尤其是要做分析的研究人員),造成不便。不過,更重要的問題是公衆想要的數據當局會否發佈呢?

以熱門的房屋土地問題爲例,2019及2020年發佈的計劃中分別有74及53項相關數據集,但遍查兩年計劃及現有「資料一綫通」網站都找不到市民經常提及的公屋輪候時間,惟有房委會網站刊登過去一年的輪候時間統計,至於過往數年的數據除在一份房委會小組文件簡要提及外幾乎無跡可尋(兩份文件均爲PDF格式,亦不符合開放數據標準)。而另一公衆焦點棕地數據就要等到今年6月才會發佈。以上例子難免令人質疑政府各部門在制定開放數據計劃時是否閉門造車?

「資料一綫通」目前有提出意見一欄,但限於針對現有資料庫,若有市民想建議增加某個資料庫就只能摸門釘。而亞太區的其它先進城市就比香港「開放」得多,譬如臺北市的平臺就設立「建議開放資料」討論區,市民可以公開提出建議,相應的政府部門亦須作出答覆。上海市就在2019年度開放數據計劃中明確要求各部門主動回應社會及企業的數據需求,「以需求為導向制定公共數據開放清單」,其平臺亦設有與臺北類似的公衆討論區(不過討論區暫時未見有上海政府的答覆)。

特區政府近來重視開放數據,於一年前引入公佈開放數據計畫的做法,是好事一樁。不過,開放的不應只是數據本身,更重要的是開放心態,制定政策與計畫的過程要透明,按照市民需要開放數據集,而閉門造車可能會引致與政策「初心」背道而馳的結果。這是一個在今日香港尤其值得深入探討的議題,本欄會繼續與讀者分享研究心得。

文:周穗斌(香港互聯網協會研究員)
2020年1月