開放疫情數據之觀察與思考

疫情籠罩之下,公衆對相關資訊需求大增,政府發佈會、新聞稿、部門網站公告等傳統官方資訊渠道雖然權威,但失於零碎,惟有將不同來源的已核實數據整合為更為清晰的動態全景圖,「一文睇清」,方能令市民充分知情而採取有效防範措施。新型冠狀病毒爆發後,無論海內外,官方及民間先後推出各類有簡明互動圖像的網上資訊平臺。

展示方式之外,數據如何開放,開放多少乃更深層次問題,而開放公共衛生數據的一項難題是如何處理病人私隱。

疫情資訊平臺以視覺化方式

數據視覺化(data visualization)在近年「大數據」熱潮下於傳媒、公民社會及商業項目中廣泛應用,更成為近來大型事件發生時資訊呈現的常態。「武漢肺炎民間資訊」(https://wars.vote4.hk/)是香港最早出現的疫情資訊平台,網站製作人1月26日開始行動兩日便搭建完畢,實時呈現疫情及出入境數字等,亦綜合政府消息及媒體報導等整理出高危地區的互動地圖,包括確診人士曾經逗留的地方,隔離檢疫地點等,全部註明出處。

與以往社會事件不同,今次官方亦有動作,於2月3日推出本地情況互動地圖儀表版(Interactive Map Dashboard)」,由「發展局、地政總署以及一群智慧城市聯盟的義工合力開發和管理」,同樣在地圖中標示出高危地點,亦有急診室輪候時間等,資料來源當然僅限政府。事有巧合,新加坡亦有類似的儀表版COVID-19 Situation Dashboard,連網頁載入過程中的「Loading」圖標都與香港一模一樣?!追查之下,原來星港兩地都似乎「參考」翰霍普金斯大學(Johns Hopkins University)系統科學和工程中心早於1月22日推出的「儀表板」卻未予聲明,後者數據和部分網頁代碼早已透過網絡平台Github共享,理論上人人皆可套用,但他人使用時應說明來源。

保障私隱仍是開放公共衛生數據難題

視覺化終究是呈現方式,開放數據更為核心,而病人私隱是開放公共衛生數據中的一個長期爭議點。香港衛生防護中心已經用開放數據形式每日公佈個案,其中一份清單有確診者的性別和年齡,姓名則以個案編號代替,但無住址,顯然是要保護當事人私隱,其他地方諸如新加坡、日本(只提供出生年代而無具體年齡)做法亦大致如是。不過,如上文所述,公佈確診人士逗留過的地點屬必要,有助公眾提高警覺,於是政府另行公佈一份確診者居住及到訪過的大廈名單,并註明相應個案編號。

其實,兩張清單都有個案編號,即可關聯,術語叫「開放數據連結」(Linked Open Data)。再結合其他公開資料,不難還原確診者真實身分,例如第85宗個案是一名馬主,傳媒在報導時直稱其姓名。私隱與公眾利益的矛盾是難題,統統訴諸法律手段亦不現實,一種較好的方式是呈現上避免專注個案,而採用更關乎公眾利益的空間分佈方式(例如地理圖),上述各數據視覺化平台即是如此。

在未有完美解決方案時,須抱以誠實、誠懇的態度處理,甚至能化危為機,反之亦然。

文:周穗斌(香港互聯網協會研究員)
2020年2月

Read more

開放數據不應閉門造車

筆者因研究需要而經常瀏覽與數據有關的政府網站,留意到2020新年伊始香港開放數據平臺「資料一綫通」出現兩大更新:一是以圖表實時展示天氣、交通等生活數據的「城市儀表板」;二是公佈了2020-2022年度開放數據計劃。前者是全新功能,需時檢驗效果,而後者是繼2019年之后的第二份年度計劃,一年來公衆及傳媒對此已有所探討,筆者願在此與讀者分享初步觀察。

年度計劃有「發水」之嫌

政府制定及公佈開放數據年度計劃的做法始於2018年末,稱將在2019年開放超過650個新數據集,「資料一綫通」的數據集届時將由3300個增至近4000個,增長約兩成,可謂雄心勃勃。有傳媒點算,截至2019年11月已經開放695個數據集,期間雖有部門延遲發佈,不過綜觀全年是「交到數」。能按進度落實計劃值得肯定,惟原因既可能是執行力強,亦可能是刻意選取較容易的目標所致,魔鬼總是藏於細節中。

翻查2019年計劃清單,第一印象是龐雜,但略作瀏覽就不難發現規律乃至重複之處。以近月公衆較關心的區議會數據爲例,計劃中列出的相關數據集多達四十余項,僅選民登記資料就分18個區公佈(其實全由選舉事務處一個部門負責),然後分爲「登記」和「新登記」兩類並再按年份列出,於是乎本應為一個數據集的資料被拆分為36個及其倍數,有「發水」之嫌疑。作為對照,香港的長期參考對象新加坡就簡潔得多,從1955年至2015年的各類選舉資料全部匯集于同一個數據集之中,其實亦是一種更便利公衆查閲及分析的安排,值得學習。

公屋輪候時間及棕地等市民關心數據未見蹤影

將一個數據集拆分成多個發佈可令當局「做靚盤數」,但用家就多了一重合并數據的工作(尤其是要做分析的研究人員),造成不便。不過,更重要的問題是公衆想要的數據當局會否發佈呢?

以熱門的房屋土地問題爲例,2019及2020年發佈的計劃中分別有74及53項相關數據集,但遍查兩年計劃及現有「資料一綫通」網站都找不到市民經常提及的公屋輪候時間,惟有房委會網站刊登過去一年的輪候時間統計,至於過往數年的數據除在一份房委會小組文件簡要提及外幾乎無跡可尋(兩份文件均爲PDF格式,亦不符合開放數據標準)。而另一公衆焦點棕地數據就要等到今年6月才會發佈。以上例子難免令人質疑政府各部門在制定開放數據計劃時是否閉門造車?

「資料一綫通」目前有提出意見一欄,但限於針對現有資料庫,若有市民想建議增加某個資料庫就只能摸門釘。而亞太區的其它先進城市就比香港「開放」得多,譬如臺北市的平臺就設立「建議開放資料」討論區,市民可以公開提出建議,相應的政府部門亦須作出答覆。上海市就在2019年度開放數據計劃中明確要求各部門主動回應社會及企業的數據需求,「以需求為導向制定公共數據開放清單」,其平臺亦設有與臺北類似的公衆討論區(不過討論區暫時未見有上海政府的答覆)。

特區政府近來重視開放數據,於一年前引入公佈開放數據計畫的做法,是好事一樁。不過,開放的不應只是數據本身,更重要的是開放心態,制定政策與計畫的過程要透明,按照市民需要開放數據集,而閉門造車可能會引致與政策「初心」背道而馳的結果。這是一個在今日香港尤其值得深入探討的議題,本欄會繼續與讀者分享研究心得。

文:周穗斌(香港互聯網協會研究員)
2020年1月

Read more

區議會邁進數碼空間助擴市民參與

11月區議會選舉民主派大勝為政壇引入一批新人,最終會帶來多少「真‧變革」我們拭目以待,而綜觀媒體報導,候任議員們除卻關注反修例相關政治議題及要求賦予區議會更大實權外,亦對實現會議直播及電子化會議紀錄等提升透明度的措施頗有熱忱。其實,後者關乎如何在數碼時代擴大社區參與,發揮互聯網開放、自由、合作的精神與技術力量,若新議員們能在任內「成功爭取」,可盼令地區工作方式超越「蛇齋餅粽」而進入數碼空間新層次。

區議會當前數碼化程度不理想

有關區議會網站的問題,筆者在本欄上月文章《當開放數據遇上區議會》已略有提及,但僅限局部觀察,欠缺全面資料。恰好立法會資訊科技界議員莫乃光12月11日向民政事務局提出有關質詢,劉江華局長的書面答覆包含一張十八區區議會網站狀況清單,結果是:當問及上載至網站的數據是否採用「機器可讀格式」及「視像化方式顯示」時,各區的答案皆為「不是」、「沒有」或「不適用」,無一肯定。

簡單解釋兩個詞彙。所謂「視像化方式」即是影片,包括網上全程直播會議及錄影後上載至網站,方便網民隨時觀看,屬於各國增加議會透明度的常見做法。目前香港立法會網站已可直播與回看影片,區議會網站就暫時未有此功能。

「機器可讀」則由英文「machine-readable」直譯而來,所謂「機器」其實就是電腦,「可讀」即是便於電腦讀取及處理數據,不單只要求數碼化文件格式,內裏數據亦要符合一定標準,以作批量計算和分析。近年來人們熱衷於談論大數據,其中一個重要環節就是令包括文字在內的各類數據標準化以達至「機器可讀」,常見的格式有csv, xml等,而一般人使用的 word, pdf乃至jpg圖片通常不能視作機器可讀。當然隨著技術進步,有朝一日智能機器人不單只可能讀取一堆混亂、零碎的資料,甚至以此預測未來,如同科幻電影裡的情境。但現目前條件下,數碼格式的標準化數據仍然是我們利用數碼科技的前設條件。

提供直播影片與機器可多文件助擴市民參與

雖然目前區議會目前仍是地區諮詢機構,法定權力不及立法會,但處理的事務較為貼地,例如興建天橋,設立巴士站,參與管理地區圖書館、體育館等康樂文娛設施,近十年更有合計開支超過33億的地區小型工程。故此,會議文件及議員、官員們的會上發言都含有大量與市民日常息息相關的訊息,惟過往受到關注不多。直至近年陸續爆出有區議員涉嫌與承辦商私相授受的消息,各界對區議會有關訊息的需求陸續增加。

提供會議直播等影片有助更多市民透過互聯網參與地區事務,完全符合區議會設立的「初心」,必要性不必贅言,定當爭取。而以「機器可讀」的方式發佈會議文件則可讓民間借助大數據技術監察區議會運作,迅速描繪出社區設施及工程撥款的全景圖,令有心參與的普通市民乃至區議員們不再迷失於文山會海,及早發現問題并解決。「機器可讀」涉及標準制定,需要專家意見,十八區的標準更要統一,否則意義儘失。此事技術不複雜但協調需時,對充滿新思維但欠缺經驗的議會新人是一大考驗,但事關如何讓已略顯暮氣沈沈的區議會連結數碼一代,在網絡空間擴大地區事務參與,值得團結各方全力以赴。

文:周穗斌(香港互聯網協會研究員)
2019年12月

Read more

當開放數據遇上區議會

剛剛結束的區議會選舉掀起一股海嘯,顛覆地區政治版圖之餘,亦為各區捲來大批素人、傘兵、專業人士等政壇新血。青年人的參與方式不單只有從政,亦有資訊科技從業人員用網站整合互聯網的開放數據,用專業技能讓選舉過程更透明,方便選民及候選人作清晰判斷,若干網上應用已初露崢嶸。長遠而言,善用開放數據可幫助市民深入了解議會,監察代議士言行及政府施政,促成基於事實的公民參與生態,對各方皆有利。

善用開放數據 網民自發搭建事實平台

今次區議會選舉有兩個民間自發的網站令人耳目一新,分別是「Vote4.hk」及 「選區事實處」(https://hkfactcheck.io/),皆為資訊科技從業人員利用工餘時間籌備,設計簡潔卻資料豐富。兩者的共通之處乃用 「眾包」(crowdsource)方式實時蒐集並顯示各票站投票率。區別是前者著重呈現各區選民特徵,後者集中匯聚候選人資料。

「Vote4.hk」首頁只有選舉結果圖表,風格極簡。直接點開某一區,可見每小時投票率折線圖、選民年齡性別等人口柱狀圖、選區劃分地圖及主要屋苑等,亦為人口特徵貼上標籤,顯然是幫助候選人熟悉選區,尤其是欠缺政黨資源的素人。以筆者熟悉的中西區為例,石塘咀選區就標註為「偏多新移民」、「偏高齡」、「家庭月入偏低」等。而位處西半山的大學選區就有「家庭月入甚高」、「甚多大專畢業生」等標籤,基本符合筆者日常觀察。

「選區事實處」則匯集候選人過往言論、投票紀錄、議會發言及利益申報等,聲稱作為「文宣以外另一個深入了解社區服務人士的途徑」,顯然是為選民服務,提供可為投票作參考的資料。平台資料採集自傳媒網頁和各區區議會網站, 網民亦可以透過「回報問題」或「提交事件」補充。

不過,上述平台亦未盡完善。譬如,「Vote4.hk」為大學選區貼上「甚多新移民」標籤,相信是因為數據來自人口普查,所謂「新移民」極有可能是無投票權的外籍專業人士,半山東、衛城、山頂等中上產乃至富豪選區均有此標籤,但其實對選舉並無太大參考價值,大數據算法及標籤有待改進。「選區事實處」就未有交代清楚事實核查的程序。

各區文件格式不一 礙大數據分析

作為公民社會自發搭建的平台,短時間內能有如此效果已經值得讚賞。若言要形成基於事實的健康選舉和議會文化,其實當局/從政者的責任更加重大,做好開放數據是較容易踏出的一步。

例如,其中一個公認可靠的事實來源是各區議會網站公布的投票紀錄及會議紀要。問題在於十八個區議會網站發布的文件格式不一,中西區用Word刊載會議紀要,而灣仔區則用 PDF,內文排列更千差萬別,不符合開放數據的「互通性」(interoperability)準則,增加用大數據方法作批量分析的難度。解決方式並不複雜,由協調機構對會議文件各式作更清晰指引即可。其實各區網站已經大體一致,統一文件格式應不會太困難。

換血後的各區議會將有一番新氣象,透過更廣泛的社區參與打造開放透明的議會完全符合多數新議員的理念,例如可更妥善處理以往廣受詬病的地區工程撥款等問題,開放數據可發揮正面作用。

文:周穗斌(香港互聯網協會研究員)
2019年11月

Read more

網絡審查禁制令範圍收窄 關注政府繼續製造寒蟬效應

Court issued restrictions on the injunction of banning online free speech
Concerns over Internet censorship remained

(2019年11月15日,香港)香港互聯網協會週一(11月11日)入稟覆核律政司司長向高等法院申請的臨時禁制令 。臨時禁制令禁制任何人於網上,包括連登討論區及 Telegram,發佈或轉發任何促進、鼓勵或煽動使用或威脅使用暴力的言論。

今日高等法院開庭審理案件,法官下午裁定臨時禁制令繼續生效,然而法官採納香港互聯網協會的觀點,要求政府釐清及收窄臨時禁制令的範圍。在宣讀判詞中,法官表明法庭無意要求互聯網平台審查或過濾內容,相信有效釐清對於互聯網上的平台、 中介及互聯網供應商的法律責任。法官亦下令更改禁制令的部份字眼,表示禁制令在執行上必須要確保發布及散播內容人士是有意圖煽動暴力。

香港互聯網協會及立法會資訊及科技界議員莫乃光認為法庭裁決將原本過於廣泛及含糊不清的臨時禁制令拉近至現有的刑事法例,執法單位必須證明『意圖』方能採取法律行動。然而,對於政府繼續用禁制令方式繞過現行法例,協會及莫乃光批評政府繼續製造寒蟬效應及令網民進行自我審查,影響網上表達自由。

雖然法庭裁決將原本範圍不清晰及過闊的臨時禁制令收窄,協會及莫乃光表示將持續關注政府會否申請新禁令或利用《緊急情況規例條例》實施『封網』,會採取一切手段阻止政府引入類似內地式的網絡防火長城。

香港互聯網協會及莫乃光感謝法律團隊的努力,會與團隊研究下一步行動,並感謝參與眾籌行動的市民。

(15th November 2019, Hong Kong) The Internet Society Hong Kong (ISOC HK) filed a civil action in court on Monday (11th November), seeking to challenge the government’s interim injunction of affecting free speech online. The High Court today heard the case.

Judgement was issued this afternoon which the injunction will continue to be effective. However, taking into account the legal perspectives of ISOC HK, the judge narrowed the scope of the original injunction and amended that only those with the intent to incite will be found guilty under the new injunction order. The judgement also made clear that platform operators are not required under the injunction order to exercise instantaneous censorship of the online content of all posts on the platforms, or to police or filter out information or messages. 

The original injunction order was believed to be vague and overbroad. Commenting on the judgement, the Internet Society Hong Kong and IT legislator Charles Mok remarked that with the judgement today, the new injunction order has moved closer to existing criminal offences which proving intent is necessary for the enforcement authorities to take legal actions. However, the new injunction order still seeks to create chilling effect and force the public to engage in self-censorship.

Both the IT organisation and Mok expressed their concerns that even with a restricted injunction order, the government may issue new injunction orders or apply the Emergency Regulations Ordinance to introduce Internet shutdown and that must be stopped at all costs.

They expressed their gratitude to the legal team for their efforts and will discuss the next step forward. They were also grateful to the support of the public who has participated in the crowdfunding campaign. 

Read more