如何讓你的文章被CCS 2018接收?
今天是CCS大會的第一天,儘管論文集已經提供下載,但是沒有參會的同學,你們是看不到最關鍵的內容的!這是只有參會人員才能共享的秘密,大會的會議廳門口有志願者嚴格檢查證件入場,本次CCS程序委員會主席絕密報告:怎麼樣讓你的論文被國際頂級學術會議CCS 2018錄用!答案很簡單:
什麼?搬到捷克共和國去居住,尋找13個合作者,投稿4篇關於web security and privacy度量指標的用戶學習的文章就可以被保證被錄用了?!是不是真的覺得天機不可洩露呢?
其實這只是主席的一個段子:-),這是大會開幕式上通過對投稿的大數據分析的一個總結,下面我們和大家分享一下今年的會議投稿統計數據:
首先是每位作者的投稿數目統計,有2251名作者僅僅參與了一篇論文投稿,而投稿數目超過3篇論文的作者已經很少了:
更多的投稿就能保證錄用率?這可不一定,除非你投稿的數目逆天而行……
下面我們看看論文合作者的數目對論文錄用的影響,可以看到投稿錄用比例較高的是合作者2-10人的論文,而在投稿的34篇單作者的論文中,只有一篇殺出重圍被錄用……血淋淋的事實告訴我們,你還可以把作者人數增加到13人,因為唯一的一篇13人作者論文就被錄用了
當然,你居住的地方也能極大影響你的錄用率,如果你住在捷克共和國,祝賀你!本次投稿的兩篇來自捷克的論文100%被錄用!
我們也可以看看其他國家研究人員的錄用比率,可以看到萬惡的美帝依然佔據了一半以上的錄用,而我們偉大祖國雖然已經是世界第二大投稿集團,但還是需要提升錄取比例吶!
下面是大家頗為關心的研究方向和錄取率的關係,可以看到應用密碼學和軟體安全兩大經典主題的錄取率仍然還是居高不下的,而Metrics和Cyber Physical Systems(包括IoT)的錄用率偏低(這裡弦外之音是「叫你們去搶CPS這個熱點」)
當然更慘的是某些研究組合,把兩大熱門研究點放在一起,結果錄用率反而為0……
經過這一輪的分析,你能明白一開始的那個段子的含義了嗎:-) 明年的CCS將在加拿大的多倫多召開,歡迎大家選擇「困難模式」來投稿並能夠被錄用
Keynote Speak
今年CCS的唯一一位keynote speaker是加州大學伯克利分校的David Wagner教授,他的演講主題是Adversarial Machine Learning,這是一個準備了一年之久的報告,因為PC chair去年CCS結束的時候就已經預約好了。不得不說Wagner教授口才相當之好,presentation能力滿分。報告是從我們最近比較熟知的一些欺騙AI的例子開始,比如如何讓機器將一張bus的圖片識別成一張humming bird的圖片,但是這個攻擊的背後蘊藏著什麼insight呢?第一個重要的觀察是現有機器學習classifier之間具有的transferability,也就是說,如果一個圖片能欺騙得了一個classifier,它很可能就能欺騙一大票的classifier。這個性質會導致非常嚴重的後果,因為這種廣泛存在的欺騙性會導致即使防禦者想要通過對classifier保密,或者隨機使用不同的classifer來對抗攻擊者都會產生困難:攻擊者只需要用數據集訓練出自己的classifier並找到相關攻擊樣本即可廣譜開展攻擊。
更進一步,如果一個特定的classifier被允許公開的反覆訪問,敵手還可能從中恢復出來訓練的模型。對於特定應用來說,訓練集本身的數據可能是保密的,這種攻擊就會導致模型的信息洩漏:
除此之外,如果訓練集數據中部分信息可以被敵手操縱,敵手也可能通過汙染訓練集數據,發起對classifier的操縱攻擊。
儘管我們並不是專門研究機器學習和深度學習的研究團隊,但是通過這個報告,我們也對上述的攻擊有了非常直觀的感性認識,報告本身也非常有啟發性。此外,在場的研究人員也展開了熱烈的討論。知名的華人安全研究人員王曉峰教授指出,儘管上述場景展示了機器學習的不足之處,但我們更應該深究到底這些攻擊是否真正能夠影響到現實足夠龐大數據訓練下的模型,即敵手是否真的能夠針對所有classifier都總能找到足夠好的欺騙樣本?螞蟻金服的安全風控團隊研究員偌川也表示,敵手和企業擁有的數據集大小是不對等的,企業往往能夠用海量的數據去對抗敵手發現那些可能在自己小數據集上產生欺騙性的樣本。
值得關注的論文
CCS採取了5個session加上一個tutorial並行的安排,這樣的好處是不用將會議一直從萬聖節開到聖誕節,壞處是對於聽眾來說很多時候只能忍痛割愛選擇一個會場聽報告。第一天一共15個session加上兩個tutorial,關注人數最多的當屬Session B3: Investigating Attacks,因為本session的三篇論文都關注的是安全研究領域中帶刺的玫瑰——binary code analysis,從這個分會場的擁擠程度就可見大家對這個主題的喜愛:
第一篇論文Rise of the HaCRS: Augmenting Autonomous Cyber Reasoning Systems with Human Assistance是UCSB shellphis團隊最新力作,介紹了HaCRS這個在他們CGC比賽之後發展起來的結合機器推理和人工分析的自動化程序漏洞挖掘工具,想要了解更多細節可以關注工具的主頁;
第二篇論文介紹了我們上海交通大學以及加州大學伯克利分校、加州大學河濱分校和喬治亞理工學院的研究人員聯合設計的一個稱為Gemini的二進位代碼相似性檢測工具,該工具使用了機器學習中的Graph Embedding技術,能夠大幅度提升以往基於圖匹配的binary code similarity detection的比較速度,作者將其用於嵌入式固件的漏洞代碼檢測上取得了不錯的效果
第三篇論文RAIN: Refinable Attack Investigation with On-demand Inter-Process Information Flow Tracking設計了一個名為RAIN的基於程序行為分析的入侵檢測系統。傳統的基於程序行為分析的入侵檢測只能做到記錄system call,否則會有過高的overhead,RAIN通過使用按需記錄程序的inter-process information flow,將開銷控制在可接受的範圍,從而把system event logging和program tracing結合在了一起,得到了一個細粒度的record-and-replay系統
在其它session中,Session A2: Human Authentication裡面的論文VibWrite: Towards Finger-input Authentication on Ubiquitous Surfaces via Physical Vibration腦洞大開,發明了一個將任意堅固表面材料都變成觸控螢幕的方法;Session A3: Adversarial Machine Learning中的論文DolphinAttack: Inaudible Voice Commands昨天已經介紹過,來自浙大徐文淵教授的團隊富有創意地關注了人耳聽覺範圍之外的頻率所產生的安全威脅;Session A4: Browsers中三篇論文關注了瀏覽器在代碼攻擊之外面臨的UI攻擊、計時攻擊和權限濫用攻擊安全威脅,並討論或設計了相關的解決方案;Session B2: Passwords中的三篇論文再次聚焦在用戶輸入的password的易用性和安全性上,也關注了開發人員為什麼不安全地存儲了password;而在Session C2: World Wide Web of Wickedness中,三篇論文不約而同地關注起了黑產,從二級域名被註冊為惡意域名、共享主機提供商沒能提供安全防禦和安全補丁、域名註冊商忽視了對商標域名關聯域名(例如攻擊者可以針對http://alipay.com註冊一個http://alipayresetmypassword.com來誘導用戶)等研究點上開展了大規模的掃描分析,這裡最有趣的當屬Hiding in Plain Sight: A Longitudinal Study of Combosquatting Abuse這篇論文討論的域名關聯註冊問題,作者認為雖然惡意註冊往往會誘導用戶,但是很多商業公司也會因為偷懶而去註冊這種域名,導致域名註冊管理機構沒法區分到底誰是惡意的域名。就在這個報告結束不到兩小時內,我們晚飯在有名的Hard Rock Cafe吃飯時,就馬上發現了這個問題——Hard Rock Cafe的官方網址是:www.hardrock.com,然而飯後服務員給我們提供了一個飯後做調查送coupon的官方網站就是一個類似的網址:www.hardrocksurvey.com……(survey.hardrock.com表示「我無法找到」)
今天的報導就到這裡,明天我們除了關注論文環節,還會關注poster環節,敬請期待!