由CSDN和IBM聯合舉辦的 2014 Power8 極限性能挑戰賽 」自正式啟動以來,受到了許多編程愛好者及程式設計師們的關注。 該大賽以雲計算的方式為開發者提供了POWER 8開發環境,開發者將利用POWER 8的特性,基於不同場景進行應用開發。
此次大賽主要面向廣大CSDN註冊開發者,大賽以雲計算的方式為開發者提供了Power 8開發環境,開發者利用Power 8的特性,基於不同場景進行應用開發。此次大賽,不僅使更多的開發者充分利用了Power 8,也為開發者、技術達人提供一個展示自我的舞臺。
第一期「博客反垃圾」挑戰賽已順利結束,共有1072人參賽。我們採訪了部分參賽選手( 專訪一)、( 專訪二)、( 專訪三),他(她)們表示:參賽不僅讓自己得到了更好地鍛鍊,而且還把IBM Power 8獨特的並發優勢發揮到了極致,收穫頗豐。
這不,在大家的熱切期盼下,我們又迎來了極限算法挑戰賽第二期,本期挑戰賽的題目是「敏感詞大文本過濾」,具體任務為由CSDN提供博客數據與敏感詞詞庫,參賽選手編寫算法將含有敏感詞的博客分離出來。需要說明的是,大賽主要考察程序的是算法的正確率及處理速度,對開發語言、開發工具並不進行限定。
到目前為止,已經有數百名開發者報名並參加了此次大賽,為了讓更多的開發者了解此次大賽的進展情況,日前,我們專訪了其中一位參賽選手中國科學技術大學研究生 孫冬冬,希望通過他的參賽經歷,吸引更多的技術達人參與到大賽之中。
1.可否介紹一下你的技術開發經歷?目前,主要關注哪些技術領域?
孫冬冬:我從大一開始接觸編程,那時候剛學C語言,本科專業是電子信息工程專業。所以大學期間用MFC做了一些串口通信的工具。慢慢的對軟體開發產生了濃厚的興趣。讀研以後開始學習一些腳本語言如Perl,Python等。也做過一些簡單的Web開發。目前從事文本挖掘方向的研究,主要關注大數據和人工智慧方面的技術,尤其是DL(深度學習)。
2.關於您算法設計的思路,主要用到了什麼計算模型?請簡單描述一下設計算法的基本思路?
孫冬冬:我主要用的是敏感詞提取中最常用的DFA(確定有限自動機)模型,同時使用了正則表達式對一些寬泛的敏感詞做處理。為了增加算法的執行效率,我們用standford parse事先對句子做了分詞的處理。有效地減少了計算的複雜度。
3.相對於其他方式您之所以選擇這一模型,主要是源於哪方面的優勢?是否還有繼續優化的可能?
孫冬冬:DFA算法是很常見的算法,廣泛的運用在文本挖掘方面。同時大量的實踐表明DFA算法基本上不需要多少計算。目前在自己的伺服器上跑出的性能還不錯。接下來加入一些自然語言處理的算法對數據再進行有效的預處理。相信還是有優化的可能。
4.基於這一思路的算法設計,能否充分發揮IBM Power8的多線程計算優勢?您是否嘗試過比較多線程與單線程的性能差距?
孫冬冬:運算的數據量較大。同時正則匹配的運算複雜度也較高。通過有效的程序實現,應該能夠充分發揮IBM Power8的多線程計算優勢。
5.對於IBM Power 8,你最關注的技術要點是什麼?能否談談對未來這一領域技術趨勢的看法?
孫冬冬:我們知道其實現在並發運算框架,大部分時間花在了線程通信上。用在計算上的時間比例其實並不多。怎麼有效地降低通訊時間,而把大量的工作用在大數據的計算上是我比較關注的。
6.對於多線程及並發編程技術的發展,你怎麼看?你認為還有哪些可以改進的方面?
孫冬冬:大數據,雲計算,以及人工智慧時代的到來,多線程及並發編程技術應用的會越來越廣泛。
7.參加這次算法挑戰賽的感受如何?對這一活動有什麼好的建議?
孫冬冬:首先,在實驗室學了兩年的文本挖掘終於有了實戰的機會。同時對於大數據與自己平時做的小樣本的處理方法不同有了深刻的理解。很感謝CSDN舉辦的這次活動,接下來的兩場競賽我都會參加。對活動的建議是能不能做點賽前培訓,線上的講座即可。
了解更多大賽內容,請訪問大賽官網:http://reg.powerlinux.csdn.net/
第一期挑戰賽精彩回顧: