計算機視覺新手指南

2020-12-12 人工智慧遇見磐創

通過機器的眼睛去探索

如果我們想讓機器學會思考,就需要教他們學會如何用視覺去看周圍環境。—— 史丹福大學AI實驗室和斯坦福視覺實驗室主任李飛飛使計算機或手機等機器看到周圍環境的現象稱為計算機視覺。機器仿生人眼的研究工作可以追溯到50年代,從那時起,我們已經走了很長一段路。計算機視覺技術已經通過不同的電子商務領域以及相機應用程式進入了我們的手機。 想一想當機器能夠像人眼一樣準確地看到周圍環境時,機器還有什麼是不可以做的。人眼是一個複雜的結構,它可以理解複雜的環境現象。同樣的,可以讓機器能夠看到事物並使其具有足夠的能力去理解它們所看到的內容,從而進一步對其進行分類,這項工作仍然是非常艱巨。 使用計算機視覺等效其準確性幾乎與人眼相同的情況下,可以在眨眼間就進行數百萬次計算。這不僅涉及到將圖片轉換為像素,還包括嘗試通過這些像素去了解圖片中的內容,接下來你將首先來了解如何從這些像素中提取信息並理解其代表的內容。

那麼,讓我們了解一下機器如何去看(像人眼一樣)? A. 用數字表示顏色:在計算機科學中,每種顏色都由指定的十六進位值來表示。機器通過這種編碼方式,來了解圖像像素是由什麼顏色組成的。而作為人類,我們天生就擁有基因來區分不同色調。

B. 圖像分割:使計算機識別出相似的顏色組,然後分割圖像,即將前景與背景區分開。顏色漸變技術被用來查找不同對象的邊緣。

C. 查找角點:分割後,查找圖像中的某些特徵,也稱為角點(corners)。簡而言之,算法會搜索以一定角度相交的線,並以一種顏色的陰影覆蓋圖像的特定部分。角點(也稱為特徵)構建基塊,可幫助查找圖像中包含的更詳細信息。

D. 查找紋理:確定圖像中的紋理是正確識別圖像的另一個重要因素。兩個對象之間的紋理差異使機器正確地對對象進行更容易地分類。

E. 做出猜測:執行上述步驟後,機器需要做出接近正確值的預測或者推斷,並將圖像與資料庫中存在的圖像進行匹配。

F. 最後,看大圖!最後,一臺機器會看到更大、更清晰的畫面,並根據所提供的算法指令檢查是否正確地識別了該畫面。在過去的幾年中,準確性得到了很大的提高,但是當機器被要求處理帶有混合物體的圖像時,機器仍然會犯錯誤。

擁有計算機視覺研究小組的大學:

美國大學

卡內基梅隆大學機器人學院 加州大學洛杉磯分校 北卡羅來納大學教堂山分校 華盛頓大學 加州大學伯克利分校 史丹福大學 麻省理工學院 康奈爾大學 賓夕法尼亞大學 加州大學爾灣分校 哥倫比亞大學 伊利諾伊大學香檳分校 南加州大學 密西根大學 普林斯頓大學 羅切斯特大學 德克薩斯大學奧斯汀分校 馬裡蘭大學學院公園 布朗大學 中央佛羅裡達大學 紐約大學 密西根州立大學 麻省大學,阿默斯特 西北大學 加州大學聖地牙哥分校

加拿大的大學:

艾伯塔大學 多倫多大學 不列顛哥倫比亞大學 西蒙弗雷澤大學

歐洲大學:

INRIA法國 牛津大學 蘇黎世聯邦理工學院 德國馬克斯·普朗克研究所 愛丁堡大學 薩裡大學 弗萊堡大學 瑞典KTH 德勒斯登大學 達姆施塔特工業大學 瑞士EPFL 魯汶大學 巴塞隆納計算機視覺中心 瑞士IDIAP 倫敦帝國理工學院 海德堡國際機場 曼徹斯特大學 波恩大學 亞琛工業大學 阿姆斯特丹大學 慕尼黑工業大學 捷克技術大學 劍橋大學 格拉茨 IST奧地利 倫敦瑪麗皇后大學 蘇黎世大學 代爾夫特大學 利茲大學 伯爾尼大學 隆德大學 義大利特倫託大學 義大利佛羅倫斯大學 斯圖加特大學 薩爾大學 巴黎中央學校 巴黎理工學院 奧盧大學 卡爾斯魯厄理工學院

如果你是計算機視覺領域的新手,可以在下面找到一系列初學者需要了解的基礎知識點。

A.初學者水平 數學:

線性代數 https://www.khanacademy.org/math/linear-algebra奇異值分解 https://www.youtube.com/watch?v=sJV0QyHoRio入門級模式識別 https://ocw.mit.edu/courses/media-arts-and-sciences/mas-622j-pattern-recognition-and-analysis-fall-2006/主成分分析 https://www.youtube.com/watch?v=H0HjNuNvFVI卡爾曼濾波 https://www.youtube.com/watch?v=d0D3VwBh5UQ傅立葉變換 https://www.youtube.com/watch?v=hVOA8VtKLgk&list=PLuh62Q4Sv7BUSzx5Jr8Wrxxn-U10qG1et&index=1小波 https://www.youtube.com/watch?v=4fQAlD5wZKA圖像處理:

杜克大學在Coursera上提供的在線課程 https://www.coursera.org/learn/image-processing岡薩雷斯和伍茲的數字圖像處理 http://www.imageprocessingplace.com/B.高級水平

線性判別分析 https://www.youtube.com/watch?v=aSyQqHY4Vqc概率,貝葉斯規則,最大似然,MAP https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-041-probabilistic-systems-analysis-and-applied-probability-fall-2010/混合物和期望最大化算法 https://www.youtube.com/watch?v=Q1oqJSgp_Dk入門級統計學習 https://www.coursera.org/specializations/statistics支持向量機 https://www.youtube.com/watch?v=_PwhiWxHK8o遺傳算法 https://www.youtube.com/watch?v=kHyNqSnzP8Y隱馬爾可夫模型 https://www.youtube.com/watch?v=D_RIe5bd3hk貝葉斯網絡 https://www.coursera.org/learn/probabilistic-graphical-models要獲得有關理論和技術(尤其是算法)的實踐知識,請從計算機視覺的角度開始學習OpenCV:

學習OpenCV:使用OpenCV庫的計算機視覺(https://www.amazon.com/Learning-OpenCV-Computer-Vision-Library/dp/0596516134)Tombone的計算機視覺博客(http://www.computervisionblog.com/)提示:使用C,C ++,Python進行編程時,我們使用OpenCV庫進行計算機視覺的相關實踐任務。在MATLAB中進行編程時,我們使用計算機視覺系統工具箱(https://in.mathworks.com/products/computer-vision.html?s_tid=gn_loc_drop) 。 同樣,如果你使用其他語言編程,則還需要更多的開源庫。

你還應該了解領域中科學研究的關鍵工作,在這裡你可以從中學習它們:

SIFT:通用視覺的經典描述符 https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdfHOG:眾所周知的描述符,特別適合人類檢測Viola-Jones:偉大的人臉檢測器 https://www.microsoft.com/en-us/research/people/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fum%2Fpeople%2Fviola%2Fpubs%2Fdetect%2Fviolajones_ijcv.pdfShape Contexts http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.18.8852&rep=rep1&type=pdfDeformable Part Models http://www.rossgirshick.info/latent/必讀書籍清單包括:

入門級:

計算機視覺:算法與應用 http://szeliski.org/Book/計算機視覺:現代方法David A. Forsyth,Jean Ponce http://cmuems.com/excap/readings/forsyth-ponce-computer-vision-a-modern-approach.pdf計算機視覺中的多視圖幾何。作者:Richard Hartley,Andrew Zisserman http://books.google.cn/books?hl=en&lr=&id=si3R3Pfa98QC&oi=fnd&pg=PR11&dq=computer+vision&ots=aQo-nw6e4Q&sig=zGRDslfuKd1ytlZWwTaTKcuLdNw&redir_esc=y高級水平—走向深度學習

Michael Nielsen的「神經網絡和深度學習」在線書;這是一個非常棒而溫和的介紹:神經網絡和深度學習 http://neuralnetworksanddeeplearning.com/Ian Goodfellow,Yoshua Bengio和Aaron Courville撰寫的深度學習書 http://www.deeplearningbook.org/當機器可以感覺到你的情緒時會發生什麼?點擊連結觀看視頻 https://youtu.be/QFk3e5PcK7s

TED觀看演講:

李飛飛:我們如何教計算機理解圖片 https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_picturesBlaiseAgüera和Arcas:PhotoSynth如何連接世界圖像 https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures淺川千惠子:新技術如何幫助盲人探索世界 https://www.ted.com/talks/chieko_asakawa_how_new_technology_helps_blind_people_explore_the_world詹妮弗·希利:如果汽車可以說話,則事故可以避免 https://www.ted.com/talks/jennifer_healey_if_cars_could_talk_accidents_might_be_avoidable戈蘭·萊文(Golan Levin):回望你的藝術 https://www.ted.com/talks/golan_levin_art_that_looks_back_at_youPaul Debevec:製作真實照片的數字臉動畫 https://www.ted.com/talks/paul_debevec_animating_a_photo_real_digital_face戈蘭·萊文:軟體藝術 https://www.ted.com/talks/golan_levin_software_as_art在線課程:

入門級:

Udacity:計算機視覺概論 https://www.udacity.com/course/introduction-to-computer-vision--ud810史丹福大學的CS231n:用於視覺識別的卷積神經網絡 http://cs231n.stanford.edu/中央佛羅裡達大學-Mubarak Shah教授的視頻講座 https://www.crcv.ucf.edu/videos/lectures/2014.php從上述資源中獲得的概念和算法,你可以去解決一些任務並自行完成一個項目。高級水平—走向深度學習

傑夫·欣頓(Geoff Hinton)在Coursera上的神經網絡講座 https://www.coursera.org/learn/neural-networks斯坦福課程:自然語言處理的深度學習 http://cs224d.stanford.edu/史丹福大學課程:用於視覺識別的卷積神經網絡 http://cs231n.stanford.edu/講座課程:

計算機視覺中的深度學習(Sanja Fidler教授) http://www.cs.utoronto.ca/~fidler/teaching/2015/CSC2523.html先進的計算機視覺(James Hays教授) http://www.cc.gatech.edu/~hays/7476/全球項目

a. 微軟計算機科學家和研究人員正在努力「解決」癌症

https://news.microsoft.com/stories/computingcancer/ b.東京項目 ——提供基於AI的應用原型,以增強盲人或視力障礙者對社交,物理和文本環境的認識。https://www.microsoft.com/en-us/research/project/project-tokyo/ C.教機器預測未來http://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 最左側的列顯示操作開始之前的幀,其下方是算法的預測。右列顯示視頻的下一幀。另一種讓你自己了解計算機視覺領域正在進行的研究的方法是跟隨作者並閱讀他們在頂級會議上的論文,如CVPR、ICCV、ECCV、BMVC。

與專家的對話

以下交談摘錄是我與兩位對計算機視覺領域充滿熱情的專家交談的。

與Devi Parikh教授的對話| Facebook AI Research的客座研究員| 喬治亞理工學院(以前是維吉尼亞理工學院)助理教授

計算機視覺是人工智慧的一個子領域,其目標是構建可複製人腦視覺的智能計算機。機器學習是教機器學習的通用術語,但是計算機視覺專門處理視覺數據。在機器學習中,我們更多地使用了統計工具,而計算機視覺同時使用了統計工具和非統計工具。例如,計算機視覺領域的3D重建任務中使用機器學習工具的頻率要比圖像分類和對象識別等技術要低。許多計算機視覺任務都有其自己的需求,我們為此開發了特定的機器學習工具。 對於任何想開始學習該領域的學生,我建議他們通過研究人員的網頁來選擇他們感興趣的問題來學習。大多數情況下,人們都在研究最前沿的問題,這些問題可以從該網頁獲得可用的標準數據集。他們可以選擇一個研究問題,一個數據集以及一個他們可能想使用的庫,然後動手去做。 在攻讀碩士或博士學位的學生,我通常會去尋找有責任心,積極性和決心的來作為我的學生。為了使你的基本概念清晰明了,可以嘗試閱讀研究論文,嘗試了解全世界研究人員正在研究的AI前沿問題。

B.與Richa Agrawal的對話 | 賓夕法尼亞大學校友| Whodat的計算機視覺研究工程師

我畢業於齋浦爾MNIT,在那學習期間,我與Robotics研究組取得了聯繫,我們合作實現了一些項目,然後參加IIT Roorkee的國家級比賽並贏得了比賽,這段經驗極大地鼓舞了我。完成學士學位後,我開始在Yahoo工作,我意識到這不是我想要做的事,因此去了賓夕法尼亞大學攻讀碩士學位。攻讀碩士學位的這段時間,我通過學習不同的課程探索了不同的研究領域,並最終決定將計算機視覺作為我的主要研究方向。畢業後,我在美國的一家初創公司工作,並希望在印度尋找計算機視覺的就業機會。在Whodat(一家基於Bangalore的計算機視覺初創公司)中,我們使用增強現實和可視化技術對圖像進行研究處理。比如,你打算為自己的房屋購買家具,你針對家庭的布局環境去商店後選擇了一家家具店,但在家具交付後,常常會出現家具太大或太小的問題,現在沒有什麼技術可以解決該問題。我們正在嘗試通過構建一個解決方案來幫助你,該解決方案可以使商店的家具在你家中進行可視化布置。這將使你能夠做出更好的決定,並輕鬆地購買物品。 在學習時,很多時候我無法盡力而為,經常感到沮喪,但後來朋友的建議來了。他告訴我-「只有少數人(不到0.1%)能夠做到這一點(在國外讀碩士和在計算機視覺等技術領域有如此研究),並且而你正是其中之一。而且你如果加倍努力,你自己可以做到其它人做不到的東西。

對於學生入門的一些建議,在與其他學院同齡人的交談之後,我建議你參加比賽和黑客馬拉松。重要的是要找到自己的興趣,而不是在自己不喜歡的地方工作。例如,計算機視覺在印度是一個廣闊的領域,在印度有廣闊的發展空間,在這個領域,你所需要的只是一架已經開始滲透到更小的城市的相機。因此,計算機視覺的未來絕對是光明的。

相關焦點

  • 為什麼說現在是計算機視覺最好的時代?
    隨著深度學習的迅猛發展,計算機視覺也成為了目前人工智慧領域落地最順利的技術。計算機視覺(Computer Vision)是一門研究如何用攝影機和計算機代替人眼對目標進行跟蹤、識別、分析、處理等。此過程極具挑戰性,光是隔離圖像並進行識別的簡單概念就花費了研究人員大量的時間。
  • 算法到實戰,如何零基礎入門計算機視覺領域
    為了讓大家更好的理解計算機視覺在人工智慧領域的強大應用,12月7日晚,上海交通大學盧憲凱博士受【雷鋒網】AI慕課學院邀請,開展了一場主題為《計算機視覺概述和深度學習簡介》的公開課,盧博士在公開課中給大家介紹了計算機視覺的定義、研究方法和應用舉例,重點介紹深度學習發展歷史,常見深度學習網絡介紹和開發平臺,幫助計算機視覺入門者和從業者進行有效的基礎夯實和系統梳理。
  • 中國計算機視覺技術現狀與發展趨勢分析
    Al領域計算機視覺佔比最重  計算機視覺在人工智慧裡可以類比於人類的眼睛,是在感知層上最為重要的核心技術之一。計算機視覺技術模擬生物視覺,將捕捉到的圖像中的數據及信息進行分析識別、檢測、跟蹤等,真正去「識別」和「理解」這些圖像。目前此項技術已經廣泛應用到安防、自動駕駛、醫療、消費等,也是目前人工智慧技術中落地最廣的技術之一。
  • 人工智慧之計算機視覺應用專題報告2016
    計算機視覺作為人工智慧技術的基礎,受到深度學習的成功影響在近幾年內取得了突破性的進展,正在成為影響行業發展的下一個引擎。巨頭紛紛布局,市場也吸引了越來越多的人才創業參與其中。計算機視覺正在成為人工智慧最火熱的細分領域之一。本報告將針對計算機視覺技術發展的關鍵節點、市場現狀及應用場景進行分析和研究。
  • 計算機視覺的三部曲 - 人人都是產品經理
    計算機視覺目前已經被應用到多個領域,如無人駕駛、人臉識別、文字識別、智慧交通、VA/AR、以圖搜索、醫學圖像分析等等,是人工智慧(AI)目前最火的領域之一。那計算機視覺是什麼?完整鏈路是怎樣的?有哪些技術點?本文將跟大家一起探討。計算機視覺(Computer Vision),就是用機器來模擬人的視覺獲取和處理信息的能力。
  • 深度學習與計算機視覺群|文末送書
    深度學習與計算機視覺③群已組建,上次開放進群,沒來得及進的小夥伴,抓緊啦 。之後,我們會在交流群開展「你挑我送」為主題的送書活動喲~ 歡迎加入!!!在過去的750天裡,深度學習與計算機視覺公眾號積累了大量的乾貨文章,主要包含OpenCV-Python教程系列、三大目標檢測框架系列(mmdetection、detectorn2與simpledet)、視覺頂會系列、計算機視覺學習路線以及學界雜談
  • 計算機視覺入門大全:基礎概念、運行原理、應用案例詳解
    選自 tryolabs機器之心編譯參與:魔王這是一篇計算機視覺入門指南,從概念、原理、用例等角度介紹了計算機視覺。「機器能夠模擬人類視覺系統」的幻想已經過時了。自 1960 年代第一批學術論文出現以來,計算機視覺已經走了很遠,現代系統已經出現,且它們可以集成到移動應用中。
  • 光學預處理使計算機視覺更強大、更節能
    使用深度學習卷積神經網絡的計算機(處理圖像的算法層)已經徹底改變了計算機視覺。但是,卷積神經網絡(CNN)通過從先前訓練的數據中學習,經常記憶或發展成定式來對圖像進行分類。而且比較容易受到對抗性攻擊,這些攻擊以圖像中微小的、幾乎無法察覺的扭曲形式出現,從而導致錯誤的決策。這些缺點限制了CNN的實用性。
  • 《鬃獅蜥飼養超級指南》新手入坑必備指南
    2016年12月由【rlyl的自然世界】、【爬寵圈】等國內多家爬寵資深機構聯合出品,並受到【爬魂】、【爬結構 】等幾十家爬寵專業團隊鼎力支持的【爬寵飼養超級指南】系列書籍第一冊《鬃獅蜥飼養超級指南》正式發布!並廣受好評!
  • 《環世界》神經計算機有什麼作用 神經計算機作用一覽
    想來很多朋友都還不是很清楚吧,所以呢小編今天給大家帶來的就是環世界神經計算機作用一覽,需要的朋友不妨進來看看。 環世界神經計算機作用一覽 神經計算機提供20%的研究速度加成;學習助理提供20%的額外全局學習速度。
  • 華人計算機視覺宗師,Thomas S.Huang(黃煦濤)先生去世!
    雷鋒網(公眾號:雷鋒網) AI 科技評論消息:計算機視覺之父,華人視覺宗師 Thomas S.Huang(黃煦濤)在美東時間 2020 年 4 月 25 日夜間去世,享年 84 歲。這於計算機視覺,特別是中國計算機視覺領域,無疑是一大哀痛。 在我國計算機視覺歷史上,起到關鍵作用的有兩位重要人物,分別是:傅京孫(1930-1985)和黃煦濤(1936-2020)。 如果說模式識別之父、普渡大學的傅京孫是中國模式識別的引路人,那麼也曾在普渡任教的黃煦濤則是中國計算機視覺的「關鍵先生」。
  • 光遇新手一圖流攻略 新手教程快速入門玩法指南
    18183首頁 光遇 光遇新手一圖流攻略 新手教程快速入門玩法指南 光遇新手一圖流攻略 新手教程快速入門玩法指南 來源
  • 從AI超現實機器人藝術家Ai-Da 看計算機視覺的發展
    基於計算機視覺技術的應用,Ai-Da能夠通過雙眼處的攝像頭跟蹤識別人類的面部特徵,並模仿人類的面部表情。據悉,Ai-Da的首次展覽將於今年5月在牛津大學舉行,並於11月在畫廊展出。AI超現實機器人藝術家「Ai-Da」誕生的背後,是計算機視覺技術的應用與發展。
  • 使命召喚手遊新手怎麼玩-新手玩法指南
    使命召喚手遊新手怎麼玩,相信不少的玩家都有這樣的疑問,今天小編就為大家帶來使命召喚手遊新手玩法指南,希望可以幫到玩家。使命召喚手遊新手玩法指南都可以裝備槍械配件,不同的槍械配件可以給你帶了不同的遊戲體驗和思路(找出最適合你的那套)codm有靶場和人機對戰,配好新槍後用一用別把自己坑了  3 提前看cod道具描述,有很多致命傷害道具,有些是你玩了很多槍戰遊戲沒有見過的輔助型道具  4 提前查看天賦,連殺獎勵和技能(這對於對局很有幫助,天賦加槍械配件搭配會起到更好的作用)新手建議連殺帶個偵察機
  • 中金:如何把握計算機視覺公司上市元年的投資機會?
    我們認為2021年將是計算機視覺公司登陸資本市場的元年。中金科技團隊從2017年開始跟蹤商湯、曠視、依圖、雲從、雲天勵飛等一批企業。通過這幾年的跟蹤,以及對這批企業招股書的分析,我們看到:1)軟硬體一體的智慧城市解決方案已經成為計算機視覺公司的主要商業落地場景;2)各家企業從最初的算法起家,逐漸找到了適合各自的商業模式;3)長期來看數位化轉型是AI企業重要的發展機遇。
  • PyTorch官方教程大更新:增加標籤索引,更加新手友好
    PyTorch官方教程大更新:增加標籤索引,更加新手友好 2020-05-17 19:08 來源:澎湃新聞·澎湃號·湃客
  • 《心動莊園2》新手怎麼玩 新手操作指南
    大家可以在遊戲中種菜、開車、養小動物等,那麼新手玩家該如何上手遊戲呢?接下來小編給大家帶來遊戲的上手指南。 【蔬菜的種植... 《心動莊園2》作為一款全新的休閒類遊戲,玩家可以在遊戲中體驗各種活動帶來的樂趣。大家可以在遊戲中種菜、開車、養小動物等,那麼新手玩家該如何上手遊戲呢?
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的「智力」
    20 世紀 50 年代和 60 年代,計算機視覺並沒有被看成重頭戲,人們認為視覺系統很容易複製,而教計算機下棋更加困難。
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的 「智力」
    20 世紀 50 年代和 60 年代,計算機視覺並沒有被看成重頭戲,人們認為視覺系統很容易複製,而教計算機下棋更加困難。但是現在,AlphaGo 已經擊敗圍棋冠軍,IBM Watson 也在 Jeopardy 中擊敗人類競賽者,而大多數計算機視覺軟體最多只能完成 3 歲兒童的任務……理論與實踐不斷證明,人類視覺神經非常複雜,計算機視覺實現並非易事。計算機視覺研究從上世紀 50 年代興起之後,也歷經了狂歡、冷靜,又重新燃起希望的階段。
  • 加速AR對象分類,Facebook開源計算機視覺算法Detectron
    文章相關引用及參考:roadtovrFacebook今天正式開源基於深度學習框架的計算機視覺對象檢測算法平臺Detectron(映維網 2018年01月24日)Facebook今天正式開源基於深度學習框架的計算機視覺對象檢測算法平臺Detectron。