AI+時代,談談產品經理對圖像識別技術的閾值控制

2020-12-22 雷鋒網

產品滿足用戶的需求有一個閾值,產品值低於閾值用戶會覺得了無生趣,即產品一般般,也即產品經理做了功能經理。產品值等於閾值產品功能基本滿足了用戶的需求,而只有產品經理駕馭了需求,把產品做成作品,產品值才有可能高於閾值,任何時候產品經理應該學習到高於需求閾值的產品方法論。AI+時代圖片識別技術就是起點!

撰寫本篇的目的:

當下每天看的到一個詞:AI,滿眼皆是AI的階段,我們產品經理應該如何了解到AI的技術脈絡和市場需求大勢。AI不是新的概念,再次起來是因為有新的突破。

創新工場的李開復博士說現在是技術從業者創新的時代,那麼我們產品經理究竟知道AI的哪些技術呢,本篇著重分析一下AI+時代的圖像識別技術。

在AI領域之中,圖像識別技術佔據著極為重要的地位,而隨著計算機技術與信息技術的不斷發展,AI中的圖像識別技術的應用範圍不斷擴展,如LineLian所見過的IBM的Watson醫療診斷、各種指紋識別、及常用的支付寶的面部識別以及百度地圖中全景衛星雲圖識別等都屬於這一應用的典型,AI這一技術已經應用於日常生活之中,圖像識別技術將來定會有著較為廣泛的運用,而為了保證AI中的圖像識別技術能夠較好地服務於AI+時代的幾個重要產品領域,正是本篇就AI中的圖像識別技術展開具體研討的目的所在。

圖像識別概況:

為了較好完成產品經理理解AI中的圖像識別技術的本源,我們首先需要深入了解圖像識別技術。作為智能領域的重要組成部分,圖像識別的發展先後經歷了文字識別、數字圖像處理與識別、物體識別三個發展階段,而在AI+時代的圖像識別技術中,其本身所具備的功能早已超過了人類的極限,這也是AI的圖像識別技術能夠在各個垂直產品領域實現較好應用並幾乎成為標配的原因所在。

最開始產品經理要明白圖像識別技術本身的原理並不算太過複雜,信息的處理是這一技術的關鍵點所在,由於應用計算機實現的圖像識別技術本身與人眼識別並不存在著本質的差別,這就使得圖像識別技術同樣需要根據自身對圖像的記憶完成具體的識別工作。

在人類進行圖像識別的過程中,人類的大腦會將圖像的特徵進行提取,並結合大腦中以往對各類圖像的認知判斷自身是否對圖像存在過印象,這就是人們能夠在觀看一張圖片後快速對其識別的原因所在。結合人類識別圖像的原理,在計算機進行的圖像識別中,計算機首先就能夠完成圖像分類並選出重要信息、排除冗餘信息,根據這一分類計算機就能夠結合自身記憶存儲結合相關要求進行圖像的識別,這一過程本身與人腦識別圖像並不存在著本質差別。

對於圖像識別技術來說,其本身提取出的圖像特徵直接關係著圖像識別能否取得較為滿意的結果。值得注意的是,由於計算機歸根結底不同於人類的大腦,所以計算機提取出的圖像特徵存在著不穩定性,這種不穩定性往往會因為計算機提取圖像特徵的明顯與普通影響圖像識別的效率與準確性,由此可見圖像特徵對於AI中圖像識別技術的重要意義。

圖像識別分析:

對於當下AI+時代的圖像識別技術來說,神經網絡的圖像識別技術與非線性降維的圖像識別技術是最為常見的兩種圖像識別技術,LineLian將對兩種常見的AI圖像識別技術進行詳細分析。

一、神經網絡的圖像識別技術

想要深入了解非線性降維的圖像識別技術,我們就必須理解何為神經網絡,這裡的神經網絡全稱人工神經網絡,其本身指的是在現代神經生物學研究基礎上提出的模擬生物過程以反映人腦某些特性的計算結構,雖然我們使用了模擬這一名詞,但事實上神經網絡本身並沒有完全模仿人類的神經網絡,其本身只是通過對人類神經網絡的抽象、簡化和模擬實現相關計算結構效率的提升。

對於神經網絡的圖像識別技術來說,其能夠實現圖像的識別主要得益於神經網絡學習算法的運用,而在應用神經網絡進行的圖像識別中,我們首先需要對相關圖像進行預處理,這一預處理主要包括真彩色圖像轉換為灰度圖、灰度圖像的旋轉與放大、灰度圖像的歸一化等內容。為了保證神經網絡能夠較好地實現圖像識別,我們還需要針對圖像識別的領域與對象完成具體的神經網絡設計,這一設計主要包括以下五方面:

  • 輸入層設計

  • 隱含層設計

  • 輸出層設計

  • 初始權值的選取

  • 期望誤差的選取

在輸入層設計中,我們需要根據圖像識別對象的需要確定求解的問題與數據表示方式,而在本篇進行的研究中,為了我們產品經理理解,LineLian將輸入層統一設計為16×16圖像樣本尺寸縮放大小,256 維網絡輸入需要;而在隱含層的設計中,我們需要確定隱含層的數目與隱含層單元數的選擇,當下業界已經確定了隱含層神經元數目的增加能夠保證誤差精度的降低,所以適當時候增加隱層數目就能夠較好地完成神經網絡的設計,而在隱含層單元數的選擇中,我們可以參考經驗公式 L=√M+N +a,L=log2N,這樣就能夠有效避免神經網絡泛化能力較弱,對於訓練外樣本識別率降低的問題出現,公式中的 M 代表的是輸出層神經元數目,而 N 則代表輸入層神經元數目。

值得注意的是,通過刪除那些影響較小的隱含層單元能夠較好地提高神經網絡的自身性能,但結構選定花費時間較長是這一方法的缺陷所在;在輸出層的設計中,一般會選擇多輸出型作為神經網絡的設計;而在初始權值的選取中,為了滿足神經網絡在學習過程中的較好收斂,初始權值一般選為(-1,1)之間的隨機數;而在期望誤差的選取中,其本身需要參考訓練時間與預期誤差值,這裡LineLian選擇 0.001 作為期望誤差值。

在完成神經網絡的設計後,我們還需要進行神經網絡的訓練才能夠保證其較好的滿足圖像識別需求,為了保證這一設計的較好實現,LineLian選擇在 MATLAB7.0 中使用函數 newff創建一個兩層網絡,這一網絡包括 1 個輸出神經元、16×16 個輸入、26 個單元的隱含層,學習函數則選擇了 learngdm,初始學習速率為 0.01 ~ 0.6、訓練性能函數「mse」、訓練指標 0.001、訓練最大循環 2500。

在完成上述提到的神經網絡設計與訓練後,我們就可以著手對其進行應用實驗,在這一實驗中筆者應用這一神經網絡對 26 個手寫英文字母的圖片進行了識別,下表 為這一識別的識別結果,結合該表我們能夠發現,不同節點數目會直接影響神經網絡圖像識別的識別率,而 26 個隱含層節點數能夠較好滿足圖像識別的需求,下圖為隱含層為 26 時神經網絡訓練的誤差性能曲線及訓練時間。

結合這一結果我們可以斷定,神經網絡識別技術能夠較好滿足手寫字母的識別,其本身在這一識別的過程中體現了準確、快速、較強抗幹擾能力等特點,這些特點使得其本身能夠憑藉著學習算法較好地應用到更多複雜的圖像識別中,更好地為我們垂直領域的產品提供服務。

二、非線性降維的圖像識別技術

除了神經網絡的圖像識別技術外,非線性降維的圖像識別技術也是當下AI時代較為常用的圖像識別技術形式。對於傳統應用計算機實現的圖像識別技術來說,其本身屬於較為高維的識別技術,這種高維特性使得計算機往往在圖像識別的過程中承擔著很多不必要的負擔,這種負擔自然會影響圖像識別的速度與質量,非線性降維的圖像識別技術就是能夠較好實現圖像識別降維的技術形式。

在非線性降維的圖像識別技術出現前,業界最常採用的是線性降維的圖像識別技術,這種技術本身具備著簡單易於理解的優點,但在實際應用中人們發現,線性降維的圖像識別技術存在著計算複雜度高且佔用相對較多的時間和空間特性,也使得線性降維的圖像識別技術不能夠較好地滿足各產品領域圖像識別的需要。對於非線性降維的圖像識別技術來說,其本身能夠在不破壞圖像結構的前提下實現其自身的降維這就使得圖像識別技術的識別速度與精度能夠實現較好的提升。

例如在人臉識別系統中,以往受圖像維度較高的影響,人類識別系統往往需要耗費大量的時間,計算機系統也往往會受到較大的「摧殘」,這主要是由於人臉在高緯度空間中存在的分布不均勻特性所致,而在應用非線性降維的圖像識別技術後,人臉圖形就能夠較好地實現自身的緊湊,這就使得人臉識別系統的工作效率大大提升,總的來說非線性降維的圖像識別技術能夠較好地為圖像識

別提供輔助,上文中LineLian提到的神經網絡的圖像識別技術,也能夠在非線性降維的圖像識別技術的支持下更好地完成自身工作。

圖像識別技術的對產品領域的應用

隨著智能網絡中的AI技術不斷發展,其本身將在產品數據安全、AI+醫療產品、AI+直播產品、AI+社交產品等垂直領域產生重要的產品應用。

之前人機圍棋大戰,最終人類頂尖棋手李世石以 1:4 不敵 Google 出品的人工智慧 AlphaGo。其核心原理採用了多層神經網絡對圖像進行分析,同時運用深度學習算法總結規律,最終得出戰勝人類高手的棋招。

圖像鑑別,10000 個場控都幹不來網際網路的開放不僅帶來了自由,同樣也成為垃圾信息的溫床。最為人熟知的一個職位叫做「鑑黃師」,代表人物自然是「唐馬儒」,但實際上「唐馬儒」再多也滿足不了現在對於圖像鑑別和挖掘的需求。最好的例子就是前不久爆出的「直播造人」,視頻和直播類內容的興起使得對內容的鑑定需求呈幾何倍數增長。

直播對於審核的實時性要求太高,同時在線的直播數量大,一不小心違規的東西就上線了。傳統的解決方案是通過人力完成,所需要的人數會與主播成一個比例。通常都是好幾百人坐在屏幕前面持續對閃過的畫面進行篩選,如果發現不符合規定就進行人工處理。而AI+時代的產品趣向是利用AI圖像識別技術。

另外在公共安全領域中,人臉識別產品的應用就能夠較好的提高市場社會的安全性與便利性;而在醫學領域中,心電圖與 B 超的識別將大大促進用戶醫療事業的便捷;而在農業領域中,種子識別科技產品與食品品質檢測科技產品的應用將大大提高農產品的生產質量,例如我家種了幾十畝葡萄 葡萄需要剪枝 修果 摘葉需要很多的勞動力, 感覺很多環節可以通過圖像識別的機器來處理,粒徑不同的果粒,大小不一的葉片,高度不同的枝條,我總覺得可以通過圖像對比來區分,篩選,這樣的AI圖像識別機器人才是剛性需求。

在日常生活中圖像識別技術在冰箱中的運用將大大提高用戶生活的便利性,這一應用能夠實現自動冰箱食品列表生成、食品保鮮狀態的顯示、食物最佳儲存溫度的判斷等功能,這些將大大提高用戶的生活品質。在未來科學技術的不斷發展中,AI的圖像識別技術還將實現更為長足的發展,而這一發展也將能夠更好地接受圖像識別技術產品所帶來的服務,最終大大提高用戶的生活質量。

作為一門科技含量較高的新興技術,AI的圖像識別技術已經與用戶的生活緊密結合在一起,而為了保證其能夠更好的為用戶提供服務,對於科技網絡從業緊密相關的產品技術人員就必須大力推進AI圖像識別技術產品的不斷學習與創新,這對於我們產品經理未來創造的很多產品息息相關並將提高產品效率和切中用戶對產品的剛性需求。

產品思維是抓住機遇,需求一旦過氣了或者被競爭對手超越了產品想勝出是是十分困難的,只能跟隨市場的步伐去追市場的需求而迭代。而AI+時代的產品經理應該有的思維模式是作品思維,不僅僅是追隨需求,更多的是錘鍊過濾並真金不怕火煉般的引領需求的潮流。

雷鋒網(公眾號:雷鋒網)按:本文由 @連詩路 前阿里產品專家原創發布於人人都是產品經理。未經許可,禁止轉載。

雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AI+時代,做一名焦慮的產品經理不如訓練遷移思維
    另外一個案例是微信,被稱為移動網際網路時代第一產品,如果沒有移動網際網路軟硬體技術的進步,尤其是智慧型手機的突觸,就不會有張小龍今天的產品市場地位。所以,產品經理的關鍵點除了參悟透人性需求之外,其更關鍵的點是認知和遷移。
  • 產品經理AI指北(二):AI產品經理的六頂思考帽
    而我們作為AI產品經理,需要的一個觀點是萬物皆數據。不管是NLP (Natural Language Processing)自然語言識別,計算機視覺、圖像識別等等方面,最終都是將實體轉化為計算機能夠理解的數據符號來加以理解。我們在學習深度學習的時候有一個很經典的例子,就是手寫數字的識別(基於MNIST數據集)。
  • 百度大腦產品上新&技術升級:圖像處理、智能寫作平臺、語音識別
    百度大腦一月一次的最新技術&產品盤點來了。在這裡,與百度大腦一起成長,見證 AI 的力量。您可以從 PC 端訪問百度 AI 開放平臺(ai.baidu.com)申請邀測,或使用最新產品。新開放 AI 技術能力語音識別語音識別極速版支持60秒內音頻使用 REST API 方式進行調用,簡單易用。
  • 實戰分享:如何規劃一款人臉識別考勤門鎖產品
    一般客戶會提出大概的需求,產品經理需要仔細考慮每一個需求描述,結合自身對競品、場景和技術的了解,設計產品方案,並反覆與客戶溝通。一般的人臉識別流程如下圖所示:關於人臉識別流程,網上有很多資料,寫的非常詳細,具體查看:1)《人臉識別產品設計,AI產品經理需要了解的實戰乾貨》2)《人臉識別 | AI產品經理需要了解的CV通識(二)》3) AMiner 第十三期研究報告《2018
  • AI產品公開課|在AI技術「商業落地」的過程中,產品經理能做什麼?
    過去人工智慧技術驅動階段重在AI算法模型比拼,如今更要依賴商業場景洞察、專家團隊實力,將AI技術與行業實際需求結合,產生應用與經濟價值。當下,AI相關技術與傳統行業經營模式和業務流程開始產生實質性融合,智能經濟時代的全新產業版圖初步顯現。預計2019年人工智慧賦能實體經濟產業規模接近570億元。
  • AI產品經理的入門必修課——案例篇
    導語:前面介紹了「AI產品經理需要具備的能力和對數據、算法需要理解的程度」、「機器學習的實際訓練過程」;後面將圍繞AI產品在當前環境下的熱門應用來進行探討,涵蓋了語音識別、圖像識別、NLP自然語言處理、知識圖譜等產品化落地的場景。
  • 圖像驗證碼和大規模圖像識別技術
    雖然字符識別仍然是最常用的驗證碼方法,但是基於圖像語義識別的驗證碼逐漸出現在一些重要的網際網路應用上,並引起了熱議。一方面大家對其中的一些難題大力吐槽,一方面又有人號稱能夠破解,能夠自動識別這些圖像。那麼,目前的圖片自動識別技術到底有沒有可能破解這種驗證碼呢?有沒有更好的圖像驗證碼方法,既安全又不影響真人的使用體驗?
  • 關於AI學習方法的思考——產品經理入門人工智慧
    2、由此,也許能夠在一定程度上猜測AI產品經理可能存在的類型:機器學習/深度學習AI產品經理:可能包含視覺、語音、圖像、文本等相關技術;數據分析AI產品經理:可能包含不同行業的不同維度的數據分析與數據挖掘;機器人AI產品經理:這裡可能會包含ToB或ToC應用等業務場景;特殊傳感器或執行器AI產品經理:可能包括智能音箱、智能家居、智能家電等等
  • 防不勝防,揭秘指紋識別中的「假技術」
    除了給手機解鎖,指紋識別已經成為安全支付的必要技術,以及家居安防的重要技術。但在紛亂的市場中,有多少假技術在忽悠著你,威脅著你的手機、帳戶、隱私,甚至家人的安全?假技術之一,「活體指紋」危險指數★★★★在契約紙上按下指印是Finger「Print」這個詞的來源。為把手指上的指紋與紙上的指印做區別,就會加上Alive這個前綴。
  • AI 產品經理入門與勸退指南
    很多產品經理或者還未入行的新人,都在糾結到底要不要做AI產品經理,畢竟帶了「AI」就覺得非常光鮮、非常前沿了,仿佛自己可以趕上一波時代紅利。所以在講AI產品經理的相關知識前,先勸退一波。而關於行業的發展問題,如果自己要是明確想衝入人工智慧行業,趕上所謂的時代紅利,尋找一些工作機會,比如做一名AI產品經理,那依舊是勸退。
  • AppUI自動化中的圖像識別的使用
    人工智慧現在使用的越來越成熟了,如人臉識別,圖像識別等,在AppUI自動化測試中,也有越來越多的框架或是公司引入圖像識別技術來提高自動化測試的執行效率
  • 常用圖像閾值分割算法
    一般流程:通過判斷圖像中每一個像素點的特徵屬性是否滿足閾值的要求,來確定圖像中的該像素點是屬於目標區域還是背景區域,從而將一幅灰度圖像轉換成二值圖像。用數學表達式來表示,則可設原始圖像f(x,y),T為閾值,分割圖像時則滿足下式:                         按照閾值確定的來源,可以分成:人工經驗選擇法;直方圖方法;類間方差法;自適應閾值等。按照閾值確定中的運算範圍,可以分為全局閾值法,局部閾值法。
  • 卷積學習與圖像識別的技術發展
    同樣的技術也可以用來自動讀取 ATM 機上銀行支票的金額。有趣的是,最難的部分其實是查找支票上數字的位置,因為每張支票都有不同的格式。早在 20 世紀 80 年代,楊立昆就顯露出了證明原理(學者們擅長的事情)並將之應用在現實世界中的非凡天賦。後者要求實際產品必須經過嚴格的測試,且表現穩健。
  • 圖像識別與人工智慧圖像識別和機器視覺有什麼區別
    人工智慧領域發展到現在,ai與人工智慧、圖像識別領域、計算機視覺領域等近年來越來越多的整合和融合。首先,人工智慧在生活工作中將普遍應用;其次,人工智慧在不同的工作場景都有其應用,從金融到醫療,從服務到工廠,應用無處不在;最後,人工智慧正在與自動駕駛技術等聯繫在一起。
  • 深度學習中的圖像分割:方法和應用
    基於人工智慧和深度學習方法的現代計算機視覺技術在過去10年裡取得了顯著進展。如今,它被用於圖像分類、人臉識別、圖像中物體的識別、視頻分析和分類以及機器人和自動駕駛車輛的圖像處理等應用上。許多計算機視覺任務需要對圖像進行智能分割,以理解圖像中的內容,並使每個部分的分析更加容易。
  • 碼隆科技CEO黃鼎隆:人工智慧時代的產品經理修煉之道
    我相信未來所有的產品都需要人工智慧,也就意味著所有的產品經理都要懂人工智慧。現在我們處於人工智慧的時代,我們應該感到興奮;但我覺得產品經理除了感到興奮之外,還需要有一點危機感。為什麼?在這個新的時代,我們過去所掌握的很多方法論,尤其是網際網路時代所積累下來的方法論,也許是不適用的。
  • 基於機器視覺的零件圖像採集及識別的研究
    0 引言 機器視覺是通過光學的裝置和非接觸的傳感器自動地接受和處理一個真實物體的圖像,以獲得所需信息或用於控制機器動作的裝置。
  • 光照不均勻圖像分割技巧——分塊閾值
    前言  在數字圖像處理中,圖像分割是很關鍵的一步,當圖像質量較好,光照很均勻的時候只需用全局閾值的方法就能很完美地完成圖像分割任務,但是有些時候會遇到光照不均勻的現象,這個時候就需要用一些技巧才能達到比較好的分割效果,本文要介紹的是一種通過分塊閾值進行分割的方法。
  • 零基礎學習OpenCV_圖像閾值
    圖像閾值threshold:固定閾值二值化ret, dst = cv2.threshold(src, thresh, maxval, type)對於每個像素,應用相同的閾值。如果像素值小於閾值,則將其設置為0,否則將其設置為最大值。函數cv.threshold用於應用閾值。第一個參數是源圖像,它應該是灰度圖像。第二個參數是閾值,用於對像素值進行分類。第三個參數是分配給超過閾值的像素值的最大值。OpenCV提供了不同類型的閾值,這由函數的第四個參數給出。
  • 圖像識別技術的接地氣實踐:「應用拍拍」只需拍攝APP圖標,即可識別...
    最近該團隊將圖像識別技術應用在了APP識別領域,推出了一款APP圖標識別應用「應用拍拍」(Android、iOS仍在審核中),只需要拍攝APP的圖標,即可識別該應用,然後跳轉到相應的下載頁面。 「應用拍拍」團隊創始人Chris 先後在清華和馬裡蘭大學計算機科學系就讀並獲博士學位,曾供職富士施樂 Palo Alto 研究院從事圖像識別、增強現實、人機互動等領域的研究,在圖像識別領域有比較豐厚的技術積累。