「驗證碼」非常常見,發明它的初衷是:區分是真人,還是機器。
最初,驗證碼是經過變形的文字、數字,人可以認出它們,但機器是識別不出來的。再後來,驗證碼也經歷了加減法、選擇題、圖片等階段。
還出現過一些高級任務,如讓你認門牌、認車牌,或從圖片中挑選某樣東西,登錄過鐵路12306的朋友肯定印象深刻。有些驗證碼,別說機器識別了,真人看著都頭大。
而很多人不知道:在輸入驗證碼時,很可能是在給別人打工。
這件事從文字驗證碼時期就開始了。最早,卡梅隆大學的一個教授,他希望解決一個問題:把紙質典籍數位化。但不管是人工錄入,還是機器識別都存在不足。
所以,2007年他成立了reCAPTCHA(人機區分系統),希望用驗證碼系統解決這個「典籍數位化」的問題,目前它也成為應用最廣的驗證碼系統。
那reCAPTCHA系統,是怎麼讓用戶替他打工的呢?非常巧妙!
它的一個驗證碼有兩部分,第一部分是變形的文字,用來檢驗是不是真人,第二部分是機器無法識別文本的截取。在登錄gmail帳號時,看到的驗證碼就是這種。
如果第一部分輸入正確,系統會把結果返回資料庫,系統還會把第二部分給多個用戶,做交叉驗證。所以,第一部分是驗證真人,第二部分就是在為人類做貢獻了。
那通過reCAPTCHA驗證碼,究竟做了多少工作呢?
2007年,系統每天能幫助校驗3000萬個字符,到今天,每天能校驗2億個。相當於人類15萬小時的工作量,等同於2萬人在全職工作。
到今天為止,系統已經錄入了《紐約時報》的1300萬篇文章,還數位化了2500萬本書。
2009年,這家公司被google收購了,用戶開始為google AI做貢獻。
2012年,驗證碼第二部分出現了google街景中的門牌、路牌。除此之外,還有給資料庫分類,例如找出所有狗的圖片。
應用到現在,google AI已經能準確辨認路牌上的文字、數字,準確性不亞於真人。這背後,和千萬用戶輸入驗證碼時的義務勞動是分不開的。google也公開表示了:它的AI人工智慧,其中有廣大用戶的功勞。
今日話題:你覺得12306上的驗證碼,是最逆天的嗎?
如果你喜歡以上的內容,請收藏!
並為我們點讚、分享,這是對我們最大的支持,謝謝!