第148期文匯講堂以在線和在場同步進行的方式舉辦
【導讀】人工智慧在論文抄襲方面是否能起到作用?以各地健康碼收集不同數據為例,如何評判有無過度收集?怎樣面對「貼標籤」後造成的數據歧視問題?7月8日,在由季衛東教授主講,金耀輝教授對話的第148期文匯講堂《AI的權利和義務,人類說了算?》上,線上線下聽友踴躍提問,角度各異,量質齊具。本場講座由上海市法學會東方法學講堂和文匯講堂共同舉辦,以在線和在場同步的方式進行。此篇分享現場與線上的互動問答。
承認機器有人格的條件?能像人一樣思考觀察,有自我意識
上海市五十四中學物理教師李世新:什麼情況下機器人或者說人工智慧算有「機器人格」了?算法完全由人也就是工程師制定的就不能有「機器人格」?人工智慧經過深度學習之後,有了不為工程師所掌握的所謂算法規章制度,能否說他就有了機器意識?能否展望一下人工智慧整體超越人類後的法律問題,所謂強人工智慧時代,法律會怎樣規範機器人?
季衛東:這是個有趣也很有意義的問題。承認機器人有人格的條件是什麼?一般來說有兩個。第一,機器人要能具有像人一樣有觀察、思考、判斷、行動的能力,甚至是超過了人的思考能力。因此思考是人的本質特徵,所以會思考的系統也應該具有人格。第二,機器人還要有自我意識和能動性,而不是僅僅被動地執行人發出的指令。人工智慧經過深度學習後似乎有了自己獨特的判斷,甚至自我認知。就像剛才講的YouTube的人工智慧系統去年8月自動刪除機器人互相殘殺的視頻,似乎出現了機器覺醒。這時候,可以考慮給予機器人或人工智慧以人格。當然他還不是人,還要受到人的控制,這是設計機器人的基本原則。
在這個過程中,從以人為本的角度來看,我剛才提到了機器人格正當化的理由,第一點,機器人到處被應用難免引發事故,這些是深度學習、自主操作的結果,不應由人來負責;如果讓人為人工智慧所帶來的所有負面結果負無限連帶責任,我想金老師就要改行了。因此設計者、製造者、使用者的責任是有限的,為此就要賦予機器人格。第二點,智能合約的違約責任也需要人工智慧系統來負責。第三點,人工智慧制衡人工智慧也需要承認機器人格。
金耀輝:目前要到達強人工智慧還有很長的一段距離。現在除了我們看到的圖像識別或語音識別外,人工智慧在做學習和推理這兩件事。比如在做司法機構做的一些工作,是在一個很垂直、很窄的領域裡做的學習,遠沒有達到強人工智慧所需要的能力。目前,我們在設計過程中,要攻關的是把機器人的非確定性勾畫出來。如果超過了人所設定的範圍,但機器又去做了,這是要追究寫程序的人的責任的,但如果結果是在可預料範圍內,那麼這是機器人的自主權。
不能全靠人工智慧來判斷論文抄襲否,人參與其中辨別特殊性
退休企業人員張建平:現在論文抄襲比較普遍,人工智慧在這方面的維護是否能起到作用?人工智慧怎麼來根據這些數據做出正確判斷?
季衛東:這是一個比較具有法律性質的問題,根據我的理解,可以分為兩個層面。第一個層面涉及到數據本身的可靠性,用這種存在瑕疵的數據來學習會帶來什麼後果?如果數據的質量本身有問題,它可能會帶來糟糕的結果。因此人工智慧用以預測的大數據,必須是高質量的,規格要符合要求。
第二個層面是人工智慧對數據是否可以作出真偽判斷?現在學生提交的學位論文,大學都要求去查重。查重就是用大數據和人工智慧對抄襲與否進行檢測的一種方式。由於法學論文要引用條文和案例,文字內容的重複率往往高些,需要適當考慮其特殊性。
另外,僅靠人工智慧進行檢測也是有問題。我聽說有的同事寫的論文被別人抄襲了,沒有加注引用,利用用人工智慧查重的結果是重複率很高。這時需要人來進行比較分析,防止誤判。因此,歐盟通用數據保護條例規定人們有權拒絕完全由人工智慧做出的決定,需要有人對人工智慧的運作進行介入和監控。
智慧財產權的核心還是你是否有創意,鼓勵多元思維
你的問題還涉及樂機器在學習的過程中,比如他學習的模式,數據的處理模式的智慧財產權,或者是該不該給他智慧財產權。讓他學的數據本身是別人的創作作品,這個也有智慧財產權。你學了這些東西賺了那麼多錢,這就涉及數據的經濟價值怎麼實現?如何達到分配正義的問題。所以智慧財產權問題非常重要,我們也要考慮在大數據中的智慧財產權問題。這涉及學習模式的智慧財產權問題,算法設計的智慧財產權問題,從經濟的角度來看,大數據面對的另外一一個極端就非常重要。
金耀輝:其實這個問題的核心還是人工智慧技術。大數據技術怎麼防範抄襲剽竊?第一,如果是簡單的抄襲文字,很容易解決。第二,其實模仿的是什麼?是這個創意到底是不是一樣?因為他完全可以用不同的詞彙去描述同一件事情。但目前是一件很難的事情。我們和法學院合作時,需要找相似案件,法律判決文書裡很多內容結構是完全相似的。如果用常用的詞頻算法分析,幾乎所有都是抄襲,此時需要的是用另外的方法去把文章背後內容一一解析出來,而語義如何界定相似的意思,這就是人工智慧要做的事情。目前為止,技術在這方面的突破已經跨了一大步了。
各地健康碼的不同由於當時的臨時需要,長久需求時就會統一
上海展覽公司王郟:上月月初去青島出差,那裡的健康碼是以登記身份證、姓名、手機號,比上海要求的信息更多。這讓我產生一個疑問,同樣一個健康碼,它的最終效果是一樣的,為何每個地方需要的數據不同?如何來評判有無過度收集數據?
金耀輝:問題很好。工信部4月底緊急出臺了一個國家指導性規範,介紹了一個完整的標準此前確實各地有各地的辦法。明天就是人工智慧大會了,我們也在討論北京來的嘉賓的課程該怎麼做。在開始大家確實有可能意見不同,因為畢竟要在我所承擔的風險以及我過度使用兩者間做平衡,我相信就是這個過程,我們學習不可能一次到位,如果用機器的思維去理解,我是逐漸去學習去推理,最後收斂的。收斂的最後結果一定是大家,包括我們可能跟國外也是要一致起來。這只是個時間的問題。
最初是各地為了服務地方需求開發出一個系統,但疫情拉長了,就會逐步追求統一,我記得隨申碼打開時有一行小字「記錄一生服務一生」,以後就可能長期化了。
第二,看它的應用場景,原來只是防病毒、測溫、體檢等所用,現在應用場景很多了。深圳廣州上地鐵、公交車都可以用了,在上海場景應用更多了,這倒也給了我們一個啟示。
以健康碼為基礎,創建一個可以有信息保護的多功能身份證系統
季衛東:第一,健康碼不斷追加應用場景,不斷調整統計指標,還有長期化的傾向,引起了不同意見。這種情況說明我們法律制度還不完備,是誰按照什麼程序、根據什麼標準來設定和運行這個系統,是不明確的,所以大家感覺到不安。
第二,這樣一種能夠進行認證、具有多功能而且數位化的身份證系統確實很方便、很有效率。公民要開證明、查詢服務,基本通過一個隨申碼在手機上都能落實。原東歐的愛沙尼亞,是世界上最早推行數位化身份證系統的國家,它的功能就非常多,涉及方方面面,包括交稅、投票,在海外辦理國內投資業務,等等,全部都用一個數位化身份證系統來搞定。
中國因這次疫情防控正好產生了這麼一個數位化身份認證系統,可以考慮在這個基礎上發展出一個覆蓋全國的數位化身份證系統。但這樣做的前提條件是要嚴格依法辦事,加強數據安全保障,防止對隱私和自由的侵害。例如其中包括什麼個人信息,數據主體自己應該很清楚,這就是所謂知情同意。另外,通過加密技術防止別人隨便查閱個人信息,有關職能部門的查閱也要全程留痕。類似這樣一些安全保障措施如果具備的話,相信大家都會歡迎這個身份證系統的。
(李念 整編)
在線聽友在zoom會議室聊天區踴躍提問
數據與隱私保護的矛盾是AI技術面臨的新挑戰
南農大本科生邵昱寧:人工智慧的立法問題之一就是技術與隱私間的矛盾,人工智慧有種模型叫做對抗生成神經網絡,它可以通過輸入小量數據生成大量符合真實分布的數據。這種方法貌似避免了數據和隱私的矛盾,請問金老師怎麼看待這個方向?
金耀輝:的確,法律也給人工智慧提出了許多新的技術問題。在人工智慧領域有兩個重要的學科方向,一是小樣本學習,另一個是聯邦學習。正如季老師剛才說的,並不是單純的把名字、身份證號等信息隱藏掉,就能把個人信息完全隱藏起來。其實只要有一些其他的信息,就很容易攻擊到個人。這方面我們做過很多實驗。
「貼標籤」會造成數據歧視,如何設立公正的技術規格是關鍵
中國政法大學研究生:儘管「貼標籤」面向的並非個體,但對於個體來說,經常會造到大數據歧視等問題,如何面對「貼標籤」後所造成的數據歧視問題?
季衛東:關於大數據中基於個人行為數據而導致的「貼標籤」現象,確實是我們在大數據時代面臨的一個非常重要的問題。特別是在數位化的情況下,個人行為都會留下蹤跡。中國有8億網民,淘寶網上有5億常駐用戶不斷購物,根據這些數據流,網絡企業大致就能掌握用戶的愛好情況,給他們貼上標籤,然後根據分類,甚至與其他部門的數據進行關聯。
上海交通大學文科資深教授季衛東
研究者和輿論界也經常提出類似的問題。如黑人常常與犯罪的標籤聯繫在一起、亞洲人往往因重視教育而付出更多的教育費用,這些都是人工智慧分析大數據帶來的系統性偏誤,結果容易造成刑偵歧視、教育價格歧視等等。
那麼個人信息不在大數據中反映出來是不是就沒有這些問題呢?也不是。智慧型手機留下行蹤信息、消費信息固然是貼標籤的根據,可能造成類型化歧視,但不使用智慧型手機、不進行網購的人群卻會被忽視,他們的利益訴求難以在決策中反映出來。比如一個城市要建設福利設施或者防災據點,就需要考慮人口分布、經濟狀況等各方面因素。假如某些區域、某些人群使用智慧型手機比較少,我們就無法知曉那裡的實際情況,導致我們以為福利設施、防災據點沒有必要建立在這些地區。因此,個人信息造成的標籤包括歧視與福利這兩個方面,利弊兼有。
如果要預防歧視,對個人信息進行匿名化處理非常重要。當然,即使進行了匿名化處理,也可能恢復對特定個人的認定。我們如何真正做到個人信息的匿名化、無害化處理,防止公司又把個人信息的指名性恢復了?這可能涉及一系列的技術問題。在法律層面上,我們當然可以設置一些制度框架以規範數據利用方面的問題。但另一方面,在大數據和人工智慧時代,技術規格的確會影響法律的效力、影響個人的行為方式。所以,從這個意義上來說,我們特別希望算法師能夠提出一個公正的技術規格來防止歧視現象。
金耀輝:的確我們和上海交通大學法學院正在合作這方面的研究。比如計算機輔助定罪量型的研究,我們不僅要設計算法來根據犯罪情節計算是否定罪,以及建議刑期。這個過程必須透明,要告訴法官,計算機為什麼給出這樣的建議?這叫算法的可解釋性。同時,我們還要保證算法的公平性,國外比較關注的是種族問題,比如研究發現,著名的Compass系統對黑人的量裁建議就存在種族偏見,儘管黑人犯罪率確實可能比白人高,但這不能構成有罪假設。在中國,我們會關注城鄉差距以及性別歧視,這叫算法公平性的研究。
上海交通大學電信學院長聘教授金耀輝
人工智慧的背後是情報分析,用擔保網絡反欺詐是有益應用
學生:人工智慧與情報分析的融合目前有沒有什麼具體舉措?特別是在國家安全情報分析這一塊,有沒有什麼融合的可行性?
金耀輝:美國在這方面的成果遠超其他國家。美國有家公司叫做Palantir,被稱為「數字時代的錦衣衛」。中國有許多同樣從事大數據研發的底層技術公司,其中很多公司都想做中國的Palantir,但很困難。Palantir現在的市值已經達到400億美元,同樣是做大數據技術的公司,Cloudera市值只有40億美元。所以,人工智慧的背後其實還是情報分析,最重要的是在垂直領域中,如何形成自己的知識。當然,在這其中也有有用的部分,比方銀行現在正在使用擔保網絡來反欺詐。中國在這方面也已經做了很多研究。
人工智慧出現智慧財產權集群,進口端限制還是出口端再分配亟需思考
交大研究生王心怡:如何劃分AI產生的作品的智慧財產權歸屬?如果是利用了機器學習(即學習了很多既有作品之後提取特徵後形成的作品)),那被機器學習了的這些作品的作者是否也享有部分機器產生的作品的權利?
季衛東:這是一個很有意思的問題。我們知道,人工智慧可以通過一些照片進行學習,例如通過學習梵谷、蒙克、莫奈等著名畫家的畫作,人工智慧就能模仿他們的作品,形成類似的風格。當然,這些畫家的作品風格要素非常清晰,但顯然,我們要考慮AI在多大程度上產生了創新,這涉及到智慧財產權中的著作權的公平應用、適當應用的問題。
美國的經濟發展過程中,其科技的發展曾藉助了許多歐洲的著作權,所以特別強調商業化方面的獨創性,也就是強調既有著作權的適當而公平的應用。這種應用當然存在一些判斷標準,但歐洲為了維護原有創作者的智慧財產權,往往更強調其人格權。在這方面,各個國家的制度設計都有所不同。當大數據出現的時候,在AI模仿風格特別清楚的場合,就比較容易判斷。但若是AI通過大數據深度學習提煉之後,我們無法看出明確的梵谷、蒙克,還是莫奈的風格,此時該怎麼辦?我們可以考慮為網絡世界建立一個智慧財產權的大水池,當你把各種各樣的智慧財產權放進池子中去,是否應當設置一定的門檻,以及建立適當的利益分配機制?
對人工智慧時代的智慧財產權要重新提出判斷標準
這一問題導致我們對人工智慧時代的智慧財產權要重新提出判斷標準。以往,智慧財產權的創造者是誰,權利歸誰,相對比較清楚。人工智慧時代出現的智慧財產權是一個群體,大量的各種各樣的智慧財產權混雜在一起,在此基礎上形成智慧財產權集群。所以,對該問題的處理非常複雜。我們應當在輸入的階段進行限制,還是在輸出的地方尋求一個再分配的機制?這是人工智慧時代未來制度創新方面應當考慮的一個非常重要的問題。
對待人工智慧初期的智慧財產權界定應該寬容,反之無法發展
金耀輝:這個問題非常重要。我覺得就如同醫生看病一樣,我們大量的實習醫生看病的樣本,是不是應該向醫生支付學習費用?在目前階段,我認為大家還是需要寬容一些,因為寫這些程序代碼需要耗費我們工程師很多的精力。倘若嚴格按照規定支付使用費,那人工智慧幾乎就無法發展了。
(袁琭璐 整編)
相關連結:
季衛東:代碼與法律雙行,AI 社會呼喚制度創新 |148期主講
季衛東/金耀輝:AI數據給人「貼標籤」,利還是弊?|148期對話
現場拍攝:王少君、袁琭璐
編輯:袁琭璐
責任編輯:李念
*文匯獨家稿件,轉載請註明出處。