【獵云網(微信號:)】9月23日報道(編譯:葛蘭東)
周三早上,當Tabong Kima查看他的推特時,他看到的話題標簽是#ImageNetRoulette。
似乎每個人都在把自拍上傳到某個網站上,在這個網站上,某種人工智能會分析每一張臉,并描述它看到的東西。網站ImageNet Roulette把其中一名男子定位為“孤兒”;另一位是“不吸煙者”;第三個戴著眼鏡的是“笨蛋、怪人、書呆子、怪人、笨蛋”。
在Kima的推特上,這些標簽(有些準確,有些奇怪,有些離譜)都是為了搞笑,于是他也加入了。但這位24歲的非裔美國人對于他將看到的內容并不開心。當他上傳自己微笑的照片時,該網站將他標記為“不法分子”和“罪犯”。
“我可能幽默感很差,”他在推特上寫道。“但我不認為這特別有趣。”
事實證明,他的回應正是該網站所希望的。ImageNet Roulette是一個數碼藝術項目,旨在揭露古怪、不健全的和攻擊性行為可以蔓延到人工智能技術,從而迅速改變我們的日常生活,涉及到使用面部識別服務的互聯網公司,警察部門和其他政府機構。
面部識別和其他人工智能技術通過分析大量的數字數據來學習技能。這些數據來自于舊的網站和學術項目,通常包含多年來未被注意到的細微偏差和其他缺陷。由美國藝術家Trevor Paglen和微軟研究員Kate Crawford設計的ImageNet Roulette旨在更深入全面地揭露這個問題。
“我們想要展示偏見、種族主義和厭女癥是如何從一個系統轉移到另一個系統的,”Paglen在巴黎接受電話采訪時表示。“關鍵是讓人們看到正在幕后進行的工作,看到我們一直是如何被處理和分類的。”
作為本周在米蘭Fondazione Prada博物館展覽的一部分,該網站將注意力集中在名為ImageNet的聚集了海量照片的數據庫上。十多年前,位于加州硅谷的斯坦福大學的一組研究人員首次編制了ImageNet,它在“深度學習”的興起中發揮了至關重要的作用,這種數學技術使機器能夠識別包括人臉在內的圖像。
ImageNet是一種訓練人工智能系統并判斷其準確性的方法,它包含了從互聯網上提取的超過1400萬張照片。通過分析各種各樣的圖像,如花、狗和汽車,讓系統學會識別它們。
在了解人工智能的社區中,很少有人討論的是,ImageNet還包含數千人的照片,每個人都按自己的類別分類。這其中包括直截了當的標簽,如“啦啦隊”、“電焊工”和“童子軍”,以及一些很模糊的標簽,如“失敗、失敗者、無望取得成功的人、不成功的人”和“奴隸、蕩婦、邋遢的女人、流氓”。
Paglen和Crawford創建了一個應用這些標簽的項目,不管這些標簽看起來是否無害,都表明了觀點、偏見,甚至某些帶有攻擊性的觀點是如何推動人工智能的創建的。
ImageNet的標簽被成千上萬名匿名的人使用,這些人很可能來自美國斯坦福大學的研究團隊。通過眾包服務亞馬遜土耳其機械公司(Amazon Mechanical Turk),他們每貼一張照片就能賺幾分錢,每小時要瀏覽數百個標簽。正如他們所做的那樣,偏見被納入了數據庫,盡管不可能知道這些偏見是否由做標簽的人持有。
他們給“失敗者”下了定義,還有“蕩婦”和“不法分子”。
這些標簽最初來自另一個龐大的數據集WordNet,這是普林斯頓大學研究人員在上世紀80年代為機器編制的一種概念詞典。然而,包括這些煽動性的標簽在內,斯坦福大學的研究人員可能還沒有意識到他們在做什么。
人工智能通常是在龐大的數據集上訓練的,即使是它的創造者也沒有完全理解這些數據集。Liz O'Sullivan當時在人工智能初創公司Clarifai負責數據標簽的監督工作,現在是一個名為“監視技術監督項目“的組織的成員,旨在提高對人工智能系統問題的認識。他曾表示“當人工智能開始計算的時候,它們總是以超大規模的形式運作,這會帶來一些后果”。
ImageNet數據集中使用的許多標簽都很極端。但是,同樣的問題也可能蔓延到看似無害的標簽上。畢竟,“男人”和“女人”的定義還有待商榷。
“給女性或女孩的照片貼標簽時,可能并不包括非二元性別的人或短發女性,”O’Sullivan表示。“然后你就會得到一個只包括長發女性的人工智能模型。”
最近幾個月,研究人員發現,亞馬遜、微軟和IBM等公司的人臉識別服務可能會對女性和有色人種產生偏見。在這個項目中,Paglen和Crawford希望能引起人們對這個問題的更多關注,并且他們真的做到了。本周,隨著該項目在推特等社交網站上走紅,ImageNet Roulette每小時產生的標簽數量超過了10萬個。
“我們完全感到驚訝,它以它的方式起飛了,”Crawford與Paglen在巴黎時說道。“它讓我們真正看到人們對這件事的看法,并真正與它們接觸。”
對一些人來說,這只是個玩笑。但像Kima這樣的人會明白Crawford與Paglen所作的努力。他說:“他們在凸顯問題所在方面做得相當好,但這并不是說我以前沒有意識到這個問題。”
不過,Crawford與Paglen認為,問題可能比人們意識到的還要嚴重。
ImageNet只是眾多數據集中的一個,這些數據集被科技巨頭、初創企業和學術實驗室廣泛使用和重用,因為它們訓練了各種形式的人工智能。這些數據集中的任何缺陷都已經蔓延開來。
如今,許多公司和研究人員正在努力消除這些缺陷。為了應對偏見,微軟和IBM更新了他們的面部識別服務。今年1月,就在Crawford與Paglen首次討論ImageNet中使用的奇怪標簽時,斯坦福大學的研究人員從數據集中屏蔽了所有人臉的下載。他們現在表示,他們將刪除更多的人臉。
斯坦福大學的研究小組通過《紐約時報》發表了一份聲明,他們的長期目標是“解決數據集和算法中的公平性、問責制和透明度等問題”。
但對Paglen來說,一個更大的問題迫在眉睫。最基本的事實是人工智能從人類身上學習——而人類是有偏見的生物。“我們對圖像進行分類的方式是我們世界觀的產物,”他表示。“任何一種分類系統都會反映出進行分類的人的價值觀。”
2022-04-08 獵云網發布了 《俞敏洪流露退隱之意?稱自以為是的努力,已成為新東方發展的障礙》的文章
2022-04-08 獵云網發布了 《闊別五年重返網約車!周航掌舵曹操出行》的文章
2022-04-08 獵云網發布了 《加速布局芯片!小米入股芯片公司尊湃通訊》的文章