2017年5月7日 星期日

❤得到-科技-後圖靈測試:機器人何以為人

出處:後圖靈測試:機器人何以為人


這條音頻和你聊聊,如何判斷一個機器人有沒有和人一樣的智能。

在人必稱人工智能的今天,你有沒有想過,到底什麼是人工智能?
我們怎麼才能判斷一個機器是否具有人一樣的智能?
《科學美國人》3月刊的一篇文章就聊到了這個問題。
文章的作者是紐約大學心理學和神經科學教授蓋瑞·馬庫斯。

我們都知道,
早在1950年,世界計算機之父圖靈就提出過一個名為“圖靈測試”的方法,
來判斷機器是否具有智能。具體來說,就是讓參加實驗的人跟機器聊天,
這些人不知道自己正在說話的對像是機器,然後讓他們根據聊天的情況做判斷。
如果超過一定比例的人認為自己的聊天對像是人類,那麼就可以說,
這個機器具有人一樣的智能。這個方法在當時被稱為人工智能終極測試的思想實驗。

但圖靈測試是有缺陷的,那就是太容易作弊,機器想要獲勝,可以採取避而不答的方法。 2014 年,就有一個聊天機器人通過偽裝成一名來自烏克蘭的13 歲男孩,通過了圖靈測試。
在測試中,這個機器從不正面回答問題,而是顧左右而言他。
科學家問它,鞋盒子與珠穆朗瑪峰,哪個更大?
機器會說:“現在我還不確定,我得再想想。”然後機器會接著說句話來轉移話題,
比如機器會說:“對了,我忘記問你來自哪兒了?”


所以這篇文章認為,原始的這版圖靈測試,經不住時間的考驗。
通過測試的機器可能只是偷姦耍滑,而不是真的有智能。
那麼現在,我們到底應該怎麼判斷一個機器有沒有和人一樣的智能呢?
文章介紹了四個最廣為接受的方法。

第一個,叫威諾格拉德模式挑戰。
這個測試其實是一種語言問題的考驗,要想正確解答,需要被測試者俱備足夠的人類常識。

考官會設置一個場景,
比如說,市議員拒絕提供示威許可,因為他們害怕出現暴力,然後問機器,誰害怕暴力?
在這種情況下,對於“他們”一詞的指代問題存在著歧義。
作為人類,我們都知道,“他們”指的是市議員。那麼考官又會問了,
市議員拒絕給示威者許可,因為他們提倡暴力。誰在提倡暴力?
這時候,答案就變成了示威者。

互聯網有海量的信息,一些知識性的、有正確答案的問題,機器可以輕易就找到答案。
但是這個方法的好處就是,在有互聯網搜索條件的情況下,仍然很難作弊。
而缺點就是,題目不好想。
文章認為,總體來看,用這種方法測試的難度還是挺高的。
在 2016 年,有 4 個系統比賽回答了這個測試,
勝出系統的準確率只有 58%,而研究者設定的門檻是 90%。

第二個,叫做人類標準化測試。
在這個測試裡,人工智能會像人一樣,參加小學、中學的標準化考試。
這個方法的優點是,題目海量,標準測試相對簡單,而且容易執行。
而有關常識的問題需要進行閱讀理解,有可能不存在獨一無二的答案。
但缺點是,這個測試是面向人類設計的,
通過標準化考試並不一定意味著機器具有了真正的智能。整體上看,這個方法難度中等。

第三個方法,是物理圖靈測試。
大多數機器智能測試還只集中在認知方面。而這個測試更像是實踐課,需要機器人動手。
分為兩個方向。在構建方向,機器人必須學會閱讀使用說明,將一堆部件組裝成實體。
而探索方向,需要人工智能發揮自己的創造力,使用積木來完成指定的任務。
這兩個方向都要求被測試的機器理解任務內容、找到解決方法。

這個測試的​​優點顯而易見,它模擬了現實世界中智能生物需要解決的問題。
另外,這種測試很難作弊。但這個測試繁瑣且難以自動進行。
而且對機器而言,難度極大,按文章的話說,就是科幻級的。


第四個方法,叫做I-Athlon算法。
和上面三個方法的考官是人不同,這個方法沒有人監督,完全由算法自動化測試。
測試內容包括讓人工智能總結音頻文件中的內容,敘述視頻中發生的情節,
即時翻譯人類語言,同時執行其他任務。最後給出一個客觀的智能分數。

這樣做可以保證理論上的客觀公正。但是具有不可預見性,
比如,這個算法可能會給人類研究者無法完全理解的人工智能係統打個高分。

以上觀點,供你參考。


本文源自:《科學美國人》英文版3月刊“AM I HUMAN?”
音頻稿:泰斯
講述:鄭磊

--------------------
主旨:
怎麼判斷一個機器有沒有和人一樣的智能呢?有四個最廣為接受的方法。
1. 威諾格拉德模式挑戰
 考官會設置一個場景,比如說,市議員拒絕提供示威許可,
 因為他們害怕出現暴力,然後問機器,誰害怕暴力?
 在這種情況下,對於“他們”一詞的指代問題存在著歧義。
 作為人類,我們都知道,“他們”指的是市議員。那麼考官又會問了,
 市議員拒絕給示威者許可,因為他們提倡暴力。誰在提倡暴力?
 這時候,答案就變成了示威者。
 互聯網有海量的信息,一些知識性的、有正確答案的問題,機器可以輕易就找到答案。
 但是這個方法的好處就是,在有互聯網搜索條件的情況下,仍然很難作弊。
 而缺點就是,題目不好想。
2. 人類標準化測試
 在這個測試裡,人工智能會像人一樣,參加小學、中學的標準化考試。
3. 物理圖靈測試
 這個測試更像是實踐課,需要機器人動手。
 (1)構建方向,機器人必須學會閱讀使用說明,將一堆部件組裝成實體。
 (2)探索方向,需要人工智能發揮自己的創造力,使用積木來完成指定的任務。
4. I-Athlon算法
 和上面三個方法的考官是人不同,這個方法沒有人監督,完全由算法自動化測試。
 測試內容包括讓人工智能總結音頻文件中的內容,敘述視頻中發生的情節,
 即時翻譯人類語言,同時執行其他任務。最後給出一個客觀的智能分數。

沒有留言:

張貼留言