2008-10-22

推薦文章 - Computer Vision的尷尬

這個部落格&這篇文章是今天中午不小心 google 到的。

先談這篇文章:
過去一段時間我一直想寫寫我對Computer Vision的粗淺看法,但是要寫到值得貼出來,還要再花不少力氣。看到上面這篇文章時就覺得,跟我的看法好類似啊(我當然是差得遠了)。

提一下我的粗淺看法好了:我認識的Computer Vision就是"做機器"(這裡的"機器"的意思就是:它不會做其他的事,只會做你叫他做的事(一般來說,如果做得好,我們就會偷笑了),而一旦超出定義範圍,機器就常常什麼事都幹不了)。每次看到一個新應用,就幾乎需要重新建一台機器,可以重複應用的元件(演算法)都是很基礎的東西,高階一點的元件都要重新做,這導致不容易建造"可擴充"的系統",不容易擴充&累積,就不容易有比較大的成果&應用出現。這也就是為甚麼你會在電腦視覺的書裡看到一大堆基本的東西,卻沒有書會教你如何建立高階一點的東西,因為高階一點的東西,沒有一致的理論,每次都要重新打造之故。而我們對於機器的期望也僅止於:機器在極有限的範圍內可以工作良好我們就心滿意足了。
也是因此,當年讀研究所的時候,有一陣子我把研究的重心放在人類的視知覺&大腦的運作上面,原因是我感受不到拼裝出視覺機器的成就感(當然,做出會動作良好的機器是不錯,但我這個人比較好高騖遠一點)。期間有將近一年的時間,我無論開車,走路,坐著都在研究我是怎麼看的,市面上找得到的視知覺&大腦的書,也幾乎被我買完,看完。我後來發現,問題的根源不在底層的訊號(影像訊號)處理,而在於高階的記憶與運算。這需要我們對生物的思考機制有更深入瞭解與建模,對整個流程(機制)做通盤的考量,建立理論架構,然後在上面架床疊屋,建立應用。這就是為甚麼我當年研究做到一半,偷閒看 《On Intelligence》有豁然開朗的原因。

談一下這個部落格:
只提一件事,這個作者之前有另一個部落格,因故關掉了,但是裡面的CV/PR/ML研究資料豐富,記在這裡,免得忘了。網址是 http://dahua.spaces.live.com/

PS:上面寫的粗淺看法都是現在臨時寫的,之前寫到一半的東西,不知放那去了,要是有機會補完,在貼上來好了。

2 則留言:

匿名 提到...

期待你的大作...
剛剛看完你link出去的那一篇, 心有戚戚焉... 的確有說到某些核心. 但是我覺得vision上也有些具備基礎理論特質的東西, 當然要跟牛頓三原理比是很難. 我覺得vision難在由底層的訊號處理到上層的認知科學, 很難有人可以全殺, 但是只弄一部分又只是打混... 我現在就是在裡面打混.
你先前大買人類的視知覺&大腦的運作相關書籍還看不看, 借我好了, 這樣我可以省下一大筆錢~~
順便講我聽過的一個例子. 人類想飛行有幾千年的歷史吧, 結果飛行的方法不是學習鳥(自然界現成的範例), 而是發展出流體力學等理論. 所以ㄚ, 要發展AI, 不見得是學習人腦的運作, 當然也可能要學人腦, 因為還沒有最終的答案, 所以還待摸索

Toyogray 提到...

To Pluto:
我的感覺是:因為沒有大一統理論,大家就各自鑽營小地方(我的感覺就是這樣),想辦法克掉測試資料庫,達到更高的hit rate,發paper/拼昇等就好了,真正的大問題就晾在那裡了。

我喜歡這個部落格就是因為作者現在在MIT拿PHD,對研究很有熱情,可以看到他受到明師教導的過程,我還蠻享受看他部落格的過程。

關於人類飛行的例子,我以前聽你說過,我研究這個就是想師法大自然,找靈感,沒有一定要硬學。畢竟,現在電腦的基本架構就與大腦完全不同。

關於大腦與認知的書,找個時間,來我家挑吧。