第三章 語音和圖像
最後一學期,是忙碌的一學期,所有同學都忙著找工作,在畢業即失業的大趨勢下,也由不得這些同學不著急。論壇上不是說嘛,保研的過著豬一樣的生活,考研的過著狗一樣的生活,還有找工作的,過著豬狗不如的生活。這個話雖然過份了點,但至少說明了一點,現在出來混是相當難的,想要混得好就更難了。
不過王石沒有打算出來找工作。考慮到那個神經元程序的發展前景,王石當前的目標是讓它迅速成長,併發掘這個程序的潛力。王石覺得可以有這幾個方面進行考慮,一個呢,是增加語音輸入輸出模塊,還有一個就是圖像的識別抽像以及歸納功能。還有呢,需要保證一下這個程序的安全。
因為考慮到現在語音輸入軟體已經比較成熟了,王石也不打算自己來開發這個軟體,所以王石在網路上查了一下資料,最後選定開源的語音識別軟體Simon作為它的輸入主體。
n是一個開源的語音識別系統,它不僅可以輸入文字,而且可以代替鍵盤、滑鼠操作電腦。Simon基於Qt用C++開發,支持的語言相當少,但語言模型可以在任何語言下訓練。網站上還有視頻演示用Simon鍵入文章、操控各種軟體等應用,識別率相當高,而且有源代碼可以下載。比較適合王石目前的需要。
王石在網路上下載了這個程序的源代碼以後。打算把它移植過來,作為智能核心的外掛模塊。
但既然有了源代碼,那麼總比從零開始要好得多,也不需要有多高的識別度,王石相信,只要把模塊掛接到智能核心上,在經過一段時間學習以後,識別率自然會有更好的表現。
這個語音模塊的移植,花了王石大約一個月的時間,經過測試。還是不令人滿意。但是還有更重要的事情等著王石來解決。那就圖像識別。
根據網路上查詢的資料,現在最為廣泛接受的圖像識別模型叫「泛魔」識別模型
這是一種以特徵分析為基礎的圖像識別系統。1959年B.塞爾弗里吉把特徵覺察原理應用於圖像識別的過程,提出了「泛魔」識別模型。
這個模型把圖像識別過程分為不同的層次,每一層次都有承擔不同職責的特徵分析機制,它們依次進行工作,最終完成對圖像的識別。
塞爾弗里吉把每種特徵分析機制形像地稱作一種"小魔鬼",由於有許許多多這樣的機制在起作用,因此叫做「泛魔」識別模型。這一模型的特點在於它的層次的劃分。
「泛魔」識別模型系統的圖像識別共有4個層次。第一層是執行最簡單任務的「映象鬼」,它們只是記錄外界的原始形象,正像視網膜獲得外界刺激的映象;然後由「特徵鬼」進一步分析這個映象。在分析過程中,每個特徵鬼都去尋找與自己有關的圖像特徵。例如,在識別英文字母時,每個特徵鬼負責報告字母的一種特徵及其數量,如垂直線、水平線、斜線、直角、銳角,不連續曲線和連續曲線等;再由「認知鬼」接受特徵鬼的反應,每個認知鬼都從特徵鬼的反應中尋找與自己負責識別的圖像有關的特徵,發現了這種特徵時,它就「叫喊」,發現的特徵越多,「叫喊」聲越大;最後,「決策鬼」根據許多「認知鬼」「叫喊」聲的大小,選擇叫喊聲最大的「認知鬼」的反應作為所要識別的圖像。
例如在識別字母R時,「映象鬼」先對R進行編碼,把信息傳遞給"特徵鬼"作進一步加工,這時會有5個「特徵鬼」分別報告圖像所包括的一條垂線、兩條水平線,一條斜線,3個直角和一條不連續曲線。然後許多"認知鬼"則根據所報告的這些特徵及其數量來識別是否是自己負責的字母。這時D、P、R鬼都會有反應,但P鬼只有4個特徵與其符合,並有一特徵(斜線)與其不符合;D鬼只有3個特徵與其符合,並有兩個特徵(斜線、直角)與其不符合;只有R鬼有5個特徵與其符合,而且這5個特徵又包括了R的全部特徵,所以R鬼的叫喊聲最大,因此「決策鬼」就很容易地作出選擇R的決定。
「泛魔」識別模型對於相似的圖形也可以分辨,不致混淆;對於失真的圖形,如字母的大小發生變化時,識別也不致發生困難。以特徵分析為基礎的「泛魔」識別模型是一個比較靈活的圖像識別系統。它可進行一定程度的學習,如「認知鬼」可逐漸學會怎樣解釋與它所負責的字母有關的各種特徵;它還可以容納具有其他功能的鬼。這個系統現在也被用來描述人的圖像識別過程。
基於這個模型,王石在剩下的幾個月時間裡艱難地完成了這個模塊。經過測試后,效果差強人意,對於這個問題,王石也沒有什麼辦法,必競他不是神。
最後,由於把大把的時間都投入到了這個程序上面,自然也就沒有更多精力去編造那個論文了。草草交了一份《圖像識別的在文字輸入上的應用》,算是完成學校里的任務了。
當然,由於畢業答辯還是沒什麼問題的,最差,這個論文也是王石自己寫的,而且經過幾個月的摸索。至少把模塊給編寫出來,而且可以運行。這點信心還是有的,很多同學的論文直接是從哪個角落裡抄來也說不定呢。
在王石給智能核心進行圖像識別訓練的時候,他還不知道,這個花了一個晚上時間造出來的,用來糊弄答辯老師的論文己經給了答辯老師們以極大的震撼。當所有看到這篇論文的老師都讚歎不己的時候,甚至有的老師還以為是網路上哪兒抄來的。當輪到王石進行答辯的時候,甚至學院院長章教授都來旁聽了。
在老師問了幾個表面上的問題后,有一個老師就忍不住問王石:「王石,你這篇文章是哪裡抄來的!"
王石瞬間就漲紅的臉,「。。。。」
「這篇文章是寫得不錯,不過就你的水平,還寫不出來的。」
王石沉默了一下,然後就從口袋裡摸出一個U盤來。
「各位老師,我想要演示一下,這個是我編的程序。這篇論文是我在寫這個程序的一些總結。」
說著,王石就走到演示電腦的前面,把U盤的只讀開關拔了一下,插在了電腦USB介面上。
然後王石在電腦就坐在電腦前面打開了那個U盤上的程序運行起來。
在經過一番設置以後。王石打開了一個畫圖板,在畫圖板上用鉛筆寫起了歪歪紐紐的字,有中文的,有英文的。而那個程序則把在畫圖板識別出來的字都在程序的文本框里顯示了出來。由於演示電腦連著投影機。當由於王石寫了一個實在太潦草的字,程序上的文本框居然顯示的是「你是豬啊!這麼潦草的字怎麼認呀?」這下子,在場所有同學都大笑起來。
王石有點不好意思了,站了起來對老師說,這個程序我還沒有完全弄好,所以界面也很簡陋。不過它確實能夠進行識別。識別率現在還不太高。
幾個老師倒也戀感興趣地圍了攏了,都在機器上試了一下,覺得還真是有點意思,很顯然,這個程序單單就這個功能,就是相當有價值了,這個時候,那個一開始說王石抄襲的老師笑著道了歉。
王石笑著說沒關係,但心裡卻非常得意,這個單單識別手寫字就這樣驚呀,要是整個功能完善起來,那還不嚇死你們呀。大文學