文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

發(fā)布時(shí)間：2020-08-10 12:44:01 來源：ITPUB博客閱讀：91 作者：dicksonjyl560101 欄目：互聯(lián)網(wǎng)科技

做成一件事兒不容易，而坑恒在。

鮑捷博士于5月10日在將門創(chuàng)投的線上 talk 中盤點(diǎn)了人工智能項(xiàng)目的大坑小坑，選出了看上去非常 反常識(shí)的十個(gè)經(jīng)典坑。

這是一篇大實(shí)話合集，但別絕望，最后將會(huì)放出從二十年踩坑經(jīng)驗(yàn)中總結(jié)出的彩蛋，共勉。

作者介紹

鮑捷博士，文因互聯(lián) CEO。擁有20年學(xué)術(shù)界和工業(yè)界的相關(guān)經(jīng)驗(yàn)。美國(guó)Iowa State University人工智能博士，RPI博士后，MIT訪問研究員，W3C OWL(Web本體語言)工作組成員，前三星美國(guó)研發(fā)中心研究員，三星問答系統(tǒng)SVoice第二代系統(tǒng)核心設(shè)計(jì)師。主要研究領(lǐng)域涵蓋人工智能的諸多分支，包括機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、自然語言處理、形式推理、語義網(wǎng)和本體工程等，發(fā)表了70多篇領(lǐng)域內(nèi)相關(guān)論文。是中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專委會(huì)委員，中國(guó)計(jì)算機(jī)協(xié)會(huì)會(huì)刊編委，W3C顧問會(huì)員會(huì)代表。2010年以來關(guān)注金融智能化的研究和應(yīng)用，成果有XBRL語義模型，基于知識(shí)圖譜的基本面分析、金融問答引擎、財(cái)務(wù)報(bào)告自動(dòng)化提取、自動(dòng)化監(jiān)管等。

以下為演講原文：

鮑捷博士：我今天的題目是 《確保搞砸人工智能項(xiàng)目的十種方法》，按照這十種方法，基本上可以搞砸項(xiàng)目。（笑）

之所以能夠講這個(gè)題目，是因?yàn)槲易约褐耙哺阍疫^很多項(xiàng)目，下面列表里超過一半的項(xiàng)目最后是失敗的：

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

我開始想，為什么大部分的項(xiàng)目最后做不成？

我經(jīng)歷了好幾次很痛苦的時(shí)刻，比如剛到RPI（倫斯特理工學(xué)院）做博士后，這個(gè)學(xué)校有全美做知識(shí)圖譜最好的實(shí)驗(yàn)室，實(shí)驗(yàn)室的James Hendler和Deborah Mcguinness， 都是這個(gè)領(lǐng)域最好的老師。

我在那里做了一個(gè)知識(shí)管理系統(tǒng)，在我看來，我們是世界上最好的語義網(wǎng)實(shí)驗(yàn)室，也是最專業(yè)的一群人，不用這個(gè)技術(shù)來武裝自己好像說不過去，所以我就做了一個(gè)語義檢索系統(tǒng)，但是后來沒有人用。

我就在反思 到底問題在哪，為什么這行真正最好的專家，做出這樣一個(gè)系統(tǒng)，連自己都不用？

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

我不停地在想， 人工智能項(xiàng)目失敗的核心原因到底有哪些？

當(dāng)然，后來經(jīng)歷了更多的失敗?；谶@些直接或者間接失敗的經(jīng)歷，我逐漸總結(jié)出來確保一個(gè)項(xiàng)目會(huì)失敗的一些原因。這些原因很多時(shí)候看起來是反直覺的，我會(huì)逐一地跟大家講。

在最后，我也會(huì)總結(jié)如果想要避免這10個(gè)坑，應(yīng)該做什么。

NO.1 一下子砸很多的錢

第一種確保你的項(xiàng)目失敗的方法： 一下子砸很多的錢。

我目前也在創(chuàng)業(yè)，有VC問我：“你們做的這個(gè)事，如果BAT砸很多的錢，是不是就一下子能趕上你們？”

我說不會(huì)，通常舉的例子，就是日本的五代機(jī)。當(dāng)初日本舉全國(guó)之力，砸了幾百億日元，最終沒有做成。

五代機(jī)是什么？1970年代末是人工智能的第一次冬天開始回升的時(shí)候。80年代開始進(jìn)入人工智能第二個(gè)高峰。這時(shí)候，日本啟動(dòng)了一個(gè)新的項(xiàng)目，叫第五代計(jì)算機(jī)。

什么叫第五代計(jì)算機(jī)？前四代計(jì)算機(jī)，分別是電子管的、晶體管的、集成電路的，和大規(guī)模集成電路的。日本到第五代計(jì)算機(jī)的時(shí)候，他們認(rèn)為 要想做人工智能，就必須用人工智能的專有硬件。

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

（《知識(shí)信息處理系統(tǒng)的挑戰(zhàn)：第五代計(jì)算機(jī)系統(tǒng)初步報(bào)告》中第五代計(jì)算機(jī)系統(tǒng)概念圖）

這個(gè)話是不是聽起來很耳熟？最近在做深度學(xué)習(xí)的時(shí)候，看到了很多關(guān)于深度學(xué)習(xí)芯片的想法。這個(gè)想法并不新，因?yàn)樵?0年前，日本人在五代機(jī)的計(jì)算里，就已經(jīng)有這樣的想法了，只是當(dāng)時(shí)的人工智能芯片，不是現(xiàn)在深度學(xué)習(xí)的芯片，而是Prolog的芯片。

Prolog是人工智能的一種語言，主要是一種邏輯建模語言。如果能夠用Prolog來建計(jì)算機(jī)，計(jì)算機(jī)就可以進(jìn)行思維，可以處理各種各樣認(rèn)知的任務(wù)。這是一個(gè)非常大型的國(guó)家項(xiàng)目，最終花了幾百億日元，耗掉10年時(shí)間以后，在1992年，終于 勝利地失敗了。

這不是個(gè)例，很多大型的項(xiàng)目，最后都失敗了。

一開始砸很多錢，為什么還會(huì)失?。磕阋?，做一個(gè)項(xiàng)目，通常是有目標(biāo)的。當(dāng)你有一個(gè)大預(yù)算的時(shí)候，你的目標(biāo)通常也定得很高。像五代機(jī)的目標(biāo)，不單當(dāng)時(shí)是做不到的，三十年后的今天，也是做不到的。

雖然五代機(jī)失敗了，但是日本的人工智能技術(shù)，在五代機(jī)的研發(fā)當(dāng)中得到了很大的提升，所以到了20年后，語義網(wǎng)興起的時(shí)候，日本的語義網(wǎng)研究水平還是相當(dāng)好的，那些錢沒有白花，它 培養(yǎng)了很多的人才。

在日本做五代機(jī)的同時(shí)，美國(guó)也有類似的研究，主要是LISP machine，LISP是人工智能的另外一種語言，也是邏輯建模的語言。其中有一個(gè)公司叫think machine。當(dāng)時(shí)至少有100家LISP公司。

為什么單獨(dú)要提到think machine？創(chuàng)始人在失敗之后沉寂了一段時(shí)間，開了一個(gè)新的公司叫MetaWeb，MetaWeb是2005年的時(shí)候成立的，這個(gè)公司有一個(gè)產(chǎn)品叫Freebase，用Wikipedia做了一個(gè)很好的知識(shí)庫(kù)。

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

2010年這個(gè)公司被谷歌收購(gòu)，改名叫谷歌知識(shí)圖譜。所以今天谷歌的知識(shí)圖譜有很多歷史淵源，可以追溯到30年前LISP machine的研究里面。

羅馬不是一天建成的，所以一下子砸很多錢，就會(huì)導(dǎo)致項(xiàng)目的目標(biāo)過高，從而導(dǎo)致這個(gè)項(xiàng)目有極大的失敗概率。

我曾經(jīng)遇到過一個(gè)大型國(guó)企的人，他跟我說，他們要花3000萬建一個(gè)企業(yè)內(nèi)部知識(shí)管理系統(tǒng)。我就問他，你那個(gè)3000萬是怎么投的？他說我第一年就要投3000萬。然后我沒說話，因?yàn)槲业南敕ㄊ沁@個(gè)項(xiàng)目一定會(huì)失敗。后來這個(gè)項(xiàng)目的的確確失敗了。

也有一些大公司投比這還多得多的錢來做AI項(xiàng)目。這些都不一定讓事情更容易成功。

這是第一種方法，一下子砸很多錢。

NO.2 根據(jù)最新論文來決定技術(shù)路線

第二種方法： 根據(jù)最新的論文來決定技術(shù)路線，這可能也是一個(gè)反常識(shí)的事情。

因?yàn)樽钚碌募夹g(shù)不是最好的技術(shù)，要注意，在工程領(lǐng)域里面，通常面臨著實(shí)際的約束來解決問題的。而論文是一種實(shí)驗(yàn)室的環(huán)境，是不一樣的。

比如說實(shí)驗(yàn)室里，可以假設(shè)有一些數(shù)據(jù)，可以假設(shè)這些數(shù)據(jù)已經(jīng)被集成了，被清洗了，是沒有噪聲的。可以假設(shè)目標(biāo)是清晰的， 但所有的這些假設(shè)在現(xiàn)實(shí)中都不一定成立的。

最好的例子，就是信息抽取，這是2013年的EMNLP上的一篇文章，我拆出來的圖。

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

這個(gè)圖告訴我們做NLP的論文和實(shí)際的工業(yè)系統(tǒng)所采用的技術(shù)路線有什么不一樣的地方。

從2003年到2012年整整10年，學(xué)術(shù)界所發(fā)表的自然語言處理論文的實(shí)體抽取子領(lǐng)域里，完全用機(jī)器學(xué)習(xí)的方法論文占到了75%，混合機(jī)器學(xué)習(xí)和基于規(guī)則的方法論文占到了21%，完全只用規(guī)則方法的論文，只有百分之一點(diǎn)幾，非常低的比例。 但是當(dāng)看到工業(yè)界的實(shí)際應(yīng)用的時(shí)候，發(fā)現(xiàn)了完全不同的技術(shù)占比分布，用規(guī)則方法的占到了45%。

如果光看大型的供應(yīng)商，比如說IBM這樣的公司，67%的軟件是完全基于規(guī)則方法的。完全基于統(tǒng)計(jì)方法即machine learning方法的軟件，在所有的供應(yīng)商那里占33%，在大型的供應(yīng)商那里只占了17%。

所以從學(xué)術(shù)界的研究到工業(yè)界的實(shí)踐，有一個(gè) 非常巨大的差異。為什么會(huì)有這樣的差異？就是我剛才提到的，在發(fā)表論文的時(shí)候，完全不需要考慮現(xiàn)實(shí)中所會(huì)遇到的那些約束條件。在知識(shí)提取、實(shí)體提取領(lǐng)域，盡管現(xiàn)在從理論上來說，已經(jīng)解決了，比如說實(shí)體識(shí)別問題、NER問題、分詞問題，但是到了真正現(xiàn)實(shí)的語料中，發(fā)現(xiàn)這些方法都不好用。這也可以用另外一個(gè)問題來驗(yàn)證這一點(diǎn)，就是問答系統(tǒng)。

今天看到大部分的論文——我沒有做精確的統(tǒng)計(jì)，只是基于模糊定性的看法—— 能看到大部分發(fā)表的問答系統(tǒng)的論文都是基于統(tǒng)計(jì)方法的。特別是這兩年基于NLP的方法，尤其是基于端到端的方法的。無一例外，能夠真正在工業(yè)中應(yīng)用起來的問答系統(tǒng)，除了小冰這樣的閑聊系統(tǒng)之外， 真正的面向解決任務(wù)型的問答系統(tǒng)，全部都是用規(guī)則系統(tǒng)的。我還不知道哪一個(gè)是用深度學(xué)習(xí)的，當(dāng)然也可能有用在某一個(gè)具體的細(xì)節(jié)，或者某一個(gè)組件上面，我沒有見到過用于整體架構(gòu)上。

所以當(dāng)決定一個(gè)工程問題技術(shù)路線的時(shí)候，不一定要按照最新的論文趨勢(shì)來做這件事情，甚至，論文和十年之后的技術(shù)都不一定有相關(guān)性。 一定要根據(jù)現(xiàn)實(shí)的情況，根據(jù)現(xiàn)實(shí)的約束，來決定技術(shù)路線。

NO.3 脫離真正的應(yīng)用場(chǎng)景

第三種方法： 如果脫離了真正的應(yīng)用場(chǎng)景，項(xiàng)目就注定會(huì)失敗。

這里我用OWL2來說明。OWL2是一種語言，對(duì)于做語義網(wǎng)的同學(xué)們很熟悉了。

在Web上所知道的所有的這些標(biāo)準(zhǔn)化的格式，比如說HTML都是W3C，即萬維網(wǎng)聯(lián)盟設(shè)計(jì)的。萬維網(wǎng)聯(lián)盟也會(huì)負(fù)責(zé)Web上其他的協(xié)議，其中有一個(gè)協(xié)議叫OWL。它是在講，在互聯(lián)網(wǎng)上如何表達(dá)我們的知識(shí)。

比如說，一個(gè)餐館要發(fā)布它的菜單，該用什么樣的格式來發(fā)布？或者我現(xiàn)在要在網(wǎng)上發(fā)布我的簡(jiǎn)歷，希望被谷歌更好地檢索到。我要告訴谷歌，我是一個(gè)人，我姓什么，叫什么，出生年月是什么，我應(yīng)該用什么樣的格式發(fā)布這樣的數(shù)據(jù)。其中一個(gè)格式就是OWL。OWL的第一個(gè)版本在2004年發(fā)布，第二個(gè)版本是在2010年發(fā)布。

OWL WORKING GROUP比較活躍的工作組的成員里面，有相當(dāng)多的知名大學(xué)的老師，還有一些知名公司的科學(xué)家，包括IBM、Oracle、惠普。你們注意到，我剛才提到這些大公司的時(shí)候，有一些名字沒有出現(xiàn)，比如說谷歌和Facebook。

OWL2本來希望想做的事情，是設(shè)計(jì)如何在網(wǎng)上表達(dá)并發(fā)布日常生活衣食住行信息的。但是，最終工作組成員的構(gòu)成，一種是大學(xué)研究人員，另外一種是大公司做企業(yè)級(jí)應(yīng)用的， 大部分是遠(yuǎn)離場(chǎng)景的。

最終設(shè)計(jì)出來的產(chǎn)品，也就是OWL2語言， 脫離了真正想去服務(wù)的那個(gè)場(chǎng)景。OWL WORKING GROUP在開會(huì)的時(shí)候，寫了大概好幾十個(gè)應(yīng)用案例，但是大部分的案例都是這樣的：一個(gè)制藥公司要做一個(gè)藥，應(yīng)該怎么表達(dá)制藥的知識(shí)，或者一個(gè)醫(yī)生如何表達(dá)病歷、疾病或基因，大體上都是這樣的應(yīng)用。沒有任何一個(gè)案例是在講述在網(wǎng)上如何找一個(gè)朋友，或者如何跟朋友聊天，或者如何去訂餐，日常生活中的案例都是沒有的。

OWL2最終寫出來以后，有600頁(yè)紙，這是一個(gè)非常復(fù)雜的語言。事實(shí)上，也就是在一些少量的企業(yè)級(jí)應(yīng)用里面被用到了，在真正的日常應(yīng)用當(dāng)中，成功的案例幾乎沒有。這就是個(gè)典型的脫離了應(yīng)用場(chǎng)景的項(xiàng)目，所以這個(gè)項(xiàng)目，花了很多錢，最終沒有達(dá)到真實(shí)想達(dá)到的目標(biāo)。

NO.4 使用過于領(lǐng)先的架構(gòu)

第四種方法， 使用過于領(lǐng)先的架構(gòu)。

這也是跟前面第二種方法相呼應(yīng)的，第二種方法說，你不能根據(jù)最新的論文來決定你的技術(shù)路線。第四種方法是在講，如果你使用了一種特別先進(jìn)的架構(gòu)，反而有可能導(dǎo)致你的項(xiàng)目失敗。

Twine在2007年被稱為世界上第一個(gè)大規(guī)模的語義網(wǎng)的應(yīng)用。當(dāng)時(shí)是一個(gè)明星企業(yè)，這個(gè)公司到了2010年的時(shí)候關(guān)門了。為什么？Twine在成立的時(shí)候，想做一個(gè)語義書簽的應(yīng)用。比如說我讀了一篇文章，我覺得很好，把它保存下來，留著以后再讀。Twine的機(jī)器人就會(huì)分析我保存下來的這篇文章到底在說啥，然后給這個(gè)文章一個(gè)語義標(biāo)簽。如果有人訂閱了我的標(biāo)簽，他就可以不斷地看到我這個(gè)標(biāo)簽下收藏的好東西，就這么一個(gè)想法。

Twine在底層用了一個(gè)叫RDF的新數(shù)據(jù)庫(kù)，RDF是一種語義網(wǎng)的語言，比關(guān)系數(shù)據(jù)庫(kù)增強(qiáng)很多，它是可以進(jìn)行推理的數(shù)據(jù)庫(kù)。但是當(dāng)Twine用戶量達(dá)到200萬的時(shí)候，它就遇到了一個(gè)瓶頸，數(shù)據(jù)庫(kù)的性能不夠。所以Twine的CEO就決定，開發(fā)一個(gè)新的數(shù)據(jù)庫(kù)。

當(dāng)時(shí)這個(gè)公司大概是40個(gè)人，用20個(gè)人來研發(fā)基礎(chǔ)性的東西——一個(gè)新的語義數(shù)據(jù)庫(kù)。2008年的時(shí)候，情況還不錯(cuò)，他們發(fā)現(xiàn)自己做的東西是個(gè)很好的東西，突然就在想，我們做的東西為什么只搜索書簽？完全可以搜索整個(gè)Web上的東西。于是他們就做了一次轉(zhuǎn)型，去做整個(gè)Web的語義搜索。步子太大，就把公司拖死了。到了2008年經(jīng)濟(jì)危機(jī)爆發(fā)的時(shí)候，資金鏈斷裂，撐了一年以后就死了。

在死的時(shí)候，Twine的CEO Nova Spivack ，是我們領(lǐng)域非常值得尊重的一個(gè)先行者，也是一個(gè)技術(shù)大拿，同時(shí)也是一個(gè)非常成功的投資人。他就檢討了Twine的失敗。他說我試圖在太多的地方進(jìn)行革新，我應(yīng)該要么革新一個(gè)平臺(tái)，要么革新一個(gè)應(yīng)用，要么革新一個(gè)商業(yè)模式，但是我似乎在太多的地方都進(jìn)行革新了，而且我使用了一種非常超前的架構(gòu)，就是RDF數(shù)據(jù)庫(kù)，導(dǎo)致了我要追求的目標(biāo)太大，我無法達(dá)到這個(gè)目標(biāo)。

我想他說的這個(gè)話，即使到今天，也是非常值得思考的。

這個(gè)項(xiàng)目相關(guān)的分析文章，我差不多每過兩年都要仔仔細(xì)細(xì)地看一遍。Twine失敗了以后， Nova Spivack 對(duì)公司進(jìn)行了一次轉(zhuǎn)型，成立了一個(gè)新的公司叫 Bottlenose，還是用了同樣的技術(shù)，用在了更聚焦的應(yīng)用場(chǎng)景上，從2C的服務(wù)轉(zhuǎn)到2B的服務(wù)上去。

Bottlenose這個(gè)公司，到目前為止已經(jīng)8年時(shí)間了，還是很成功的。2B的應(yīng)用相對(duì)而言不太需要這么大量的數(shù)據(jù)，不用解決系統(tǒng)可伸縮性問題，突出了這個(gè)系統(tǒng)最核心的優(yōu)勢(shì)，即語義分析和理解能力。

像Twine這樣失敗的例子是不罕見的。用一個(gè)過于先進(jìn)的架構(gòu)的時(shí)候，通常會(huì)面臨一開始很難去預(yù)期的一些風(fēng)險(xiǎn)，甚至不僅僅是像RDF數(shù)據(jù)庫(kù)這樣的小眾的產(chǎn)品，更加大眾的產(chǎn)品，也有可能會(huì)遇到這樣的情況。

比如說有人經(jīng)常會(huì)問我說，你們做知識(shí)圖譜的應(yīng)用，是不是一定要用圖數(shù)據(jù)庫(kù)？我就通常回答說不一定。

如果你熟悉圖數(shù)據(jù)庫(kù)，比如說你對(duì) Neo4j 整個(gè)運(yùn)維都非常地熟悉了，你知道它的JAVA虛擬機(jī)如果出錯(cuò)的時(shí)候，該如何處理；你知道它內(nèi)存不夠的時(shí)候，該怎么辦；你知道怎么進(jìn)行數(shù)據(jù)的分片，知道怎么進(jìn)行主從的復(fù)制……所有這些運(yùn)維問題都很熟悉的時(shí)候，你就可以試一試上這個(gè)應(yīng)用。

在上應(yīng)用的時(shí)候不要太著急，如果你只是一個(gè)在線應(yīng)用，可以放一放，先把離線的這部分運(yùn)維的工作搞清楚以后，然后再上線，也可以先用一個(gè)小數(shù)據(jù)集試一試。 總之，步子不要太大。

NO.5 不能管理用戶預(yù)期

第五種方法，不能管理用戶預(yù)期。

這是一個(gè)特別常見的項(xiàng)目失敗的原因， 甚至不是因?yàn)榧夹g(shù)上做不到，而是用戶預(yù)期更大。

我先說一個(gè)技術(shù)上完全做不到的，比如說有一個(gè)銀行，他們推出了所謂的機(jī)器人大堂經(jīng)理，你可以跟一個(gè)機(jī)器人對(duì)話辦理業(yè)務(wù)。顯然，這個(gè)東西如果真的能夠做到，應(yīng)該是非常令人吃驚的事情，這已經(jīng)遠(yuǎn)遠(yuǎn)超出當(dāng)前技術(shù)邊界。

最近有一個(gè)比較有名的騙局，就是 機(jī)器人索菲亞。沙特阿拉伯還給了它第一個(gè)公民的身份，這是一個(gè)非常典型的詐騙。

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

這種類型的機(jī)器人是不太可能出現(xiàn)的。

在其他應(yīng)用當(dāng)中也會(huì)遇到這樣的情況，尤其是對(duì)話機(jī)器人是最容易引起用戶的圖靈測(cè)試欲望。當(dāng)用戶發(fā)現(xiàn)跟他對(duì)話的是一個(gè)機(jī)器人的時(shí)候，他就會(huì)試圖去調(diào)戲這個(gè)機(jī)器人。比如很多人都會(huì)去調(diào)戲siri，所以siri積累了很多段子，準(zhǔn)備應(yīng)對(duì)大家調(diào)戲。

如果你是提供了一個(gè)搜索引擎，那么大家的預(yù)期是比較低的。但如果你以一個(gè)問答引擎的形式，提供同樣的內(nèi)容，大家的預(yù)期就會(huì)高很多。

我們最早提供了一個(gè)終端級(jí)產(chǎn)品，用戶的評(píng)價(jià)就不是特別好，后來我們調(diào)整了一下定位，把它調(diào)整成用搜索界面來提供服務(wù)，系統(tǒng)頂層的智能程度沒有太大改變，但是用戶的預(yù)期和評(píng)價(jià)馬上就好起來了，因?yàn)橛脩纛A(yù)期降低了。這樣的語義搜索引擎，相比其他的搜索引擎，其實(shí)還是好一些的。

對(duì)話機(jī)器人其實(shí)也一樣，如果你給用戶的預(yù)期，是能夠跟他平等對(duì)話的機(jī)器人的話，通常是很難達(dá)到的。用戶通常玩一玩就會(huì)發(fā)現(xiàn)好傻，然后就不玩了，所以大家注意到谷歌機(jī)器人跟Apple的siri機(jī)器人定位有很大區(qū)別，谷歌機(jī)器人不僅僅做對(duì)話，它能夠預(yù)先幫你去做一些事情，甚至主動(dòng)地去幫你做一些自動(dòng)化的事情，其實(shí)這是非常聰明的選擇。

目前能夠跟人長(zhǎng)期進(jìn)行交互的機(jī)器人，其實(shí)是一個(gè)更加偏秘書型的，或者說它就是一個(gè)幫助你進(jìn)行任務(wù)自動(dòng)化的機(jī)器。如果你是立足于對(duì)話，其實(shí)很難滿足用戶預(yù)期，但是如果你立足于自動(dòng)化，就比較容易達(dá)到用戶預(yù)期。同樣的技術(shù)，你用不同的方法去服務(wù)用戶，用戶預(yù)期不一樣，用戶的感覺就完全不一樣。所以要盡可能地讓用戶感知到產(chǎn)品的成熟度，在他的預(yù)期之上，這個(gè)產(chǎn)品才有可能成功，他才愿意付費(fèi)。

NO.6 不理解認(rèn)知復(fù)雜性

第六點(diǎn)叫做 不能理解認(rèn)知復(fù)雜性。

這個(gè)事情我在剛開始的時(shí)候就提到了，這個(gè)例子就是Semantic Wiki，我寫了很多個(gè)這樣的系統(tǒng)，Semantic Wiki是什么呢？大家肯定都用過維基百科或者百度百科，這只是一個(gè)典型的維基系統(tǒng)，有很多人去寫一個(gè)頁(yè)面。Semantic Wiki也是基于協(xié)作的，也是一個(gè)Wiki，只不過在這個(gè)Wiki的頁(yè)面上，你可以打一些標(biāo)簽，加一些注釋。

它可以解決什么問題呢？比如可以解決頁(yè)面之間的數(shù)據(jù)一次性問題，就是一個(gè)頁(yè)面上的數(shù)據(jù)，可以流到另外一個(gè)頁(yè)面上去，舉個(gè)例子，比如說在維基百科上面，可以看到很多國(guó)家的GDP，就是國(guó)民生產(chǎn)總值，在中國(guó)的頁(yè)面上，會(huì)有中國(guó)GDP，在亞洲國(guó)家的GDP列表上面，也會(huì)有中國(guó)GDP，然后在世界國(guó)家的GDP列表上，也會(huì)有中國(guó)GDP，那么是不是可以有一個(gè)機(jī)制，比如在一個(gè)頁(yè)面，寫下中國(guó)的GDP是多少，只要這個(gè)數(shù)字改變，其他所有頁(yè)面上的數(shù)字會(huì)同步改變，用Semantic Wiki技術(shù)就可以做到這一點(diǎn)。當(dāng)然Semantic wiki還可以做很多很酷的其他的事情，很強(qiáng)大。

我從2004年開始就開始寫Semantic Wiki系統(tǒng)，前前后后寫了三個(gè)Semantic Wiki系統(tǒng)，后來我加入了一個(gè)開源社區(qū)，叫 Semantic MediaWiki，基于這樣的系統(tǒng)，我做了一個(gè)很好的知識(shí)管理系統(tǒng)。

2010年我們?cè)噲D來推廣這個(gè)系統(tǒng)，當(dāng)時(shí)是做了一個(gè)實(shí)驗(yàn)，也是一個(gè)美國(guó)的國(guó)家機(jī)構(gòu)委托我們做的，就是要測(cè)試用這種協(xié)作的知識(shí)管理系統(tǒng)來記錄一些事件，能不能記錄得很好，好到可以后面讓機(jī)器自動(dòng)進(jìn)行處理。

當(dāng)時(shí)做的對(duì)比實(shí)驗(yàn)是找了一群RPI的計(jì)算機(jī)系本科生，讓他們來看電視連續(xù)劇，看完以后描述情節(jié)。一部分人用自然語言來進(jìn)行描述，一部分人用Semantic Wiki，以更加結(jié)構(gòu)化的方式來進(jìn)行描述。然后再找了學(xué)生來分別閱讀前兩組學(xué)生的描述，最后讓他們來做題，看哪個(gè)組能夠更精準(zhǔn)地來復(fù)原電視劇情節(jié)。 最后得到的結(jié)果發(fā)現(xiàn)是用自然語言描述是更容易，就是描述得更精準(zhǔn)，速度更快。

然后我們仔細(xì)去看那些學(xué)生寫的結(jié)構(gòu)化的描述，發(fā)現(xiàn)是錯(cuò)誤百出，比如說張三擁抱了李四，對(duì)于一般的所謂有過知識(shí)工程訓(xùn)練的人來看，很明顯擁抱應(yīng)該是一個(gè)關(guān)系，張三和李四應(yīng)該是兩個(gè)人，一個(gè)是主語，一個(gè)是賓語，那么就應(yīng)該是主謂賓，張三擁抱李四是很清楚的一個(gè)知識(shí)建模，但是相當(dāng)多的學(xué)生，他們把這么一個(gè)特別簡(jiǎn)單的建模就給搞錯(cuò)了，他們沒有辦法理解什么叫概念？什么叫關(guān)系？什么叫屬性？甚至他們不知道什么叫主語和賓語？然后發(fā)現(xiàn)在一開始設(shè)想這件事情的時(shí)候，忽視了絕大多數(shù)的人，在他們的教育生涯中比如高中教育里面，是沒有結(jié)構(gòu)化思維的訓(xùn)練的，這是一種事先無法意識(shí)到的認(rèn)知復(fù)雜性。

由于我們都經(jīng)過十年以上的訓(xùn)練，所以就完全把這些東西當(dāng)成是天然的事情。后來在OWL WORKING GROUP也遇到了同樣的事情，有人說這個(gè)東西太復(fù)雜了，其中有一個(gè)邏輯學(xué)家就抗議說，這東西不復(fù)雜，這東西在計(jì)算機(jī)上跑的時(shí)候，它的算法復(fù)雜性只是多項(xiàng)式復(fù)雜性而已，然后我聽了這句話以后，突然意識(shí)到了一個(gè)事情，就是在這些邏輯學(xué)家的腦子里面，他們所提到的復(fù)雜性是指一個(gè)語言對(duì)于機(jī)器的復(fù)雜性，所以我們通常把它稱為計(jì)算復(fù)雜性。

但是實(shí)際上普通人所理解的復(fù)雜性不是這樣的，比如說你半頁(yè)紙就能說明白的東西，那是一個(gè)簡(jiǎn)單的東西，如果讓我看到20頁(yè)紙，才能看明白，那這個(gè)東西是一個(gè)復(fù)雜的東西。所以一個(gè)技術(shù)，你能不能夠讓程序員用起來，能不能讓用戶用起來，最核心的事情，你是不是能夠讓他們?cè)谡J(rèn)知上面覺得這東西，一看就懂，一聽就懂，一打開就懂，不用解釋，這才叫簡(jiǎn)單。

在很多算法的設(shè)計(jì)上面也好，文檔的設(shè)計(jì)上面也好，應(yīng)用的設(shè)計(jì)上也好，它最終能不能用得好，關(guān)鍵是讓人感覺到它簡(jiǎn)單好用，這就是一個(gè)很重要的因素。斯坦福Parser，為什么在NLP領(lǐng)域里面被用的這么廣，一個(gè)很重要的原因，它的文檔寫的好，每一個(gè)類都有文檔，提供了足夠多的案例。

所以 好的文檔可以極大地降低一個(gè)產(chǎn)品的認(rèn)知復(fù)雜性，即使你的產(chǎn)品本身是復(fù)雜的，你把文檔寫好，也足以有助于推廣這個(gè)產(chǎn)品，所以盡可能地讓能夠接觸到你產(chǎn)品的人，不管是搞語言的，搞技術(shù)的，搞算法的人都感覺到這東西簡(jiǎn)單，是保證你的產(chǎn)品成功的一個(gè)關(guān)鍵。

NO.7 專業(yè)性不足

第七點(diǎn)，這一點(diǎn)就很好理解了， 專業(yè)性不足。

我經(jīng)常會(huì)遇到這樣一些人，說某某公司現(xiàn)在想做一個(gè)問答系統(tǒng)，希望投入三五個(gè)人，可能大多數(shù)情況下沒有博士，多數(shù)情況下可能就是一個(gè)工程人員，試圖很快的時(shí)間，兩三個(gè)月之內(nèi)，甚至三五個(gè)月之內(nèi)，把這樣一個(gè)東西做出來，也是一種幻想。當(dāng)然我不會(huì)直接說破。

人工智能產(chǎn)品，的的確確是有它的專業(yè)性的。很多機(jī)構(gòu)想試圖自己去做這樣的事情，花了1000萬、2000萬、3000萬冤枉錢，結(jié)果做不到。確實(shí)，如果沒有一個(gè)足夠?qū)I(yè)的人是很難把這種事情給做成的。

我也經(jīng)歷了很多這樣的事情，在曾經(jīng)做過的一個(gè)語義理解系統(tǒng)里面，也經(jīng)歷了這樣的問題。我想能夠完成這樣一個(gè)系統(tǒng)，實(shí)際上是要綜合很多不同的算法，不是一個(gè)算法就能夠解決掉的。比如說，從正面的例子來看，IBM Watson 系統(tǒng)里面有幾十種不同的算法，有機(jī)器學(xué)習(xí)的算法，有自然語言處理的算法，有知識(shí)圖譜的算法。 你要把所有的這些算法恰到好處地組合在一起，拿捏的尺度就是一個(gè)特別重要的能力。你該用什么樣的東西，你該不用什么樣的東西。

比如說規(guī)則系統(tǒng)，任何一個(gè)人都可以寫10條正則表達(dá)式，這是沒有問題的。但是如果你能夠?qū)懞?00條正則表達(dá)式，那你一定是一個(gè)非常優(yōu)秀的工程人員，你的軟件工程能力很過硬。如果你能夠管理好1,000條正則表達(dá)式，那你一定是一個(gè)科班出身的，有專業(yè)級(jí)的知識(shí)管理訓(xùn)練的人。如果你能夠真正地管理好10,000條正則表達(dá)式，那你一定是一個(gè)有非常豐富的規(guī)則管理經(jīng)驗(yàn)的人。

當(dāng)然我說的1,000條、10,000條，并不是說你 copy paste 10,000次，改其中幾個(gè)字，那個(gè)不算。人工智能的很多事情，困難就在這兒。你到網(wǎng)上去拿一個(gè)什么開源包啥的，你把它做到80%，都很容易做得到。但難度就在于最后的20%，通?？赡苄枰?8%、99%的正確率，才能夠滿足用戶的需求，但是如果專業(yè)性不夠，最后的這些點(diǎn)是非常難的。

打個(gè)比方說，你要登月的話，你需要的不是梯子，是火箭。你搬個(gè)梯子，最后只能爬到樹上去，再也沒辦法往上走了。你需要的是停下來造火箭，造火箭就是專業(yè)性， 如果專業(yè)性不足，你永遠(yuǎn)只是停留在80%的水平上，再也升不上去。

回到剛才講的語義理解的項(xiàng)目。當(dāng)時(shí)就遇到了蠻多困難，要能夠集成規(guī)則的方法，集成統(tǒng)計(jì)的方法，集成自然語言處理的方法。當(dāng)時(shí)全球有很多實(shí)驗(yàn)室一起來做這件事情，但缺這樣一種角色，能夠把所有的尺度拿捏得特別好的。

其實(shí)IBM把Watson系統(tǒng)做出來，也是經(jīng)歷了很多內(nèi)部變遷，包括項(xiàng)目管理人的變化，包括各種技術(shù)選型的變化，能夠做到這一些，這種人才是非常短缺的。在中國(guó)，能夠真正從頭到尾把一個(gè)語義的理解系統(tǒng)架構(gòu)做好的人，是非常非常少的，也許10個(gè)，也許20個(gè)，數(shù)量確實(shí)不多。我相信在其他人工智能領(lǐng)域，也面臨著同樣的情況。

專業(yè)性也不會(huì)僅僅只局限于程序或者技術(shù)這一塊，人工智能的產(chǎn)品經(jīng)理，人工智能項(xiàng)目的運(yùn)營(yíng)，還有整個(gè)后面的知識(shí)系統(tǒng)，數(shù)據(jù)的治理，都是需要很專業(yè)的人來做， 現(xiàn)在這些人才都非常地短缺。

NO.8 工程能力不足

第八種方法就是 工程能力不足。

我的博士論文是一個(gè)分布式推理機(jī)，但因?yàn)榫幊棠芰Σ粔颍恢钡轿耶厴I(yè)為止，都沒有能夠把它實(shí)現(xiàn)出來。當(dāng)然后來到了2012年、2013年之后，圖計(jì)算，包括基于消息交換的圖計(jì)算出來之后，那時(shí)候我再來做分布式推理機(jī)就比較容易了。

但這是我特別大的一個(gè)教訓(xùn)。

在這之后，我就比較關(guān)注，如果做一件事情，先能夠把我的工程能力補(bǔ)足。這個(gè)工程能力，包括軟件工程能力，如何寫代碼，如何管理代碼，如何做系統(tǒng)集成，還有回歸測(cè)試，如何進(jìn)行代碼的版本控制等等。后來我面試人的時(shí)候，也比較關(guān)注這些東西。

一個(gè)人工智能的技術(shù)能不能做得好，核心往往不僅僅是算法，而是底下的架構(gòu)，還有系統(tǒng)。比如論文中其實(shí)是很好的分布式推理算法，但是我因?yàn)槿鄙龠@個(gè)架構(gòu)，就沒有辦法把這個(gè)東西實(shí)現(xiàn)出來。后來像深度學(xué)習(xí)也是這樣的。最近看到陳天奇他們的實(shí)驗(yàn)室，把算法、架構(gòu)、操作系統(tǒng)都放在一個(gè)實(shí)驗(yàn)室里面來運(yùn)作，覺得這是一個(gè)特別好的事情。目前算法和架構(gòu)之間的裂縫太大了。

工程是解決人工智能的核心鑰匙。 如果代碼能力不行，架構(gòu)能力不行，工程能力不行，在這個(gè)情況下，根本就不應(yīng)該去談算法。優(yōu)先應(yīng)該把工程能力補(bǔ)起來，然后再談算法。

NO.9 陣容太豪華

第九點(diǎn)， 陣容太豪華。

這一點(diǎn)不太好說具體的項(xiàng)目是什么，太敏感了。

但是我就從邏輯上給大家講一下。 因?yàn)橐粋€(gè)項(xiàng)目如果太豪華，核心的問題就是沉沒成本。

我們也經(jīng)常看到一些初創(chuàng)公司，不管是從商務(wù)上，還是從技術(shù)上，特別優(yōu)秀的人組成了一個(gè)公司，最后還是會(huì)失敗。為什么？因?yàn)楸容^優(yōu)秀的人，就是想要做大的事情。一個(gè)大的事情，很難一下子就做對(duì)。通常大的事情，是從小的事情成長(zhǎng)起來的。 如果我們不能夠讓豪華的陣容，從小事做起，通常這樣一個(gè)事情是會(huì)失敗的。

邏輯很簡(jiǎn)單，我就不多說了。

NO.10 時(shí)機(jī)不到，運(yùn)氣不好

第十點(diǎn)，我可以把所有其他的因素丟到這兒， 就是時(shí)機(jī)不到、運(yùn)氣不好。

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

其實(shí)可以把所有其他的事情都?xì)w結(jié)為運(yùn)氣不好。

比如說我們現(xiàn)在看深度學(xué)習(xí)，比如像attention、卷積、LSTM、聯(lián)想記憶等等所有這些概念在90年代，我讀研究生的時(shí)候，這些概念都已經(jīng)有了，但是當(dāng)時(shí)是做不到的。當(dāng)時(shí)即使有了這些算法，也沒有這樣的算力，即使有了這樣的算力，沒有這樣的數(shù)據(jù)。

在2000年的時(shí)候，我在碩士畢業(yè)之后，就在研究一種分層的多層神經(jīng)網(wǎng)絡(luò)。我們把它稱為hierarchical neural network，跟后來深度學(xué)習(xí)的想法非常接近。我?guī)е@個(gè)想法，去見我的博士導(dǎo)師。說我想繼續(xù)沿著這個(gè)方向往前走，但他說現(xiàn)在整個(gè)神經(jīng)網(wǎng)絡(luò)都已經(jīng)拿不到投資了，你再往前走，也走不下去，所以后來就放棄了這個(gè)方向，準(zhǔn)備做語義網(wǎng)了。 10年之后，這個(gè)方法終于找到了機(jī)會(huì)，后來就變成了深度學(xué)習(xí)的東西。

很多時(shí)候，時(shí)機(jī)不到，即使你有這個(gè)算法，你也做不到。90年代的神經(jīng)網(wǎng)絡(luò)，差不多花了10年的時(shí)間，才等到了自己的復(fù)蘇。

知識(shí)圖譜也是一樣的，知識(shí)圖譜大概也等了十幾年的時(shí)間，到了最近這幾年才真正地得到了大規(guī)模的應(yīng)用。

總結(jié)

讓我們來取個(gè)反，做個(gè)總結(jié)：

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

最后一點(diǎn)，時(shí)機(jī)和運(yùn)氣再啰嗦一下。

很多時(shí)候，我們是真的不知道這件事情能不能做得成，也真的不知道，自己處于什么樣的歷史階段。很難預(yù)言未來是什么，但是至少有一點(diǎn)，如果我們多去了解一些算法層面的發(fā)展，包括人工智能的發(fā)展史，包括相關(guān)的這些技術(shù)的發(fā)展史，能夠更好地理解未來。

所以我也推薦一下尼克老師的 《人工智能簡(jiǎn)史》這本書。我看了兩遍都挺有收獲的。看了這東西，能更多地理解什么是時(shí)機(jī)，什么是運(yùn)氣。

有時(shí)候我也經(jīng)常會(huì)讀一些經(jīng)典的文章，十年前或20年前的書，我讀了還是挺有啟發(fā)的。比如說，今年我又把Tim Berners-Lee 《編織萬維網(wǎng)》那本書又重新讀了一遍，讀了一遍以后，我就堅(jiān)定信心了。

知識(shí)圖譜這樣一個(gè)互聯(lián)全世界的記憶的系統(tǒng)，大概率到2030年能夠?qū)崿F(xiàn)，這還是一個(gè)很遙遠(yuǎn)的時(shí)間，但是根據(jù)歷史規(guī)律，應(yīng)該到2030年能實(shí)現(xiàn)了。

一方面，降低我們現(xiàn)在的預(yù)期，另一方面也給我們前進(jìn)更大的鼓勵(lì)。

場(chǎng)景躍遷理論

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

剛才反反復(fù)復(fù)提到了，要控制用戶的預(yù)期，控制自己的預(yù)期。做一個(gè)項(xiàng)目，要從小到大，循序漸進(jìn)。最后把所有的東西抽象到更高層面上，我自己總結(jié)為一個(gè)理論，叫 場(chǎng)景躍遷理論。

這個(gè)理論的核心，是說 一個(gè)人工智能的公司需要多次的產(chǎn)品市場(chǎng)匹配，就是Product-Market Fit。如果提供了一個(gè)產(chǎn)品，市場(chǎng)恰恰需要，而這個(gè)市場(chǎng)恰恰又很大，就說得到了一個(gè)產(chǎn)品市場(chǎng)匹配。

經(jīng)典的互聯(lián)網(wǎng)創(chuàng)業(yè)，通常做一次產(chǎn)品的市場(chǎng)匹配，就可以成功了。但人工智能往往要做好幾次，互聯(lián)網(wǎng)公司和人工智能公司很不一樣。

一個(gè)稱為養(yǎng)雞場(chǎng)模式，一個(gè)稱為養(yǎng)小孩模式。

互聯(lián)網(wǎng)公司是一種養(yǎng)雞場(chǎng)模式，它是一個(gè)大規(guī)模的復(fù)雜系統(tǒng)Complex system。它的關(guān)鍵是可擴(kuò)展性。我養(yǎng)了一只雞，我發(fā)現(xiàn)這只雞不錯(cuò)，我養(yǎng)1萬只雞，這就是養(yǎng)雞場(chǎng)模式。核心就是如何能養(yǎng)一萬只雞，這就叫可擴(kuò)展性。

人工智能應(yīng)用是另外一種類型的復(fù)雜系統(tǒng)，叫Complicated system，它是有非常多的組件，通常是上百種奇奇怪怪的組件組合在一起。它的核心并不是養(yǎng)一萬只雞，更多像養(yǎng)小孩一樣，生完孩子，從小給他換尿布，給他喂奶，教他走路，教他說話，逗他玩，小學(xué)、中學(xué)、大學(xué)，一路把他養(yǎng)大，每一個(gè)階段所面臨的主要任務(wù)都不一樣。 你如何能夠讓這小孩成長(zhǎng)，我們把它稱為可演進(jìn)性，這才是AI公司最核心的因素。

把一個(gè)AI的公司給養(yǎng)大，其實(shí)是特別不容易的事情。就跟養(yǎng)小孩一樣，往往前5年的時(shí)間，都在搭團(tuán)隊(duì)，搞基礎(chǔ)，特別辛苦。公司存活的觀念就是，如何能夠在演進(jìn)的過程中，逐步地掙錢，而不是試圖一步到位地找到市場(chǎng)產(chǎn)品結(jié)合點(diǎn)。 不僅僅是在人工智能的階段要掙錢，在人工智障的階段，也要能夠掙錢。

沒有一個(gè)完整的系統(tǒng)，怎么能掙錢？只能夠把系統(tǒng)中的某些組件拿出去，做 部分的商業(yè)化。就好像毛毛蟲到蝴蝶一樣，毛毛蟲要蛻皮，蛻好幾次，才能變成一個(gè)蝴蝶。毛毛蟲階段，它要吃樹葉子，在蝴蝶那個(gè)階段，它是要吃花蜜，所以它在兩個(gè)不同的階段，它的商業(yè)模式是完全不一樣的。人工智能公司也要蛻好幾次皮。在早期的時(shí)候，因?yàn)楫a(chǎn)品還不夠完善，所以人工智能公司早期都是外包公司，這是正常的，就應(yīng)該接受，這是發(fā)展必經(jīng)的階段。

總結(jié)今天所說的一切，人工智能是一種新興的事物，它是非常復(fù)雜的東西。很難用傳統(tǒng)的舊經(jīng)驗(yàn)來套這樣一種東西的發(fā)展，必須經(jīng)過很長(zhǎng)時(shí)間的演化，才能夠達(dá)到成熟的狀態(tài)。而這個(gè)演化力才是我們想做一個(gè)成功的商業(yè)的嘗試，最關(guān)鍵的因素。如何保證在一次又一次的場(chǎng)景躍遷當(dāng)中，團(tuán)隊(duì)不散架，這樣的能力，才是決定了某一個(gè)商業(yè)上面能不能成功的最大的關(guān)鍵。

我覺得不僅僅是商業(yè)，不管是在學(xué)校里做研究也好，還是在大型跨國(guó)公司里做研究也好，很多道理都是一樣的。就是如何能夠循序漸進(jìn)地，從小到大地來做，謝謝大家！

—完—

https://zhuanlan.zhihu.com/p/41061140

向AI問一下細(xì)節(jié)

文因互聯(lián) CEO 鮑捷：確保搞砸人工智能項(xiàng)目的十種方法

NO.1 一下子砸很多的錢

NO.2 根據(jù)最新論文來決定技術(shù)路線

NO.3 脫離真正的應(yīng)用場(chǎng)景

NO.4 使用過于領(lǐng)先的架構(gòu)

NO.5 不能管理用戶預(yù)期

NO.6 不理解認(rèn)知復(fù)雜性

NO.7 專業(yè)性不足

NO.8 工程能力不足

NO.9 陣容太豪華

NO.10 時(shí)機(jī)不到，運(yùn)氣不好

總結(jié)

場(chǎng)景躍遷理論

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

NO.10 時(shí)機(jī)不到，運(yùn)氣不好