free性熟女妓女tube,国产一级片在线播放,久久精品192.168.0.1

從Watson看AI平臺的架構設計

更新時間：2017-12-13 10:20:11 點擊次數(shù)：3252次

前言

2016年被認為是人工智能的元年，隨著AlphaGo戰(zhàn)勝韓國棋手李世石，人工智能產(chǎn)業(yè)徹底站到了風口上。然而人工智能研發(fā)團隊的核心技術人員通常都是掌握了某些核心算法的科學家，他們對于平臺的架構設計，工程實施并不一定經(jīng)驗豐富。如何基于核心AI能力搭建出一套可持續(xù)運營又具有業(yè)務成長性的企業(yè)級AI平臺呢？筆者以IBM的 Watson為案例，來分析架構設計上需要考慮的方方面面。

Watson解決那些問題？

IBM的Watson在2011年在美國危險邊緣（Jeopardy）真人秀中以77147分的成績戰(zhàn)勝兩位人類選手贏得100萬美金頭獎而一舉成名。在這個故事背后，IBM解決了那些人工智能領域的問題呢？我們先來看看 Jeopardy這個節(jié)目的競賽規(guī)則。作為美式智力問答節(jié)目，Jeopardy的題目由若干詞條或短句組成，讓競賽者找出這些線索所描述的人或事物，答案需要以提問的形式提供給主持人。例如題目問“在撲克牌游戲中，五張同一花色順聯(lián)的牌” 。選手的正確回答是“什么叫同花順”？這就要求參賽選手要有知識的廣度和搶答的反應速度，并且還需要有腦筋急轉彎的聯(lián)想歸納能力。Watson能在不聯(lián)網(wǎng)的情況下，處在人類日常的環(huán)境當中，去理解、搶答、贏得比賽，主要在人工智能3個領域取得突破：

理解自然語言的能力。雖然在比賽中Watson為了提高理解的精確度關閉了語音翻譯功能，使用文本作為輸入方式（游戲規(guī)則允許選手閱讀顯示屏上的問題，所以并不算Watson違規(guī)），但它仍然需要準確的解讀人類措辭含糊的提問。
非結構化數(shù)據(jù)的處理和機器學習能力。接下來Watson要從百科全書般浩繁的文檔中學習儲備知識。
快速運算。在比賽中從知識庫中找到備選項, 通過復雜的判斷邏輯從備選項中選擇正確度高的答案。要達到超過人腦的推理運算速度，快速準確的用人類語音給出終答案。

Watson是如何運行的？

從賽后Watson研發(fā)團隊DeepQA在人工智能領域頂級刊物AI Magazine上的公布論文《Building Watson: An Overview of the DeepQA Project》 (參考1)和維基百科(參考2 ) 上的內(nèi)容， Watson問題分析的工作流程如圖1:

圖1

因為國內(nèi)已有介紹DeepQA這篇論文的文章（參考3），筆者就不詳細展開。從上圖看Watson的技術架構可以歸納如下（圖2）：

圖2

問題生成模塊：系統(tǒng)嘗試了解問題是什么，并執(zhí)行初步分析，以確定問題將如何由系統(tǒng)的其余部分處理。首先分析問題，對問題的類型，回答方式等進行分類，再把問題分解成一系列假設可能的子問題。
答案生成引擎：對于輸入的假設，在答案源進行搜索、過濾掉評分過低的備選答案、根據(jù)備選答案搜索證據(jù)、終把備選答案和證據(jù)合并匯總到統(tǒng)一的數(shù)據(jù)模型中。可以說這是Watson具挑戰(zhàn)的部分，因為：
- ，答案的準確度必須很高，單一分析算法很難達到要求。DeepQA團隊通過漫長的實驗和摸索終選擇了上百種算法從不同的維度分析備選答案，如類型、時間、空間、流行度、來源可靠度、語義相關度等。每種分析都產(chǎn)生一些特征和評分，如何融合不同維度的分析結果并給出評分是一個巨大的挑戰(zhàn)。
- 第二，計算答案的時間很短。人類選手幾秒就能思考出答案并做出搶答動作。而Watson要執(zhí)行多步計算：把問題分解成N個假設、每個假設又會去查詢N多可能的證據(jù)、對N*N的查詢結果進行合并、后分析出答案。DeepQA團隊承認初Watson單機計算一個回答需要2個小時。

為了應對挑戰(zhàn)，DeepQA團隊設計了非結構化信息應用程序框架（Unstructured Information Management applications 縮寫 UIMA）。UIMA 對于非結構化文本分析定義了一套記錄分析結果的通用分析數(shù)據(jù)結構Common Analysis Structure(CAS)，使不同的算法可以共享對文本的分析結果。另外，為了縮短Watson思考的時間，DeepQA團隊設計了UIMA的異步擴展框架（UIMA-AS）用于將分析過程橫向擴展到多臺電腦異步并行處理。UIMA-AS使用JMS（Java Messaging Services）和ActiveMQ處理異步消息傳遞，使答案生成引擎可以方便地部署到多臺服務器上并行處理并匯總分析結果。Watson在參加比賽時，基于UIMA-AS把90臺IBMPower750服務器連接在一起，把思考時間縮短到3-5秒。可以說Watson主要創(chuàng)新并不在于創(chuàng)建某種新的算法，而是通過UIMA能夠同時快速執(zhí)行數(shù)百種成熟的語言分析算法，目前UIMA已經(jīng)開源給Apache軟件基金會，并成為它的頂級項目。

答案決策模塊。將對備選答案生成的成千上萬的成績保存在CAS數(shù)據(jù)結構中，匯總得到終成績和自信度。DeepQA團隊使用Jeopardy以往比賽的題庫和模擬題庫訓練出一系列的中間模型，統(tǒng)計出不同成績和自信度的答案在題庫中的正確率。 Watson使用中間模型統(tǒng)計出的正確率，篩選出有可能的備選答案。
游戲策略模塊。依據(jù)Jeopardy游戲的規(guī)則，結合場上各個選手的比分，問題的難易度來為Watson制定優(yōu)的搶答策略。DeepQA團隊通過歷史比賽和模擬比賽的數(shù)據(jù)，針對不同的問題和場景，訓練出一系列的中間模型，統(tǒng)計出在某種情況下采取何種策略有利。
學習&訓練模塊。DeepQA的工程師將近20T的各類文檔，來源包括百科全書，詞典，敘詞表，新聞文章和文學作品等，存儲在Hadoop的HDFS中。利用Hadoop的MapReduce引擎并行分析這些非結構化、半結構化和結構化的文檔，分析結果以UIMA的數(shù)據(jù)結構存儲在數(shù)據(jù)庫中作為答案庫和證據(jù)庫供Watson比賽時查詢和檢索。

Watson平臺化的技術挑戰(zhàn)在哪兒？

借助Watson在智能問答領域的成功，IBM努力把它作為一個人工智能品牌推向商用。例如安裝在汽上，回答駕駛員有關維修的問題，以及如何提供路況信息和發(fā)出安全警示。當汽車故障出現(xiàn)時，Watson可以告訴駕駛員什么地方出了問題，是否需要預約去4S點修理。

然而訓練Watson贏得比賽是一回事，選擇怎樣的技術架構把Watson打造成能支持同時服務數(shù)以萬計用戶的AI平臺，就是另一個問題。以前述的汽車助手為例，要構建一個企業(yè)級的AI交互問答平臺，就不得不考慮如下實際問題：

多租戶帶來的資源隔離。對于企業(yè)用戶而言，為了數(shù)據(jù)的安全性和平臺的穩(wěn)定性均要求對其數(shù)據(jù)，資源進行隔離不和其它使用者混用。
企業(yè)的需求不一，并且使用的服務不同，如何滿足其定制化。
由于是新應用，企業(yè)客戶更希望AI平臺的計算能力能隨著業(yè)務量的增長動態(tài)提升，讓花的每一分錢都用到實處。
海量的數(shù)據(jù)存儲需求。大量人機對話產(chǎn)生的語音數(shù)據(jù)，需要有廉價安全的存儲方式來保存。

什么樣的技術架構能解決這些問題？

筆者認為用基于PaaS的容器服務(Container As a Service 縮寫 CaaS) + SaaS的架構能很好地解決上述問題。容器服務（CaaS）是一種基于容器的虛擬化形式，其中容器引擎，編排和底層計算資源作為云服務提供給用戶。容器服務平臺技術近兩年已經(jīng)發(fā)展得比較成熟，目前比較流行的實現(xiàn)方式是以Docker為容器化技術，Kubernetes為容器化的應用提供資源調度、部署運行、服務發(fā)現(xiàn)、擴容縮容等整一套功能。利用容器服務平臺封裝、隔離和部署靈活的特性，能很好的解決上述多租戶帶來的問題。結合云計算SaaS層的租戶管理， API管理，計費管理等應用層能力，能很好的解決企業(yè)二次開發(fā)定制化的需求。PaaS平臺對于DevOps的無縫支持以及基礎資源（云存儲、消息隊列、RDS以及鏡像），也使問題3和4的解決變得非常容易。完整的企業(yè)級AI平臺技術架構如下（圖3）：

這里寫圖片描述

圖3

SaaS應用平臺作為和用戶的交互界面，負責將AI平臺的能力和用戶對接。根據(jù)AI平臺的業(yè)務特點，自研發(fā)用戶管理，計費管理，以及對用戶資源的管理模塊，研發(fā)基于OAUTH, RESTful的 OpenAPI平臺。
SaaS平臺還要對AI平臺的研發(fā)和日常監(jiān)控進行支撐。搭建AI平臺的運營監(jiān)控和代碼管理系統(tǒng)。
PaaS提供平臺基礎資源。提供RDS，既存放AI平臺共享的知識庫和訓練模型，也存放租戶自定義的數(shù)據(jù)內(nèi)容；提供云存儲，放置各類結構化和非結構化的文檔資源，人機對話產(chǎn)生的巨大存儲需求也有很好的解決方案；提供消息隊列，用于支撐類似于UIMA-AS橫向擴容時并行計算的消息傳遞；提供鏡像管理（包含虛機的基礎鏡像管理和容器服務的容器鏡像管理），用于存儲各AI子系統(tǒng)模塊新的Docker鏡像。
PaaS自身支持DevOps。負責平臺的代碼和軟件更新，通過DevOps推送到PaaS平臺的鏡像倉庫中，交由容器服務平臺自動進行升級和回滾。
基于PaaS的容器服務平臺，在部署編排模塊的管理下，從PaaS的鏡像中獲取相關容器鏡像，為每個租戶部署一套完整的AI生產(chǎn)環(huán)境。容器調度模塊結合PaaS平臺的基礎監(jiān)控，根據(jù)租戶的資源運行情況，對運行實例進行動態(tài)調整。配置管理模塊統(tǒng)一管理各租戶內(nèi)部子系統(tǒng)的配置。網(wǎng)絡管理用于協(xié)調租戶內(nèi)部和外部云平臺之間的網(wǎng)絡路由和流量分配。
學習和訓練環(huán)境也部署在容器服務平臺。因為AI的訓練和學習時間不固定，沒有必要占用大量資源。在需要時申請，完成計算后釋放，能有效得節(jié)省計算資源的使用。
對于每個租戶，通過容器服務平臺創(chuàng)建完整的Watson系統(tǒng)。容器化的問題生成，答案生成引擎，和答案決策模塊可在容器服務平臺里動態(tài)伸縮，達到資源的合理利用。

總結

隨著以Docker和Kubernetes為代表的容器服務技術日益走向成熟，企業(yè)利用PaaS容器化平臺+SaaS的架構搭建自己的業(yè)務平臺已經(jīng)進入了實踐階段，國內(nèi)已經(jīng)涌現(xiàn)出了一些用私有云的容器服務平臺搭建自身業(yè)務平臺的成功案例。目前公有云服務商Azure、AWS、Google和阿里云等都紛紛基于自己的PaaS平臺推出了類似CaaS的產(chǎn)品。這種架構設計利用云平臺動態(tài)伸縮的優(yōu)勢降低AI平臺的初始資源投入，同時保證平臺后續(xù)沒有資源方面的瓶頸，是一種可行的AI平臺架構設計解決方案。另一方面，我們也應看到該方案的局限性，對于需要實時使用大量硬件資源（如GPU）的AI應用場景，容器服務化并不能解決全部問題。

本站文章版權歸原作者及原出處所有。內(nèi)容為作者個人觀點，并不代表本站贊同其觀點和對其真實性負責，本站只提供參考并不構成任何投資及應用建議。本站是一個個人學習交流的平臺，網(wǎng)站上部分文章為轉載，并不用于任何商業(yè)目的，我們已經(jīng)盡可能的對作者和來源進行了通告，但是能力有限或疏忽，造成漏登，請及時聯(lián)系我們，我們將根據(jù)著作權人的要求，立即更正或者刪除有關內(nèi)容。本站擁有對此聲明的最終解釋權。

上一篇：一個商用級Service Mesh服務的設計之道
下一篇：如何令IOS APP應用快速通過App Store的審核

從Watson看AI平臺的架構設計

前言

Watson解決那些問題？

Watson是如何運行的？

Watson平臺化的技術挑戰(zhàn)在哪兒？

什么樣的技術架構能解決這些問題？

總結

沙克云

定制

關于