實(shí)時(shí)機(jī)器學(xué)習(xí)是指通過(guò)向機(jī)器學(xué)習(xí)模型提供實(shí)際數(shù)據(jù)來(lái)不斷改進(jìn)機(jī)器學(xué)習(xí)模型。數(shù)據(jù)分析師/科學(xué)家或開(kāi)發(fā)人員使用先前測(cè)試集的集合脫機(jī)創(chuàng)建模型。所有部門(mén)和行業(yè)都盡最大努力從機(jī)器學(xué)習(xí)中獲得所有可能的好處,無(wú)論是認(rèn)知研究還是自動(dòng)連續(xù)過(guò)程??紤]像Google Home這樣的智能家居助理或智能活動(dòng)跟蹤設(shè)備,Alexa或Siri等語(yǔ)音識(shí)別系統(tǒng),或自動(dòng)駕駛汽車(chē)。這種人工技術(shù)已經(jīng)進(jìn)步了很多。
機(jī)器學(xué)習(xí)更多地分為其他類(lèi)型,定義如下:
監(jiān)督學(xué)習(xí):您的模型預(yù)測(cè)正確的結(jié)果/標(biāo)簽。大多數(shù)監(jiān)督學(xué)習(xí)算法包括線性和邏輯回歸;
無(wú)監(jiān)督學(xué)習(xí):這種學(xué)習(xí)尋找數(shù)據(jù)集中預(yù)先存在標(biāo)簽的模式;
強(qiáng)化學(xué)習(xí):這種學(xué)習(xí)是指如何阻止或鼓勵(lì)某些行為;
由于數(shù)據(jù)漂移,機(jī)器學(xué)習(xí)模型的準(zhǔn)確性會(huì)隨著時(shí)間的推移而下降。更新的頻率決定了模型的運(yùn)行效率。雖然像谷歌、阿里巴巴和Facebook這樣的企業(yè)已經(jīng)能夠使用實(shí)時(shí)管道來(lái)不斷改變生產(chǎn)中的幾種算法并提高他們的性能,但許多其他企業(yè)仍然手動(dòng)更新他們的模型。在本文中,我們將討論機(jī)器學(xué)習(xí)當(dāng)前持續(xù)學(xué)習(xí)狀態(tài)的動(dòng)機(jī)、困難和潛在解決方案。
提供給機(jī)器學(xué)習(xí)模型的數(shù)據(jù)的價(jià)值通常是最重要的,因?yàn)樗梢粤⒓从糜谧龀鲞m當(dāng)?shù)臎Q策。但是,用戶(hù)數(shù)據(jù)通常會(huì)被引入、轉(zhuǎn)換、存儲(chǔ),并在機(jī)器學(xué)習(xí)模型使用之前長(zhǎng)時(shí)間處于空閑狀態(tài)。
面向消費(fèi)者的產(chǎn)品(如 Headspace 應(yīng)用程序)通過(guò)使用消費(fèi)者數(shù)據(jù)提供實(shí)時(shí)見(jiàn)解和判斷,可以顯著減少邊緣用戶(hù)反饋循環(huán)。這是因?yàn)橛脩?hù)在片刻之前采取了可以完全集成到項(xiàng)目中的操作,為消費(fèi)者提供更有意義、個(gè)性化定制和情境內(nèi)容的建議。
然而,對(duì)于流或?qū)崟r(shí)數(shù)據(jù),孟菲斯平臺(tái)被廣泛使用,并提供機(jī)器學(xué)習(xí)算法的訓(xùn)練。
實(shí)時(shí)機(jī)器學(xué)習(xí)通過(guò)提供準(zhǔn)確的數(shù)據(jù)來(lái)不斷改進(jìn)機(jī)器學(xué)習(xí)模型。
機(jī)器學(xué)習(xí)模型應(yīng)用于流數(shù)據(jù)管道。此工作流在稱(chēng)為流式機(jī)器學(xué)習(xí)的過(guò)程中以實(shí)時(shí)塊的形式吸收和修改供應(yīng)商和目標(biāo)之間的數(shù)據(jù)。
持續(xù)學(xué)習(xí)和機(jī)器學(xué)習(xí)預(yù)測(cè)延遲可以通過(guò)流式處理基礎(chǔ)結(jié)構(gòu)得到改善。計(jì)算的一部分是小型數(shù)據(jù)集的批處理。
機(jī)器學(xué)習(xí)和數(shù)據(jù)分析技術(shù)適用于幫助大型流媒體系統(tǒng)的安全性。機(jī)器學(xué)習(xí)(也稱(chēng)為模型訓(xùn)練)根據(jù)所需的給定數(shù)據(jù)創(chuàng)建預(yù)測(cè)模型。
當(dāng)基于知識(shí)的算法(如實(shí)時(shí)機(jī)器學(xué)習(xí)或深度神經(jīng)網(wǎng)絡(luò))得到正確使用時(shí),它們受益最大。圖像識(shí)別 現(xiàn)實(shí)生活中常用且廣泛的機(jī)器學(xué)習(xí)應(yīng)用是圖像識(shí)別。
為什么需要實(shí)時(shí)機(jī)器學(xué)習(xí)
由于需要事先有更多可用數(shù)據(jù)進(jìn)行訓(xùn)練,或者當(dāng)數(shù)據(jù)必須響應(yīng)不同的趨勢(shì)時(shí),實(shí)時(shí)機(jī)器學(xué)習(xí)可能會(huì)有所幫助。例如,如果客戶(hù)的偏好和需求隨時(shí)間而變化,則不斷改進(jìn)的基于機(jī)器學(xué)習(xí)的項(xiàng)目推薦器可以適應(yīng)這些變化,而無(wú)需額外的再培訓(xùn)。因此,通過(guò)識(shí)別新趨勢(shì)并進(jìn)行調(diào)整以反映它們,實(shí)時(shí)機(jī)器學(xué)習(xí)可以為企業(yè)及其消費(fèi)者提供更即時(shí)的準(zhǔn)確性。
實(shí)時(shí)機(jī)器學(xué)習(xí)模型通常以這種方式部署到事件驅(qū)動(dòng)架構(gòu)中的生產(chǎn)環(huán)境,其中數(shù)據(jù)不斷注入到模型中。用于處理數(shù)據(jù)流的管道處理使數(shù)據(jù)準(zhǔn)備好輸入模型所需的所有數(shù)據(jù)優(yōu)化和操作。管道使用實(shí)時(shí)數(shù)據(jù)同時(shí)修改模型及其構(gòu)建所基于的參考數(shù)據(jù)集。
在過(guò)去的幾年里,高性能技術(shù)在我們的日常生活中每天都在增加。人工智能的范圍及其各自的工作現(xiàn)在在行業(yè)中備受推崇。從Siri或Alexa等語(yǔ)音助手到高科技咖啡機(jī),這些正在成為我們?nèi)粘I畹闹匾M成部分,導(dǎo)致機(jī)器學(xué)習(xí)人工智能工作的積極發(fā)展。
實(shí)時(shí)數(shù)據(jù)流平臺(tái)
你可以收集、處理、評(píng)估大量數(shù)據(jù),并通過(guò)實(shí)時(shí)數(shù)據(jù)流服務(wù)向?qū)崟r(shí)應(yīng)用和分析服務(wù)提供持續(xù)流式處理。通過(guò)利用安全、高度可訪問(wèn)、強(qiáng)大且適應(yīng)性強(qiáng)的集中管理服務(wù),開(kāi)發(fā)人員可以輕松創(chuàng)建實(shí)時(shí)應(yīng)用程序。
實(shí)時(shí)數(shù)據(jù)流是從多個(gè)來(lái)源收集和吸收一系列數(shù)據(jù),然后實(shí)時(shí)解釋這些數(shù)據(jù)以獲取信息。實(shí)時(shí)數(shù)據(jù)流允許用戶(hù)立即檢查和處理數(shù)據(jù),而不必等待一段時(shí)間或更長(zhǎng)時(shí)間才能獲得結(jié)果。
由Web應(yīng)用程序用戶(hù)生成的日志文件,電子商務(wù)預(yù)付款,來(lái)自社交網(wǎng)絡(luò)的數(shù)據(jù),來(lái)自金融平臺(tái)的交易信息,地理分析服務(wù)以及來(lái)自智能小工具的衛(wèi)星跟蹤都是流數(shù)據(jù)的示例。
實(shí)時(shí)數(shù)據(jù)流有五個(gè)組件:
來(lái)源:數(shù)以千計(jì)的設(shè)備每秒生成數(shù)百萬(wàn)個(gè)數(shù)據(jù),如移動(dòng)設(shè)備、Web 應(yīng)用程序等。
流攝?。?/strong>使您能夠掌握上述設(shè)備產(chǎn)生的數(shù)千條數(shù)據(jù);
流存儲(chǔ):將用于保存各種數(shù)據(jù)的內(nèi)存
流處理
目標(biāo):為分析保密提供流數(shù)據(jù)以供進(jìn)一步分析;
一個(gè)廣泛用于持續(xù)處理數(shù)據(jù)流的主要平臺(tái)是Memphis 。
Memphis?
Memphis 是開(kāi)發(fā)實(shí)時(shí)系統(tǒng)的所有問(wèn)題的新興解決方案。它聲稱(chēng)是最快的解決方案,并且已被證明是最快的解決方案。它有助于比市場(chǎng)上任何平臺(tái)更快地構(gòu)建流媒體平臺(tái)。Memphis 的主要好處是它是一個(gè)可公開(kāi)訪問(wèn)的開(kāi)源平臺(tái)。該平臺(tái)是一個(gè)易于訪問(wèn)的實(shí)時(shí)數(shù)據(jù)集成器。
特征
當(dāng)前
它在幾分鐘內(nèi)提供了一個(gè)完全優(yōu)化的消息代理。
它提供了一個(gè)直觀的用戶(hù)界面,例如命令行界面。
它提供了數(shù)據(jù)級(jí)別的可觀測(cè)性。
它在傳輸過(guò)程中提供消息的路由。
它利用軟件開(kāi)發(fā)工具包,如Python Node.JS等。
來(lái)
它將使用更多的 SDK。
它將提供準(zhǔn)備好的連接和分析工具。
它將提供內(nèi)聯(lián)處理。
使用Memphis 的優(yōu)點(diǎn)
Memphis 的平臺(tái)能夠構(gòu)建下一代應(yīng)用程序,這些應(yīng)用程序需要大量流和增強(qiáng)數(shù)據(jù)、當(dāng)前協(xié)議、零操作、快速開(kāi)發(fā)、大幅降低成本以及面向數(shù)據(jù)的程序員和數(shù)據(jù)工程師的更少開(kāi)發(fā)時(shí)間。孟菲斯的主要重點(diǎn)是:
性能 – 提高緩存利用率;
彈性 – 提供 99.95% 的正常運(yùn)行時(shí)間;
可觀察性 – 正確的觀察,減少故障排除時(shí)間;
開(kāi)發(fā)人員體驗(yàn) – 內(nèi)聯(lián)處理、模式管理、模塊化和頂部;
實(shí)時(shí)機(jī)器學(xué)習(xí)場(chǎng)景
對(duì)于商業(yè)研究人工智能,計(jì)算機(jī)系統(tǒng)可以使用機(jī)器學(xué)習(xí)來(lái)使用所有客戶(hù)數(shù)據(jù)。它遵循已經(jīng)編程的必需指令,同時(shí)仍會(huì)根據(jù)不同的情況進(jìn)行更改或調(diào)整。顯示以前無(wú)法執(zhí)行行為的數(shù)據(jù)會(huì)導(dǎo)致算法發(fā)生變化。
如果數(shù)字助理能夠了解情況,它可能會(huì)閱讀電子郵件并檢索重要信息。這種理解伴隨著將未來(lái)客戶(hù)端行為作為內(nèi)置功能預(yù)測(cè)的能力。因此,您可能對(duì)消費(fèi)者的需求更加積極和靈活。
深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)有三層。可以使用單層神經(jīng)網(wǎng)絡(luò)進(jìn)行粗略估計(jì)。精度和性能都可以通過(guò)添加更多層來(lái)提高。機(jī)器學(xué)習(xí)在各種不同的區(qū)塊和業(yè)務(wù)中都有幫助,并且可以隨著時(shí)間的推移更有效地向前發(fā)展。以下是機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用的五個(gè)實(shí)例。
模式/圖像識(shí)別
模式或圖像識(shí)別是機(jī)器學(xué)習(xí)在物理世界中的常見(jiàn)且廣泛使用的應(yīng)用。根據(jù)深色或淺色或黑白或彩色圖像中像素的嚴(yán)重性,它可以將項(xiàng)目識(shí)別為數(shù)碼照片。它現(xiàn)實(shí)生活中的例子是診斷X射線是否患有癌癥。
屬于圖像識(shí)別類(lèi)別的方法集合,圖像識(shí)別是人工智能的一個(gè)分支,代表圖像的檢測(cè)和解釋?zhuān)詫?shí)現(xiàn)特定活動(dòng)的自動(dòng)化。它是一種可以識(shí)別圖像中的物體、人物、地點(diǎn)和其他各個(gè)方面并通過(guò)分析得出結(jié)論的方法。
語(yǔ)音識(shí)別
與文本交談是機(jī)器學(xué)習(xí)的一種能力。文本文件可以使用特定的計(jì)算機(jī)軟件生成,該軟件可以轉(zhuǎn)換語(yǔ)音和錄音或錄制的語(yǔ)音。語(yǔ)音根據(jù)時(shí)頻帶的強(qiáng)度進(jìn)一步表征為片段。現(xiàn)實(shí)生活中的單詞示例包括語(yǔ)音撥號(hào)和語(yǔ)音搜索。
麥克風(fēng)必須產(chǎn)生類(lèi)似于波的電信號(hào),然后任何系統(tǒng)才能理解語(yǔ)音。然后,該信號(hào)由計(jì)算機(jī)或計(jì)算機(jī)網(wǎng)絡(luò)(例如設(shè)備的聲卡)轉(zhuǎn)換為二進(jìn)制代碼。語(yǔ)音識(shí)別軟件檢查數(shù)字?jǐn)?shù)據(jù)以識(shí)別不同的元音,這是語(yǔ)音的基本組成部分。這些單詞是通過(guò)重新組合輔音來(lái)創(chuàng)建的。但是,由于如此多的單詞具有相似的聲音,因此算法必須根據(jù)情況來(lái)選擇正確的術(shù)語(yǔ)。
醫(yī)療診斷
機(jī)器學(xué)習(xí)可以幫助進(jìn)行醫(yī)學(xué)診斷。許多臨床醫(yī)生使用語(yǔ)音軟件來(lái)識(shí)別疾病集群。它的真實(shí)例子包括分析體液。
預(yù)測(cè)分析
可用數(shù)據(jù)可以通過(guò)機(jī)器學(xué)習(xí)分為研究人員制定的法規(guī)進(jìn)一步定義的類(lèi)別。研究人員可以在分類(lèi)完成后確定缺陷的可能性。一個(gè)現(xiàn)實(shí)生活中的例子包括檢查交易是有效的還是欺詐的。
萃取
從非結(jié)構(gòu)化數(shù)據(jù)中,機(jī)器學(xué)習(xí)可以檢索特定數(shù)據(jù)。企業(yè)收集無(wú)數(shù)的客戶(hù)數(shù)據(jù)。為預(yù)測(cè)數(shù)據(jù)分析工具自動(dòng)標(biāo)記數(shù)據(jù)集的過(guò)程使用機(jī)器學(xué)習(xí)算法?,F(xiàn)實(shí)生活中的例子包括幫助醫(yī)生治療問(wèn)題并輕松診斷它們。此提取由我們的平臺(tái)孟菲斯執(zhí)行,這使得它對(duì)我們更有幫助,因?yàn)樗ㄟ^(guò)使用云提供了一個(gè)更現(xiàn)實(shí)和全面的系統(tǒng)。
在線預(yù)測(cè)
AI 平臺(tái)預(yù)測(cè)旨在盡可能快地使用專(zhuān)用模型處理您的數(shù)據(jù)。該服務(wù)從您那里接收少量數(shù)據(jù)并響應(yīng)您的預(yù)測(cè)。
由于維護(hù)日志的費(fèi)用,默認(rèn)情況下,自動(dòng)網(wǎng)絡(luò)預(yù)測(cè)工具不會(huì)提供有關(guān)查詢(xún)的記錄信息。每秒處理多個(gè)請(qǐng)求的在線預(yù)測(cè)可能會(huì)生成大量由云監(jiān)控收費(fèi)的日志。
當(dāng)您希望在低延遲方案中將每個(gè)示例與其他實(shí)例分開(kāi)進(jìn)行預(yù)測(cè)時(shí),將使用在線預(yù)測(cè)上下文。
例如,預(yù)測(cè)可用于快速確定到期金額是否最有可能是欺詐性的。
雖然我認(rèn)為持續(xù)學(xué)習(xí)的廣泛采用還需要幾十年的時(shí)間,但我觀察到企業(yè)在轉(zhuǎn)向在線預(yù)測(cè)方面付出了相當(dāng)大的努力。我們將描述采用批次特征的簡(jiǎn)單在線預(yù)測(cè)系統(tǒng)的要求,通常有助于會(huì)話中適應(yīng),從批次預(yù)測(cè)系統(tǒng)開(kāi)始。稍后,我們將討論開(kāi)發(fā)一種同時(shí)使用批處理和流式處理功能的在線預(yù)測(cè)工具。
要求
對(duì)于此階段,您必須執(zhí)行以下操作:
將模型從批量預(yù)測(cè)切換到基于會(huì)話的預(yù)測(cè)。
在在線預(yù)測(cè)工具中包含會(huì)話數(shù)據(jù)。
您無(wú)需為使用在線預(yù)測(cè)時(shí)未查看您網(wǎng)站的用戶(hù)創(chuàng)建聯(lián)想查詢(xún)。例如,在 2020 年,Grub Hub 報(bào)告了 31 萬(wàn)月活躍消費(fèi)者和 620,000 個(gè)平均訂單。想象一下,每天只有 2% 的消費(fèi)者登錄您的應(yīng)用程序。
如果您每天為每個(gè)客戶(hù)生成預(yù)測(cè),那么生成 98% 的在線預(yù)測(cè)所需的計(jì)算能力將毫無(wú)用處。
持續(xù)學(xué)習(xí)
持續(xù)學(xué)習(xí)(也稱(chēng)為增量學(xué)習(xí))背后的想法是按時(shí)間順序?qū)W習(xí)許多多個(gè)作業(yè)的模型,而不會(huì)忽略從它們之前的任務(wù)中獲得的信息,即使在訓(xùn)練新任務(wù)時(shí)不再提供舊任務(wù)的統(tǒng)計(jì)數(shù)據(jù)。
人們?cè)诼?tīng)到“持續(xù)學(xué)習(xí)”時(shí),會(huì)立即想到頻繁的模型更新,比如每五分鐘更新一次。許多人認(rèn)為,大多數(shù)企業(yè)不需要定期進(jìn)行更改,因?yàn)椋?/p>
為了理解重新訓(xùn)練的時(shí)間線,他們需要流量。
他們的模型不會(huì)退化得那么快。
我同意他們的看法。然而,持續(xù)學(xué)習(xí)并不是關(guān)于模型重新訓(xùn)練頻率的頻率;這是關(guān)于它是如何重新訓(xùn)練的。
大多數(shù)企業(yè)使用無(wú)狀態(tài)再訓(xùn)練,其中每次模型都是從頭開(kāi)始編程的。持續(xù)學(xué)習(xí)需要啟用有狀態(tài)訓(xùn)練,其中模型通過(guò)新的輸入不斷學(xué)習(xí)。持續(xù)學(xué)習(xí)是我們的目標(biāo),也是我們認(rèn)為許多企業(yè)最終會(huì)遵循的目標(biāo)。
當(dāng)邊緣部署和持續(xù)學(xué)習(xí)相結(jié)合時(shí),達(dá)到峰值。Envision可以提供帶有新小工具(手機(jī),可穿戴手表等)的基本模型,并讓該模型自動(dòng)跟蹤并根據(jù)周?chē)h(huán)境進(jìn)行自定義。無(wú)需在設(shè)備和云之間不斷傳輸數(shù)據(jù),也沒(méi)有客戶(hù)端-服務(wù)器成本。
結(jié)論
實(shí)時(shí)機(jī)器學(xué)習(xí)的主要問(wèn)題是設(shè)備。平臺(tái)團(tuán)隊(duì)和計(jì)算機(jī)分析或機(jī)器學(xué)習(xí)團(tuán)隊(duì)必須協(xié)作才能找到解決方案。持續(xù)學(xué)習(xí)和在線預(yù)測(cè)需要一個(gè)發(fā)達(dá)的流媒體平臺(tái)。繼續(xù)學(xué)習(xí)的培訓(xùn)部分可以分批完成,但其在線評(píng)估部分需要流式傳輸。流媒體既困難又昂貴,這讓許多開(kāi)發(fā)人員感到擔(dān)憂。雖然三年前是準(zhǔn)確的,但流媒體技術(shù)已經(jīng)有了很大的進(jìn)步。許多知名公司現(xiàn)在正在提供并越來(lái)越多地提出一種解決方案,以簡(jiǎn)化企業(yè)向流媒體的過(guò)渡。孟菲斯在流媒體方面發(fā)揮著重要作用,借助其基于云的系統(tǒng)使其效率更高。
如今,許多開(kāi)發(fā)人員正在進(jìn)行民意調(diào)查,以了解有關(guān)實(shí)時(shí)機(jī)器學(xué)習(xí)使用和行業(yè)障礙的更多信息。您只需幾分鐘即可與他們分享您的意見(jiàn)。結(jié)果在編譯和匯總后將通知用戶(hù)。
審核編輯:郭婷
評(píng)論
查看更多