無(wú)論怎樣,我們不得不承認(rèn),在我們所處的當(dāng)今時(shí)代,技術(shù)發(fā)展對(duì)現(xiàn)代生活有著決定性的影響。
但令人喜憂參半的是,科技變化如此之快,我們幾乎無(wú)法跟上它的腳步,更不用說(shuō)預(yù)測(cè)未來(lái)了。 其中發(fā)展最快速,影響力最大和最吸引人的技術(shù)進(jìn)步之一就是圖像識(shí)別。
什么是圖像識(shí)別?
圖像識(shí)別是計(jì)算機(jī)視覺(jué)的機(jī)制之一,而計(jì)算機(jī)視覺(jué)是人工智能的一個(gè)分支。
正如我們?cè)?a href="http://m.hljzzgx.com/tags/ai/" target="_blank">AI、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的區(qū)別一文中提到的那樣,人工智能(也稱AI)是一種能夠模仿人類特征并勝任通常需要人類智能才能完成的任務(wù)的計(jì)算機(jī)系統(tǒng)。
為了讓AI更有說(shuō)服力,我們需要所謂的“計(jì)算機(jī)視覺(jué)”。根據(jù)Venture Beat的說(shuō)法,計(jì)算機(jī)視覺(jué)是“計(jì)算機(jī)獲取,處理和分析主要來(lái)自視覺(jué)提示或熱傳感器,超聲波等類似來(lái)源的數(shù)據(jù)。
簡(jiǎn)而言之,計(jì)算機(jī)視覺(jué)使得機(jī)器能夠“看”事物——甚至包括人類無(wú)法看到的事物。例如,位于匹茲堡(美國(guó))的卡內(nèi)基梅隆大學(xué)實(shí)際上正致力于研究名為“呼吸凸輪”的計(jì)算機(jī)視覺(jué)應(yīng)用。該應(yīng)用配備了四個(gè)云連接攝像頭,可以讓用戶監(jiān)控和記錄空氣污染,甚至可以追溯到污染的源頭。是的,它“看到”了空氣質(zhì)量。
然而,要想讓機(jī)器做到人類無(wú)法做到的事情,我們必須首先使機(jī)器能夠做到人類可以做的事情:看到并標(biāo)記物體和生物。這是圖像識(shí)別的主要功能。
Tensorflow是一個(gè)由Google開(kāi)發(fā)人員創(chuàng)建的開(kāi)源軟件庫(kù),它將圖像識(shí)別定義為計(jì)算機(jī)將圖像或視頻分解為像素,識(shí)別形狀,以便“看到”這些圖像的內(nèi)容,并對(duì)它們進(jìn)行分類的過(guò)程。
例如,股票網(wǎng)站每天都有數(shù)百萬(wàn)張圖片上傳和數(shù)十億的搜索量。通常,網(wǎng)站建設(shè)者必須為他們上傳的每張照片添加標(biāo)簽和說(shuō)明,以便與用戶的搜索詞匹配。通過(guò)安裝圖像識(shí)別應(yīng)用,一旦圖像傳輸?shù)椒?wù)器,機(jī)器就可以自動(dòng)識(shí)別圖像中的人物或物體。然后,它可以自動(dòng)對(duì)圖像進(jìn)行描述,比人類的描述更加具體,從而優(yōu)化搜索引擎并改善用戶體驗(yàn)。
如何實(shí)現(xiàn)圖像識(shí)別?
目前,深度學(xué)習(xí)是最有可能讓機(jī)器實(shí)現(xiàn)“看”的能力的技術(shù)。簡(jiǎn)單地說(shuō),深度學(xué)習(xí)就是一種機(jī)器學(xué)習(xí)框架,通過(guò)模仿人類的神經(jīng)元系統(tǒng),為計(jì)算機(jī)提供自主學(xué)習(xí)能力。因此,計(jì)算機(jī)可以準(zhǔn)確識(shí)別圖片中的內(nèi)容,而無(wú)需根據(jù)指令安裝手動(dòng)編碼的軟件——但它需要大量數(shù)據(jù)才能完成識(shí)別。
因此,全世界都在致力于開(kāi)發(fā)大量數(shù)據(jù),其中最典型的例子就是ImageNet和PASCAL數(shù)據(jù)集。經(jīng)過(guò)多年的努力,這些龐大且免費(fèi)的數(shù)據(jù)集包含數(shù)百萬(wàn)張圖像,每張圖像都標(biāo)記有圖像內(nèi)容相關(guān)的關(guān)鍵字
1. ImageNet:由普林斯頓大學(xué)的研究人員于2009年創(chuàng)建,這個(gè)可視化數(shù)據(jù)集擁有從Flickr等搜索引擎收集的超過(guò)1400萬(wàn)個(gè)URL圖像。在數(shù)據(jù)集創(chuàng)建過(guò)程中,工作人員和志愿者對(duì)提交的圖片進(jìn)行了詳細(xì)地注釋,并將其分類為約1000個(gè)對(duì)象類。
2. PASCAL:PASCAL由歐盟國(guó)家各大學(xué)聯(lián)合創(chuàng)建,與ImageNet數(shù)據(jù)集相比,PASCAL相形見(jiàn)絀 —— 僅有20個(gè)對(duì)象類,共20,000個(gè)訓(xùn)練圖像。
正如您可能已經(jīng)從兩者在類數(shù)量上的巨大差異中猜到的那樣,PASCAL的分類更具通用性。相反,ImageNet注重圖像識(shí)別技術(shù)發(fā)展一個(gè)關(guān)鍵特征:類間差異性——機(jī)器能夠識(shí)別兩張包含同一物種或物體的不同類型的圖像,因此圖像被分在不同的類別中。例如,雖然同一圖片在PASCAL中僅屬于“狗”這一類別,但它在ImageNet中可能被分類為“柯基犬”,“牧羊犬”或“哈巴狗”等類。
為什么要投資圖像學(xué)習(xí)?
看起來(lái)每個(gè)人都在這樣做,不是嗎?因?yàn)樗麄兇_實(shí)在這樣做。
2012年,Qualcomm Connected Experiences公司首次推出Vuforia軟件平臺(tái)。該平臺(tái)利用圖像識(shí)別技術(shù)提供大量的AR和VR相關(guān)功能,使得移動(dòng)應(yīng)用程序開(kāi)發(fā)人員能夠隨意擴(kuò)展視野。
Facebook于2016年開(kāi)始幫助盲人“看”照片和圖像。通過(guò)使用圖像識(shí)別,F(xiàn)acebook IOS應(yīng)用程序?qū)槊繌堈掌擅枋觯橛脩舸舐暲首x。
在今年早些時(shí)候,谷歌 - 世界上最值得關(guān)注的人工智能公司之一 推出了Cloud AutoML--一種旨在簡(jiǎn)化AI在企業(yè)運(yùn)營(yíng)中的應(yīng)用的工具。 Cloud AutoML首先啟動(dòng)了圖像識(shí)別功能,允許Google用戶拖入圖像并教會(huì)用戶系統(tǒng)在Google云上識(shí)別圖像。迪士尼和Urban Outfitters等公司已將其應(yīng)用于網(wǎng)站搜索,使結(jié)果更符合用戶需求。
然而,人工智能應(yīng)用并非大公司的特權(quán)。根據(jù)彭博首席經(jīng)濟(jì)學(xué)家McDonough的分析,自2015年中期以來(lái),提及“AI”或“AI公司”的企業(yè)財(cái)報(bào)電話會(huì)議越來(lái)越多。事實(shí)上,80%的受訪公司表示在生產(chǎn)中應(yīng)用了AI應(yīng)用程序。
為什么有數(shù)十億美元投入到這項(xiàng)技術(shù)? 我們的猜測(cè)是圖像識(shí)別潛力巨大。
圖像識(shí)別是一個(gè)非常抽象的領(lǐng)域。但是,當(dāng)應(yīng)用于具體情境時(shí),其改變企業(yè)的潛力是無(wú)可辯駁的。讓我們看看各個(gè)行業(yè)和企業(yè)流程中圖像識(shí)別的幾種潛在應(yīng)用:
1. 醫(yī)療保?。簣D像識(shí)別最突出的能力之一是協(xié)助創(chuàng)建增強(qiáng)現(xiàn)實(shí)(AR)——一種“將計(jì)算機(jī)生成的圖像疊加在用戶對(duì)現(xiàn)實(shí)世界的視角之上”的技術(shù)。如果給人工智能提供AR技術(shù)和包含疾病視覺(jué)提示的數(shù)據(jù)集,你將有一個(gè)永生難忘的醫(yī)療助理。 有了它,醫(yī)生就可以在檢查期間獲得患者傷口的的實(shí)時(shí)詳細(xì)診斷建議或醫(yī)療文件。
2. 教育:圖像識(shí)別可以讓有學(xué)習(xí)困難或身體殘疾的學(xué)生以他們能夠感知的形式獲得所需的教育。計(jì)算機(jī)視覺(jué)支持的應(yīng)用程序可以提供文本到語(yǔ)音和圖像到語(yǔ)音功能,幫助視力受損或有閱讀障礙的學(xué)生“閱讀”所提供的內(nèi)容。
3. 食品和飲料:通過(guò)使用圖像識(shí)別,智能手機(jī)上的簡(jiǎn)單應(yīng)用可以獲得Instagram和Facebook上圖像的視覺(jué)提示,分析它們并提供實(shí)時(shí)數(shù)據(jù)。 例如,根據(jù)這些照片,該應(yīng)用程序可以告訴你新加坡的某家咖啡館是您家人和朋友經(jīng)常去的地方,還是一個(gè)舉辦瘋狂聚會(huì)的場(chǎng)所。通過(guò)這種方式,用戶可以一目了然地獲得本地定制方案,而餐廳也可以有效地接觸到目標(biāo)受眾。
4. 電子商務(wù):想象一個(gè)用戶在街上看到他們想買的東西,但他們找不到人問(wèn)在哪里可以買到它,因此他拍了一張照片。然后,該用戶將其上傳到配備圖像識(shí)別技術(shù)的電子商務(wù)網(wǎng)站。算法本身可以“看”圖片,掃描數(shù)百萬(wàn)個(gè)可選項(xiàng),并推薦一個(gè)看起來(lái)與客戶所尋求的相同,至少是最接近的選項(xiàng)。這正是Savvycom在2018年3月創(chuàng)建新AI Lab時(shí)的初衷。現(xiàn)在,我們的工程師正在研發(fā)人工智能視覺(jué)搜索工具,以利用擁有數(shù)千種產(chǎn)品的大型電子商務(wù)數(shù)據(jù)集,擴(kuò)大電商體驗(yàn)。
5. 企業(yè)流程管理:先進(jìn)的圖像識(shí)別系統(tǒng)還可以在企業(yè)經(jīng)營(yíng)時(shí)協(xié)助識(shí)別。例如,機(jī)器可以進(jìn)行面部識(shí)別,這將取代傳統(tǒng)身份證,來(lái)確定某人是否被授予執(zhí)行某項(xiàng)任務(wù)的權(quán)利:如訪問(wèn)文件存儲(chǔ)系統(tǒng),參加會(huì)議或檢查工作。然而,我們不得不承認(rèn),由于個(gè)人情感、化妝等因素的影響,“看”和“識(shí)別”人臉比識(shí)別物體要復(fù)雜得多。因此,Savvycom的目標(biāo)是盡快在即將開(kāi)展的項(xiàng)目中解決這個(gè)問(wèn)題。
圖像識(shí)別技術(shù)發(fā)展面臨哪些障礙?
圖像識(shí)別并非一個(gè)新領(lǐng)域,但放眼全局,它仍處于早期階段。就像任何一個(gè)典型的成長(zhǎng)中少年一樣,在適應(yīng)現(xiàn)實(shí)世界時(shí)也存在問(wèn)題。
還記得“80%的組織表示他們?cè)谏a(chǎn)中應(yīng)用了AI應(yīng)用程序”嗎?在這些應(yīng)用了人工智能技術(shù)的公司中,約有33%的公司表示采用人工智能技術(shù)的最大障礙是不穩(wěn)定性 - 不成熟且未經(jīng)證實(shí)。34%認(rèn)為很難招聘到合格的工程師,40%表示信息技術(shù)基礎(chǔ)設(shè)施建設(shè)阻礙了人工智能技術(shù)的引進(jìn),且很容易對(duì)公司的財(cái)務(wù)造成不利影響。
資金也是一個(gè)重要影響因素。由于用于數(shù)據(jù)流編程的開(kāi)源軟件庫(kù)越來(lái)越多,如Microsoft CNTK和Accord.Net,機(jī)器學(xué)習(xí)愛(ài)好者能夠以極低的成本進(jìn)行研究和學(xué)習(xí)。然而,并非所有問(wèn)題都能得到解決,因?yàn)椴⒎且磺卸际且阎摹榱藢?shí)現(xiàn)產(chǎn)品創(chuàng)意,要平衡預(yù)算,公司仍有很長(zhǎng)的路要走。
有一種解決方案可以解決許多上述問(wèn)題:外包。IT外包公司專注于技能和專業(yè)知識(shí),能以可預(yù)測(cè)的管理成本提供高端工具和最佳實(shí)踐操作。簡(jiǎn)而言之,他們知道自己在做什么。那是他們的工作。
總而言之,圖像識(shí)別是計(jì)算機(jī)視覺(jué)時(shí)代到來(lái)的早期征兆。無(wú)論它將如何應(yīng)用或?qū)?yīng)用于哪些行業(yè),圖像識(shí)別技術(shù)永遠(yuǎn)不可能孤立發(fā)展。只有通過(guò)訪問(wèn)更多圖片,實(shí)時(shí)數(shù)據(jù),花費(fèi)更多的時(shí)間和精力才能使其更加強(qiáng)大。只有認(rèn)識(shí)到這一點(diǎn),并充分利用這些聯(lián)系的企業(yè)才可能在未來(lái)取得成功。
-
圖像識(shí)別
+關(guān)注
關(guān)注
9文章
520瀏覽量
38267 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238245 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45974
原文標(biāo)題:圖像識(shí)別技術(shù):究竟能在商業(yè)世界掀起多大波瀾?
文章出處:【微信號(hào):robot-1hjqr,微信公眾號(hào):1號(hào)機(jī)器人網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論