機(jī)器學(xué)習(xí)和人工智能的一個(gè)主要組成部分是提取數(shù)據(jù)背后的有用信息,特別是高維數(shù)據(jù)。深度學(xué)習(xí)最近的成功也歸功于有效的數(shù)據(jù)表示。作為機(jī)器學(xué)習(xí)的新興領(lǐng)域,表征學(xué)習(xí)可以從原始數(shù)據(jù)中提取特征,發(fā)現(xiàn)數(shù)據(jù)背后變異的解釋因素,解決高維數(shù)據(jù)帶來的棘手問題。表征學(xué)習(xí)已成功應(yīng)用于計(jì)算機(jī)視覺、音頻/語(yǔ)音信息處理、自然語(yǔ)言處理/理解、機(jī)器人技術(shù)和各種醫(yī)學(xué)應(yīng)用等許多領(lǐng)域。

1.什么是表征學(xué)習(xí)?
表征學(xué)習(xí)是一類機(jī)器學(xué)習(xí)方法,它允許系統(tǒng)在原始數(shù)據(jù)中找到發(fā)現(xiàn)特征或進(jìn)行分類所需的表征。通過讓機(jī)器學(xué)習(xí)特征并將其應(yīng)用于操作,減少了人工特征開發(fā)的需要。
在表征學(xué)習(xí)中,數(shù)據(jù)被發(fā)送給機(jī)器,機(jī)器自己學(xué)習(xí)表征。這就決定了特征數(shù)據(jù)的表示方法、距離函數(shù)和相似度函數(shù),從而決定了預(yù)測(cè)模型的性能。表征學(xué)習(xí)的工作原理是將高維數(shù)據(jù)還原為低維數(shù)據(jù),從而更容易識(shí)別模式和異常,同時(shí)更好地理解數(shù)據(jù)的整體行為。
一般來說,機(jī)器學(xué)習(xí)任務(wù)(如分類)通常需要在數(shù)學(xué)和計(jì)算上可控的輸入數(shù)據(jù),這也是表征學(xué)習(xí)的動(dòng)機(jī)之一。現(xiàn)實(shí)世界的數(shù)據(jù),如照片、視頻和傳感器數(shù)據(jù),會(huì)阻礙通過算法識(shí)別特定特征的嘗試。一種方法是探索數(shù)據(jù)以找到這些特征或表征,而不是依賴明確的技術(shù)。
二、學(xué)習(xí)表征的方法
我們需要使用表征學(xué)習(xí)來確保模型給出不變且無(wú)偏見的結(jié)果,以提高其準(zhǔn)確性和性能。本節(jié)將討論表征學(xué)習(xí)如何在三種不同的學(xué)習(xí)環(huán)境中提高模型性能:有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)。
1.監(jiān)督學(xué)習(xí)
當(dāng) ML 或 DL 模型在輸入 X 和輸出 Y 之間建立起對(duì)應(yīng)關(guān)系時(shí),就出現(xiàn)了監(jiān)督學(xué)習(xí)。計(jì)算機(jī)會(huì)通過比較模型輸出和基本事實(shí)來進(jìn)行修正,學(xué)習(xí)過程會(huì)優(yōu)化輸入和輸出之間的匹配。這一過程不斷重復(fù),直到優(yōu)化函數(shù)達(dá)到全局最小值。
即使優(yōu)化函數(shù)達(dá)到了全局最小值,新數(shù)據(jù)也不一定能提供好的結(jié)果,從而導(dǎo)致過度擬合。雖然監(jiān)督學(xué)習(xí)不需要大量數(shù)據(jù)來學(xué)習(xí)輸入和輸出之間的對(duì)應(yīng)關(guān)系,但它確實(shí)需要學(xué)習(xí)函數(shù)。如果將學(xué)習(xí)到的屬性納入監(jiān)督學(xué)習(xí)算法,預(yù)測(cè)準(zhǔn)確率可提高 17%。
使用標(biāo)記輸入數(shù)據(jù),特征學(xué)習(xí)是監(jiān)督學(xué)習(xí)的一部分。例如,監(jiān)督神經(jīng)網(wǎng)絡(luò)、多層感知器和(監(jiān)督)字典學(xué)習(xí)。
2.無(wú)監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種類型,在這種學(xué)習(xí)中,標(biāo)簽被忽略,而僅僅是觀察。無(wú)監(jiān)督學(xué)習(xí)不用于分類或回歸,而是用于發(fā)現(xiàn)潛在模式、對(duì)數(shù)據(jù)進(jìn)行聚類、去除數(shù)據(jù)中的噪聲、檢測(cè)異常值和分解數(shù)據(jù)等。
在處理 x 數(shù)據(jù)時(shí),我們必須非常謹(jǐn)慎地使用 z 分?jǐn)?shù),以確保我們創(chuàng)建的模型是準(zhǔn)確的。據(jù)觀察,更多的數(shù)據(jù)并不總是意味著更好的代表性。我們需要確保創(chuàng)建的模型既靈活又有表現(xiàn)力,這樣提取的特征才能傳達(dá)基本信息。
無(wú)監(jiān)督特征學(xué)習(xí)通過字典學(xué)習(xí)、獨(dú)立成分分析、自動(dòng)編碼器、矩陣因式分解和各種形式的聚類等方法,從無(wú)標(biāo)記的輸入數(shù)據(jù)中學(xué)習(xí)特征。
海馬課堂專業(yè)課程預(yù)習(xí),2300+嚴(yán)選碩博學(xué)霸師資,針對(duì)學(xué)生的薄弱科目和學(xué)校教學(xué)進(jìn)度,匹配背景相符的導(dǎo)師,根據(jù)學(xué)生情況進(jìn)行1V1專屬備課,上課時(shí)間靈活安排,中英雙語(yǔ)詳細(xì)講解課程中的考點(diǎn)、難點(diǎn)問題,并提供多方位的課前預(yù)習(xí),輔助學(xué)生掌握全部課程知識(shí),補(bǔ)足短板。如果你對(duì)此還有疑問,或者有更多關(guān)于學(xué)業(yè)輔導(dǎo)方面需求的話,可以添加微信號(hào):hmkt131聯(lián)系海馬課堂的Joye老師哦。