Mitä on ”ylisovittaminen” ja ”vajaasovittaminen” koneoppimisessa?

– S1E14

Päätehtävänäsi on valita oppimisalgoritmi ja kouluttaa se tietyllä datalla, kaksi asiaa, jotka voivat mennä pieleen, ovat ”huono algoritmi” ja ”huono data”

Nämä ovat esimerkkejä huonosta algoritmista-

Ylisovittaminen-

Ylisovittaminen on mallinnusvirhe, joka syntyy, kun funktio sovitetaan liian tiiviisti rajoitettuun datapistejoukkoon. Se tarkoittaa, että malli toimii hyvin harjoitusdatassa, mutta se ei yleisty hyvin.

Esim- Sanotaan, että olet vierailemassa vieraassa maassa ja taksikuski huijaa sinua. Sinulla saattaa olla kiusaus sanoa, että kaikki taksinkuljettajat kyseisessä maassa ovat varkaita

Harjoitusdatan ylisovittaminen

Kompleksiset mallit, kuten syvät neuroverkot, voivat havaita hienovaraisia malleja datasta, mutta jos harjoitusjoukko on kohinainen tai jos se on liian pieni (mikä aiheuttaa näytteenottokohinaa), malli todennäköisesti havaitsee kuvioita itse kohinassa.

Esimerkiksi- sanotaan, että lisäät elämäntyytyväisyysmalliisi maan nimiattribuutin-

Tällöin monimutkainen malli voi havaita sellaisia kuvioita kuin se, että kaikkien harjoitusaineiston maiden, joiden nimessä on ’w’, elämäntyytyväisyys on suurempi kuin 7: Uusi-Seelanti (7.3), Norja (7,4), Ruotsi (7,2) ja Sveitsi (7,5).

Mutta tämä w-tyytyväisyyssääntö ei yleisty Ruandaan, Zimbabween jne.

Ilmeisesti tämä kuvio esiintyi harjoitteludatassa puhtaasti sattumalta, mutta mallilla ei ole mitään keinoa sanoa, onko kuvio todellinen vai pelkästään datan kohinan seurausta.

Overfitting tapahtuu, kun malli on liian monimutkainen suhteessa harjoitusdatan määrään ja kohinaan.

Tässä ovat mahdolliset ratkaisut:

  • Yksi yksinkertaista mallia valitsemalla malli, jossa on vähemmän parametreja (esim, lineaarinen malli korkea-asteisen polynomimallin sijaan),
  • Vähentämällä attribuuttien määrää harjoitteluaineistossa tai rajoittamalla* mallia.
  • Kerää enemmän harjoitteluaineistoa.
  • Vähentää harjoitteluaineiston kohinaa (esim, korjaa datan virheet ja poista poikkeamat).

Mallin rajoittamista sen yksinkertaistamiseksi ja ylisovittamisen riskin pienentämiseksi kutsutaan regularisoinniksi.

Esimerkiksi aiemmin määrittelemällämme lineaarisella mallilla on kaksi parametria, θ0 ja θ1 .

Tämä antaa oppimisalgoritmille kaksi vapausastetta mallin sovittamiseksi harjoitusaineistoon: se voi säätää sekä viivan korkeutta (θ0 ) että kaltevuutta (θ1 ).

Jos pakottaisimme θ1 = 0, algoritmilla olisi vain yksi vapausaste ja sen olisi paljon vaikeampi sovittaa dataa kunnolla: se voisi vain siirtää viivaa ylös- tai alaspäin saadakseen sen mahdollisimman lähelle harjoittelutapauksia, joten se päätyisi keskiarvon ympärille.

Jos annamme algoritmin muokata θ1:tä, mutta pakotamme sen pitämään sen pienenä, oppimisalgoritmilla on tosiasiassa jossakin yhden ja kahden vapausasteen välillä.

Haluat löytää oikean tasapainon sen välillä, että malli sopii harjoitusaineistoon täydellisesti ja pitää mallin riittävän yksinkertaisena, jotta se yleistyy hyvin.

Regularisointi vähentää ylisovittamisen riskiä
  • Katkoviiva- koulutettu vain ympyröillä,
  • Katkoviiva- koulutettu sekä ympyröillä että neliöillä
  • Ympyräviiva- on malli, joka on koulutettu vain ympyröillä

Voit nähdä, että regularisointi pakotti mallin pienempään kaltevuuteen: Tämä malli ei sovi harjoitusaineistoon (ympyrät) yhtä hyvin kuin ensimmäinen malli, mutta se itse asiassa yleistyy paremmin uusiin esimerkkeihin, joita se ei nähnyt koulutuksen aikana (neliöt).

Oppimisen aikana käytettävän regularisoinnin määrää voidaan ohjata hyperparametrilla.

Hyperparametri on oppimisalgoritmin (ei mallin) parametri. Se on asetettava ennen harjoittelua, ja se pysyy vakiona harjoittelun aikana.

Jos asetat regularisoinnin hyperparametrin-

  • Hyvin suureksi arvoksi- saat lähes litteän mallin (kaltevuus lähellä nollaa), oppimisalgoritmi ei melkein varmasti sovita harjoitteluaineistoon liikaa (overfit), mutta se harvemmin löytää hyvän ratkaisun.

Hyperparametrien virittäminen on tärkeä osa koneoppimisjärjestelmän rakentamista (näet yksityiskohtaisen esimerkin myöhemmissä jaksoissa).

Alisovittaminen tapahtuu, kun malli on liian yksinkertainen oppiakseen datan taustalla olevan rakenteen.

Lineaarinen malli elämäntyytyväisyydestä on altis alisovittamiselle, todellisuus on vain monimutkaisempi kuin malli, joten sen ennusteet ovat väistämättä epätarkkoja.

Tässä ovat tärkeimmät vaihtoehdot tämän ongelman korjaamiseksi-

  • Valitaan tehokkaampi malli, jossa on enemmän parametreja.
  • Syötetään parempia piirteitä oppimisalgoritmille (feature engineering).
  • Vähennetään malliin kohdistuvia rajoituksia (esim, pienennä regularisointihyperparametria).

Lue seuraavaksi- Koulutetun mallin testaus ja validointi

Vastaa

Sähköpostiosoitettasi ei julkaista.