Mi a “túlillesztés” és az “alulillesztés” a gépi tanulásban?

– S1E14

Mivel a fő feladatunk egy tanulási algoritmus kiválasztása és betanítása bizonyos adatokon, a két dolog, ami elromolhat, a “rossz algoritmus” és a “rossz adatok”

Ezek a példák a rossz algoritmusra-

Túlillesztés-

A túlillesztés egy modellezési hiba, ami akkor fordul elő, ha egy függvényt túl szorosan illesztünk az adatpontok korlátozott halmazához. Ez azt jelenti, hogy a modell jól teljesít a képzési adatokon, de nem általánosít jól.

Például- Tegyük fel, hogy egy külföldi országban jár, és a taxisofőr átveri Önt. Kísértésbe eshet, hogy azt mondja, hogy abban az országban minden taxisofőr tolvaj

Túlillesztés a képzési adatokon

A komplex modellek, például a mély neurális hálózatok képesek finom mintákat felismerni az adatokban, de ha a gyakorlóhalmaz zajos, vagy ha túl kicsi (ami mintavételi zajt vezet be), akkor a modell valószínűleg magában a zajban is mintákat észlel.

Tegyük fel például, hogy hozzáadjuk az ország neve attribútumot az életelégedettségi modellünkhöz-

Egy összetett modell ebben az esetben olyan mintákat észlelhet, mint például az a tény, hogy a képzési adatokban minden olyan országnak, amelynek nevében “w” betű szerepel, 7-nél nagyobb az életelégedettsége: Új-Zéland (7.3), Norvégia (7,4), Svédország (7,2) és Svájc (7,5).

De ez a w-vel való elégedettségi szabály nem általánosítható Ruandára, Zimbabwéra stb.

Ez a minta nyilvánvalóan pusztán véletlenül jelent meg a képzési adatokban, de a modell nem tudja megállapítani, hogy a minta valós-e, vagy egyszerűen az adatokban lévő zaj eredménye.

Túlillesztés akkor történik, ha a modell túl bonyolult a képzési adatok mennyiségéhez és zajosságához képest.

Itt vannak a lehetséges megoldások:

  • Egyszerűsítsük a modellt úgy, hogy kevesebb paramétert választunk (pl., lineáris modellt a magas fokú polinomiális modell helyett),
  • A képzési adatok attribútumainak számának csökkentésével, vagy a modell korlátozásával*.
  • Több képzési adat gyűjtése.
  • A képzési adatokban lévő zaj csökkentése (pl, az adathibák kijavítása és a kiugró értékek eltávolítása).

A modell korlátozása a modell egyszerűsítése és a túlillesztés kockázatának csökkentése érdekében az úgynevezett regularizáció.

A korábban definiált lineáris modellnek például két paramétere van, θ0 és θ1 .

Ez két szabadságfokot ad a tanuló algoritmusnak, hogy a modellt a képzési adatokhoz igazítsa: az egyenes magasságát (θ0 ) és meredekségét (θ1 ) is módosíthatja.

Ha θ1 = 0-ra kényszerítenénk, akkor az algoritmusnak csak egy szabadságfoka lenne, és sokkal nehezebben illeszkedne megfelelően az adatokhoz: csak annyit tehetne, hogy a vonalat felfelé vagy lefelé mozgatná, hogy minél közelebb kerüljön a gyakorló példányokhoz, tehát az átlag körül végezné.

Ha megengedjük az algoritmusnak, hogy módosítsa θ1-et, de kényszerítjük, hogy kicsi legyen, akkor a tanuló algoritmusnak ténylegesen valahol egy és két szabadságfok között lesz szabadságfoka.

A megfelelő egyensúlyt akarjuk megtalálni aközött, hogy a modell tökéletesen illeszkedjen a képzési adatokhoz, és hogy a modell elég egyszerű legyen ahhoz, hogy jól általánosítható legyen.

A szabályozottság csökkenti a túlillesztés kockázatát
  • Pontozott vonal- csak körökön képzett,
  • Szaggatott vonal- körökön és négyzeteken is képzett
  • Szaggatott vonal- csak körökön képzett modell

Láthatjuk, hogy a regularizáció kisebb meredekségre kényszerítette a modellt: Ez a modell nem illeszkedik olyan jól a képzési adatokhoz (körök), mint az első modell, de valójában jobban általánosít olyan új példákra, amelyeket nem látott a képzés során (négyzetek).

A tanulás során alkalmazandó regularizáció mértékét egy hiperparaméterrel szabályozhatjuk.

A hiperparaméter a tanulási algoritmus (nem a modell) paramétere. A tanítás előtt kell beállítani, és a tanítás során állandó marad.

Ha a regularizációs hiperparamétert beállítjuk-

  • Nagyon nagy értékre-, akkor egy majdnem lapos modellt kapunk (a meredekség közel nulla), a tanuló algoritmus szinte biztosan nem fogja túlilleszteni a képzési adatokat, de kevésbé valószínű, hogy jó megoldást talál.

A hiperparaméterek hangolása fontos része a gépi tanulási rendszer felépítésének (erre a további epizódokban részletes példát fog látni).

Az alulillesztés akkor következik be, amikor a modell túl egyszerű ahhoz, hogy megtanulja az adatok mögöttes szerkezetét.

Az életelégedettség lineáris modellje hajlamos az alulillesztésre, a valóság egyszerűen összetettebb, mint a modell, így az előrejelzései szükségszerűen pontatlanok lesznek.

Itt vannak a fő lehetőségek ennek a problémának a megoldására-

  • Válasszunk egy erősebb modellt, több paraméterrel.
  • Juttassunk jobb jellemzőket a tanuló algoritmusnak (feature engineering).
  • Visszük le a modellre vonatkozó korlátozásokat (pl., csökkentse a regularizációs hiperparamétert).

Read Next- A képzett modell tesztelése és validálása

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.