KDnuggets

By Shivashish Thakur, Digital Marketing, DataFlair.

A tökéletes modell felépítéséhez nagy mennyiségű adatra van szükség. De a megfelelő adathalmaz megtalálása a gépi tanulás és az adattudományi projekthez néha elég nagy kihívást jelent. Számos szervezet, kutató és magánszemély osztotta meg munkáját, és az ő adatkészleteiket fogjuk felhasználni a projektünk felépítéséhez.

Ebben a cikkben tehát 20+ gépi tanulás és adattudományi adatkészletet és projektötletet fogunk megvitatni, amelyeket felhasználhat a készségei gyakorlásához és fejlesztéséhez.

Enron Email Dataset

Az Enron adatkészlet népszerű a természetes nyelvi feldolgozásban. Több mint 150 felhasználó több mint 500K e-mailjét tartalmazza. Az adatok mérete körülbelül 432Mb. A 150 felhasználó közül a legtöbb felhasználó az Enron felső vezetése.

Adatlink: Enron email adatállomány

Projektötlet: A k-means klaszterezés segítségével modellt lehet építeni a csalárd tevékenységek felderítésére. A K-means klaszterezés egy felügyelet nélküli gépi tanulási algoritmus. A megfigyeléseket k számú klaszterbe sorolja az adatokban található hasonló minták alapján.

Chatbot Intents Dataset

A chatbot adatállománya egy JSON fájl, amely olyan különböző címkéket tartalmaz, mint goodbye, greetings, pharmacy_search, hospital_search stb. Minden taghez tartozik egy lista a mintákról, amelyeket a felhasználó kérdezhet, és a chatbot az adott mintának megfelelően fog válaszolni. Az adatkészlet tökéletes a chatbot-adatok működésének megértéséhez.

Adatlink: Intents JSON Dataset

Projektötlet: Építhet egy chatbotot, vagy megértheti egy chatbot működését az adatok csavarásával és bővítésével a megfigyeléseivel. Ahhoz, hogy saját chatbotot építhess, jól kell ismerned a természetes nyelvfeldolgozási fogalmakat.

Forráskód: Flickr 30k Dataset

A Flickr 30k adathalmaz több mint 30 000 képet tartalmaz, és minden kép különböző feliratokkal van ellátva. Ezt az adathalmazt egy képfelirat-generátor készítéséhez használjuk. Ez az adathalmaz pedig a Flickr 8k frissített változata, amelyet pontosabb modellek építéséhez használnak.

Adatok linkje: Flickr image dataset

Projektötlet: Egy CNN modellt lehet építeni, amely kiválóan alkalmas a kép elemzésére és jellemzőinek kinyerésére, és egy angol nyelvű mondat generálására, amely leírja a képet, amelyet feliratnak nevezünk.

Parkinson Dataset

A Parkinson-kór egy olyan betegség, amely idegrendszeri rendellenességet okozhat és befolyásolja a mozgást. A Parkinson-adatkészlet biogyógyászati méréseket, 195 rekordot tartalmaz 23 különböző attribútummal rendelkező emberekről. Ezek az adatok az egészséges és a Parkinson-kóros emberek megkülönböztetésére szolgálnak.

Adatlink: Parkinson adatkészlet

Projektötlet: Készítsen egy olyan modellt, amely segítségével megkülönböztetheti az egészséges embereket a Parkinson-kóros emberektől. Az erre a célra használható algoritmus az XGboost, ami az extreme gradient boosting rövidítése, és döntési fákon alapul.

Forráskód: ML Project on Detecting Parkinson’s Disease

Iris Dataset

Az írisz adatkészlet egy kezdőbarát adatkészlet, amely a virág szirom- és szepályméretéről tartalmaz információkat. Ez az adatkészlet 3 osztályt tartalmaz, minden osztályban 50 példánnyal, így csak 150 sort tartalmaz 4 oszloppal.

Adatlink: Iris dataset

Projektötlet: Az osztályozás az elemek megfelelő osztályba sorolása. Az adathalmazon gépi tanulási osztályozó vagy regressziós modellt lehet implementálni.

ImageNet adathalmaz

Az ImageNet egy nagy képadatbázis, amely a wordnet hierarchia szerint szerveződik. Több mint 100 000 kifejezéssel és kifejezésenként átlagosan 1000 képpel rendelkezik. A mérete meghaladja a 150 GB-ot. Alkalmas képfelismerésre, arcfelismerésre, tárgyfelismerésre stb. Egy ILSVRC nevű kihívást jelentő versenynek is otthont ad, hogy az emberek egyre pontosabb modelleket építsenek.

Adatok linkje: Imagenet Dataset

Projektötlet: Képosztályozás megvalósítása ezen a hatalmas adatbázison és objektumok felismerése. CNN modell (Convolutional neural networks) szükséges ehhez a projekthez, hogy pontos eredményeket kapjunk.

7. Mall Customers Dataset

A Mall customers dataset a plázát látogató emberek adatait tartalmazza. Az adatkészlet tartalmazza az életkort, a vásárlói azonosítót, a nemet, az éves jövedelmet és a költési pontszámot. Az adatokból betekintést nyer, és a vásárlókat viselkedésük alapján különböző csoportokra osztja.

Adatkészlet link: Mall customers dataset

Projektötlet: A vásárlók szegmentálása nemük, koruk, érdeklődésük alapján. Hasznos a személyre szabott marketingben. Az ügyfélszegmentálás fontos gyakorlat a vevők felosztása az egyes csoportok alapján, amelyek hasonlóak.

Forráskód:

Google Trends Data Portal

A Google Trends adatai segítségével vizuálisan vizsgálhatók és elemezhetők az adatok. Az adatkészletet egy egyszerű kattintással CSV fájlba is letöltheti. Megtudhatjuk, hogy mi a trendi és mit keresnek az emberek.

Adatok linkje: Google trends datasets

The Boston Housing Dataset

Ez egy népszerű, a mintafelismerésben használt adathalmaz. Boston különböző házairól tartalmaz információkat a bűnözési ráta, az adó, a szobák száma stb. alapján. Ez 506 sort és 14 különböző változót tartalmaz oszlopokban. Ezt az adathalmazt használhatja a lakásárak előrejelzésére.

Adatlink: Boston dataset

Projektötlet: Egy új ház lakásárának előrejelzése lineáris regresszió segítségével. A lineáris regresszió ismeretlen bemeneti értékek előrejelzésére szolgál, ha az adatok között valamilyen lineáris kapcsolat van a bemeneti és kimeneti változók között.

Uber Pickups Dataset

Az adatkészlet 4,5 millió New York-i Uber-felvételről tartalmaz információt 2014 áprilisától 2014 szeptemberéig, és további 14 millióról 2015 januárjától 2015 júniusáig. A felhasználók adatelemzést végezhetnek és betekintést nyerhetnek az adatokból.

Adatlink: Uber pickups dataset

Projektötlet: Az ügyfélfuvarok adatainak elemzése és az adatok vizualizálása, hogy olyan meglátásokat találjunk, amelyek segíthetnek az üzletmenet javításában. Az adatelemzés és -vizualizáció az adattudomány fontos része. Ezeket arra használják, hogy betekintést nyerjenek az adatokból, a vizualizációval pedig gyors információkat nyerhetnek az adatokból.

Recommender Systems Dataset

Ez egy portál a gazdag adatkészletek gyűjteményéhez, amelyeket az UCSD laboratóriumi kutatási projektjeiben használtak. Olyan népszerű weboldalakról származó különböző adatkészleteket tartalmaz, mint a Goodreads könyvértékelések, Amazon termékértékelések, csaposok adatai, a közösségi médiából származó adatok, stb. amelyeket ajánlórendszerek építéséhez használnak.

Adatok linkje: Ajánló rendszerek adatkészlet

Projektötlet: Építsünk egy olyan termékajánló rendszert, mint az Amazon. Egy ajánlórendszer az érdeklődési köröd és az általad kedvelt és korábban használt dolgok alapján tud neked termékeket, filmeket stb. ajánlani.

Forráskód: Movie Recommendation System Project

UCI Spambase Dataset

Az e-mailek spamként vagy nem spamként való osztályozása nagyon gyakori és hasznos feladat. Az adatkészlet 4601 e-mailt és 57 metainformációt tartalmaz az e-mailekről. Modelleket építhet a spamek kiszűrésére.

Adat link: UCI spambase dataset

Projektötlet: Olyan modellt építhet, amely képes azonosítani az e-maileket spamként vagy nem spamként.

GTSRB (German traffic sign recognition benchmark) Dataset

A GTSRB-adatkészlet mintegy 50 000 képet tartalmaz 43 különböző osztályba tartozó közlekedési táblákról, és információt tartalmaz az egyes táblák határoló dobozáról. Az adatkészletet többosztályos osztályozásra használják.

Adatlink: GTSRB dataset

Mesterséges intelligencia projektötlet: Építsünk egy olyan modellt egy mélytanulási keretrendszer segítségével, amely osztályozza a közlekedési táblákat, és felismeri a táblák határoló dobozát is. A közlekedési táblák osztályozása autonóm járművekben is hasznos a táblák azonosítására, majd a megfelelő lépések megtételére.

Forráskód: Forrás: Traffic Signs Recognition Python Project

Cityscapes Dataset

Ez egy nyílt forráskódú adathalmaz a számítógépes látás projektjeihez. 50 különböző város utcáin készült videószekvenciák kiváló minőségű, pixel-szintű megjegyzéseit tartalmazza. Az adatkészlet hasznos a szemantikus szegmentálásban és a mély neurális hálózatok képzésében a városi jelenetek megértéséhez.

Adatlink: Cityscapes dataset

Projektötlet: Képszegmentálás elvégzése és különböző objektumok felismerése egy közúti videóból. A képszegmentálás egy kép digitális felosztása különböző különböző kategóriákra, például autókra, buszokra, emberekre, fákra, utakra stb.

15. Kinetikai adathalmaz

A Kinetikához három különböző adathalmaz áll rendelkezésre: Kinetics 400, Kinetics 600 és Kinetics 700 adathalmaz. Ez egy nagyméretű adatkészlet, amely mintegy 6,5 millió kiváló minőségű videó URL-linkjét tartalmazza.

Adatkapcsolat: Kinetics dataset

Projektötlet: Emberi cselekvésfelismerő modell létrehozása és az emberi cselekvés felismerése. Az emberi cselekvés felismerése egy sor megfigyelés alapján történik.

IMDB-Wiki adatkészlet

Az IMDB-Wiki adatkészlet az egyik legnagyobb nyílt forráskódú adathalmaz a nemmel és életkorral jelölt arcképekhez. A képek az IMDB-ből és a Wikipédiából származnak. Több mint 5 millió címkézett képet tartalmaz.

Adatlink: IMDB wiki adatkészlet

Projektötlet: Készítsünk egy olyan modellt, amely felismeri az arcokat, és megjósolja a nemüket és korukat. A kategóriák különböző tartományokban lehetnek, mint például 0-10, 10-20, 30-40, 50-60, stb.

Color Detection Dataset

Az adatkészlet egy CSV fájlt tartalmaz, amely 865 színnevet tartalmaz a szín megfelelő RGB (piros, zöld és kék) értékeivel. A szín hexadecimális értékét is tartalmazza.

Adatlink:

Projektötlet: Színérzékelési adatállomány

Projektötlet:

Forráskód: A színadatkészletet felhasználhatjuk egy színfelismerő alkalmazás elkészítéséhez, amelyben egy felületen kiválaszthatunk egy színt a képből, és az alkalmazás megjeleníti a szín nevét.

Forráskód:

Urban Sound 8K dataset

A városi hangadatkészlet 8732 városi hangot tartalmaz 10 osztályból, mint például légkondicionáló, kutyaugatás, fúrás, sziréna, utcazene stb. Az adatkészlet népszerű a városi hangok osztályozási problémáihoz.

Adat link: Városi hangok 8K adatkészlet

Projektötlet: Hangosztályozó rendszert építhetünk a háttérben megszólaló városi hangok típusának felismerésére. Ez segít a hangadatokkal való ismerkedésben és a strukturálatlan adatokkal való munka megértésében.

Librispeech Dataset

Ez az adathalmaz nagyszámú angol nyelvű beszédet tartalmaz, amelyek a LibriVox projektből származnak. Ez 1000 órányi angolul olvasott beszédet tartalmaz különböző akcentusokban. Beszédfelismerési projektekhez használják.

Adatlink: Librispeech dataset

Projektötlet: Építsünk beszédfelismerő modellt az elhangzottak felismerésére és szöveggé alakítására. A beszédfelismerés célja, hogy automatikusan azonosítsa, mit mondanak a hangban.

Breast Histopathology Images Dataset

Ez az adathalmaz 2,77,524 db 50×50 méretű képet tartalmaz, melyeket 162 mellrákos mintáról készült, 40x szkennelt diapozitív képből nyertek. A képen 1 98 738 negatív és 78 786 pozitív, IDC-vel rendelkező vizsgálat található.

Adatlink:

Projektötlet: Az emlő szövettani adatkészlete

Projektötlet: Olyan modell létrehozása, amely képes az emlőrák osztályozására. Konvolúciós neurális hálózatokkal képosztályozó modellt építesz.

Forráskód:

Youtube 8M Dataset

A youtube 8M dataset egy nagyméretű címkézett videó adathalmaz, amely 6,1 millió Youtube videó azonosítót, 350 000 órányi videót, 2,6 milliárd audio/vizuális jellemzőt, 3862 osztályt és videónként átlagosan 3 címkét tartalmaz. Videók osztályozására használják.

Adatlink: Youtube 8M

Projektötlet: Az adatkészlet segítségével videók osztályozása végezhető el, és a modell leírhatja, hogy miről szól a videó. Egy videóhoz egy sor bemenet szükséges, hogy osztályozni lehessen, melyik kategóriába tartozik a videó.

EndNote

Ebben a cikkben több mint 20 gépi tanulási adathalmazt láttunk, amelyeket a gépi tanulás vagy az adattudomány gyakorlásához használhatsz. Saját magunknak adathalmazt létrehozni drága, ezért mások adathalmazait használhatjuk a munkánk elvégzéséhez. De alaposan el kell olvasnunk az adatkészlet dokumentumait, mert néhány adatkészlet ingyenes, míg néhány adatkészlet esetében az általuk megadottak szerint hitelt kell adnunk a tulajdonosnak.

Bio: Shivashish Thaku elemző és műszaki tartalomíró. Technológiamániás, aki szeret a világot átalakító legújabb csúcstechnológiákról írni. Emellett sportrajongó, aki szeret focizni és focit nézni.

Kapcsolódó:

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.