By Shivashish Thakur, Digital Marketing, DataFlair.
A tökéletes modell felépítéséhez nagy mennyiségű adatra van szükség. De a megfelelő adathalmaz megtalálása a gépi tanulás és az adattudományi projekthez néha elég nagy kihívást jelent. Számos szervezet, kutató és magánszemély osztotta meg munkáját, és az ő adatkészleteiket fogjuk felhasználni a projektünk felépítéséhez.
Ebben a cikkben tehát 20+ gépi tanulás és adattudományi adatkészletet és projektötletet fogunk megvitatni, amelyeket felhasználhat a készségei gyakorlásához és fejlesztéséhez.
- Enron Email Dataset
- Chatbot Intents Dataset
- Parkinson Dataset
- Iris Dataset
- ImageNet adathalmaz
- 7. Mall Customers Dataset
- Google Trends Data Portal
- The Boston Housing Dataset
- Uber Pickups Dataset
- Recommender Systems Dataset
- UCI Spambase Dataset
- GTSRB (German traffic sign recognition benchmark) Dataset
- Cityscapes Dataset
- 15. Kinetikai adathalmaz
- IMDB-Wiki adatkészlet
- Color Detection Dataset
- Urban Sound 8K dataset
- Librispeech Dataset
- Breast Histopathology Images Dataset
- Youtube 8M Dataset
- EndNote
Enron Email Dataset
Az Enron adatkészlet népszerű a természetes nyelvi feldolgozásban. Több mint 150 felhasználó több mint 500K e-mailjét tartalmazza. Az adatok mérete körülbelül 432Mb. A 150 felhasználó közül a legtöbb felhasználó az Enron felső vezetése.
Adatlink: Enron email adatállomány
Projektötlet: A k-means klaszterezés segítségével modellt lehet építeni a csalárd tevékenységek felderítésére. A K-means klaszterezés egy felügyelet nélküli gépi tanulási algoritmus. A megfigyeléseket k számú klaszterbe sorolja az adatokban található hasonló minták alapján.
Chatbot Intents Dataset
A chatbot adatállománya egy JSON fájl, amely olyan különböző címkéket tartalmaz, mint goodbye, greetings, pharmacy_search, hospital_search stb. Minden taghez tartozik egy lista a mintákról, amelyeket a felhasználó kérdezhet, és a chatbot az adott mintának megfelelően fog válaszolni. Az adatkészlet tökéletes a chatbot-adatok működésének megértéséhez.
Adatlink: Intents JSON Dataset
Projektötlet: Építhet egy chatbotot, vagy megértheti egy chatbot működését az adatok csavarásával és bővítésével a megfigyeléseivel. Ahhoz, hogy saját chatbotot építhess, jól kell ismerned a természetes nyelvfeldolgozási fogalmakat.
Forráskód: Flickr 30k Dataset
A Flickr 30k adathalmaz több mint 30 000 képet tartalmaz, és minden kép különböző feliratokkal van ellátva. Ezt az adathalmazt egy képfelirat-generátor készítéséhez használjuk. Ez az adathalmaz pedig a Flickr 8k frissített változata, amelyet pontosabb modellek építéséhez használnak.
Adatok linkje: Flickr image dataset
Projektötlet: Egy CNN modellt lehet építeni, amely kiválóan alkalmas a kép elemzésére és jellemzőinek kinyerésére, és egy angol nyelvű mondat generálására, amely leírja a képet, amelyet feliratnak nevezünk.
Parkinson Dataset
A Parkinson-kór egy olyan betegség, amely idegrendszeri rendellenességet okozhat és befolyásolja a mozgást. A Parkinson-adatkészlet biogyógyászati méréseket, 195 rekordot tartalmaz 23 különböző attribútummal rendelkező emberekről. Ezek az adatok az egészséges és a Parkinson-kóros emberek megkülönböztetésére szolgálnak.
Adatlink: Parkinson adatkészlet
Projektötlet: Készítsen egy olyan modellt, amely segítségével megkülönböztetheti az egészséges embereket a Parkinson-kóros emberektől. Az erre a célra használható algoritmus az XGboost, ami az extreme gradient boosting rövidítése, és döntési fákon alapul.
Forráskód: ML Project on Detecting Parkinson’s Disease
Iris Dataset
Az írisz adatkészlet egy kezdőbarát adatkészlet, amely a virág szirom- és szepályméretéről tartalmaz információkat. Ez az adatkészlet 3 osztályt tartalmaz, minden osztályban 50 példánnyal, így csak 150 sort tartalmaz 4 oszloppal.
Adatlink: Iris dataset
Projektötlet: Az osztályozás az elemek megfelelő osztályba sorolása. Az adathalmazon gépi tanulási osztályozó vagy regressziós modellt lehet implementálni.
ImageNet adathalmaz
Az ImageNet egy nagy képadatbázis, amely a wordnet hierarchia szerint szerveződik. Több mint 100 000 kifejezéssel és kifejezésenként átlagosan 1000 képpel rendelkezik. A mérete meghaladja a 150 GB-ot. Alkalmas képfelismerésre, arcfelismerésre, tárgyfelismerésre stb. Egy ILSVRC nevű kihívást jelentő versenynek is otthont ad, hogy az emberek egyre pontosabb modelleket építsenek.
Adatok linkje: Imagenet Dataset
Projektötlet: Képosztályozás megvalósítása ezen a hatalmas adatbázison és objektumok felismerése. CNN modell (Convolutional neural networks) szükséges ehhez a projekthez, hogy pontos eredményeket kapjunk.
7. Mall Customers Dataset
A Mall customers dataset a plázát látogató emberek adatait tartalmazza. Az adatkészlet tartalmazza az életkort, a vásárlói azonosítót, a nemet, az éves jövedelmet és a költési pontszámot. Az adatokból betekintést nyer, és a vásárlókat viselkedésük alapján különböző csoportokra osztja.
Adatkészlet link: Mall customers dataset
Projektötlet: A vásárlók szegmentálása nemük, koruk, érdeklődésük alapján. Hasznos a személyre szabott marketingben. Az ügyfélszegmentálás fontos gyakorlat a vevők felosztása az egyes csoportok alapján, amelyek hasonlóak.
Forráskód:
Google Trends Data Portal
A Google Trends adatai segítségével vizuálisan vizsgálhatók és elemezhetők az adatok. Az adatkészletet egy egyszerű kattintással CSV fájlba is letöltheti. Megtudhatjuk, hogy mi a trendi és mit keresnek az emberek.
Adatok linkje: Google trends datasets
The Boston Housing Dataset
Ez egy népszerű, a mintafelismerésben használt adathalmaz. Boston különböző házairól tartalmaz információkat a bűnözési ráta, az adó, a szobák száma stb. alapján. Ez 506 sort és 14 különböző változót tartalmaz oszlopokban. Ezt az adathalmazt használhatja a lakásárak előrejelzésére.
Adatlink: Boston dataset
Projektötlet: Egy új ház lakásárának előrejelzése lineáris regresszió segítségével. A lineáris regresszió ismeretlen bemeneti értékek előrejelzésére szolgál, ha az adatok között valamilyen lineáris kapcsolat van a bemeneti és kimeneti változók között.
Uber Pickups Dataset
Az adatkészlet 4,5 millió New York-i Uber-felvételről tartalmaz információt 2014 áprilisától 2014 szeptemberéig, és további 14 millióról 2015 januárjától 2015 júniusáig. A felhasználók adatelemzést végezhetnek és betekintést nyerhetnek az adatokból.
Adatlink: Uber pickups dataset
Projektötlet: Az ügyfélfuvarok adatainak elemzése és az adatok vizualizálása, hogy olyan meglátásokat találjunk, amelyek segíthetnek az üzletmenet javításában. Az adatelemzés és -vizualizáció az adattudomány fontos része. Ezeket arra használják, hogy betekintést nyerjenek az adatokból, a vizualizációval pedig gyors információkat nyerhetnek az adatokból.
Recommender Systems Dataset
Ez egy portál a gazdag adatkészletek gyűjteményéhez, amelyeket az UCSD laboratóriumi kutatási projektjeiben használtak. Olyan népszerű weboldalakról származó különböző adatkészleteket tartalmaz, mint a Goodreads könyvértékelések, Amazon termékértékelések, csaposok adatai, a közösségi médiából származó adatok, stb. amelyeket ajánlórendszerek építéséhez használnak.
Adatok linkje: Ajánló rendszerek adatkészlet
Projektötlet: Építsünk egy olyan termékajánló rendszert, mint az Amazon. Egy ajánlórendszer az érdeklődési köröd és az általad kedvelt és korábban használt dolgok alapján tud neked termékeket, filmeket stb. ajánlani.
Forráskód: Movie Recommendation System Project
UCI Spambase Dataset
Az e-mailek spamként vagy nem spamként való osztályozása nagyon gyakori és hasznos feladat. Az adatkészlet 4601 e-mailt és 57 metainformációt tartalmaz az e-mailekről. Modelleket építhet a spamek kiszűrésére.
Adat link: UCI spambase dataset
Projektötlet: Olyan modellt építhet, amely képes azonosítani az e-maileket spamként vagy nem spamként.
GTSRB (German traffic sign recognition benchmark) Dataset
A GTSRB-adatkészlet mintegy 50 000 képet tartalmaz 43 különböző osztályba tartozó közlekedési táblákról, és információt tartalmaz az egyes táblák határoló dobozáról. Az adatkészletet többosztályos osztályozásra használják.
Adatlink: GTSRB dataset
Mesterséges intelligencia projektötlet: Építsünk egy olyan modellt egy mélytanulási keretrendszer segítségével, amely osztályozza a közlekedési táblákat, és felismeri a táblák határoló dobozát is. A közlekedési táblák osztályozása autonóm járművekben is hasznos a táblák azonosítására, majd a megfelelő lépések megtételére.
Forráskód: Forrás: Traffic Signs Recognition Python Project
Cityscapes Dataset
Ez egy nyílt forráskódú adathalmaz a számítógépes látás projektjeihez. 50 különböző város utcáin készült videószekvenciák kiváló minőségű, pixel-szintű megjegyzéseit tartalmazza. Az adatkészlet hasznos a szemantikus szegmentálásban és a mély neurális hálózatok képzésében a városi jelenetek megértéséhez.
Adatlink: Cityscapes dataset
Projektötlet: Képszegmentálás elvégzése és különböző objektumok felismerése egy közúti videóból. A képszegmentálás egy kép digitális felosztása különböző különböző kategóriákra, például autókra, buszokra, emberekre, fákra, utakra stb.
15. Kinetikai adathalmaz
A Kinetikához három különböző adathalmaz áll rendelkezésre: Kinetics 400, Kinetics 600 és Kinetics 700 adathalmaz. Ez egy nagyméretű adatkészlet, amely mintegy 6,5 millió kiváló minőségű videó URL-linkjét tartalmazza.
Adatkapcsolat: Kinetics dataset
Projektötlet: Emberi cselekvésfelismerő modell létrehozása és az emberi cselekvés felismerése. Az emberi cselekvés felismerése egy sor megfigyelés alapján történik.
IMDB-Wiki adatkészlet
Az IMDB-Wiki adatkészlet az egyik legnagyobb nyílt forráskódú adathalmaz a nemmel és életkorral jelölt arcképekhez. A képek az IMDB-ből és a Wikipédiából származnak. Több mint 5 millió címkézett képet tartalmaz.
Adatlink: IMDB wiki adatkészlet
Projektötlet: Készítsünk egy olyan modellt, amely felismeri az arcokat, és megjósolja a nemüket és korukat. A kategóriák különböző tartományokban lehetnek, mint például 0-10, 10-20, 30-40, 50-60, stb.
Color Detection Dataset
Az adatkészlet egy CSV fájlt tartalmaz, amely 865 színnevet tartalmaz a szín megfelelő RGB (piros, zöld és kék) értékeivel. A szín hexadecimális értékét is tartalmazza.
Adatlink:
Projektötlet: Színérzékelési adatállomány
Projektötlet:
Forráskód: A színadatkészletet felhasználhatjuk egy színfelismerő alkalmazás elkészítéséhez, amelyben egy felületen kiválaszthatunk egy színt a képből, és az alkalmazás megjeleníti a szín nevét.
Forráskód:
Urban Sound 8K dataset
A városi hangadatkészlet 8732 városi hangot tartalmaz 10 osztályból, mint például légkondicionáló, kutyaugatás, fúrás, sziréna, utcazene stb. Az adatkészlet népszerű a városi hangok osztályozási problémáihoz.
Adat link: Városi hangok 8K adatkészlet
Projektötlet: Hangosztályozó rendszert építhetünk a háttérben megszólaló városi hangok típusának felismerésére. Ez segít a hangadatokkal való ismerkedésben és a strukturálatlan adatokkal való munka megértésében.
Librispeech Dataset
Ez az adathalmaz nagyszámú angol nyelvű beszédet tartalmaz, amelyek a LibriVox projektből származnak. Ez 1000 órányi angolul olvasott beszédet tartalmaz különböző akcentusokban. Beszédfelismerési projektekhez használják.
Adatlink: Librispeech dataset
Projektötlet: Építsünk beszédfelismerő modellt az elhangzottak felismerésére és szöveggé alakítására. A beszédfelismerés célja, hogy automatikusan azonosítsa, mit mondanak a hangban.
Breast Histopathology Images Dataset
Ez az adathalmaz 2,77,524 db 50×50 méretű képet tartalmaz, melyeket 162 mellrákos mintáról készült, 40x szkennelt diapozitív képből nyertek. A képen 1 98 738 negatív és 78 786 pozitív, IDC-vel rendelkező vizsgálat található.
Adatlink:
Projektötlet: Az emlő szövettani adatkészlete
Projektötlet: Olyan modell létrehozása, amely képes az emlőrák osztályozására. Konvolúciós neurális hálózatokkal képosztályozó modellt építesz.
Forráskód:
Youtube 8M Dataset
A youtube 8M dataset egy nagyméretű címkézett videó adathalmaz, amely 6,1 millió Youtube videó azonosítót, 350 000 órányi videót, 2,6 milliárd audio/vizuális jellemzőt, 3862 osztályt és videónként átlagosan 3 címkét tartalmaz. Videók osztályozására használják.
Adatlink: Youtube 8M
Projektötlet: Az adatkészlet segítségével videók osztályozása végezhető el, és a modell leírhatja, hogy miről szól a videó. Egy videóhoz egy sor bemenet szükséges, hogy osztályozni lehessen, melyik kategóriába tartozik a videó.
EndNote
Ebben a cikkben több mint 20 gépi tanulási adathalmazt láttunk, amelyeket a gépi tanulás vagy az adattudomány gyakorlásához használhatsz. Saját magunknak adathalmazt létrehozni drága, ezért mások adathalmazait használhatjuk a munkánk elvégzéséhez. De alaposan el kell olvasnunk az adatkészlet dokumentumait, mert néhány adatkészlet ingyenes, míg néhány adatkészlet esetében az általuk megadottak szerint hitelt kell adnunk a tulajdonosnak.
Bio: Shivashish Thaku elemző és műszaki tartalomíró. Technológiamániás, aki szeret a világot átalakító legújabb csúcstechnológiákról írni. Emellett sportrajongó, aki szeret focizni és focit nézni.
Kapcsolódó: