20+ Machine Learning adathalmaz és projektötlet

By Shivashish Thakur, Digital Marketing, DataFlair.

A tökéletes modell felépítéséhez nagy mennyiségű adatra van szükség. De a megfelelő adathalmaz megtalálása a gépi tanulás és az adattudományi projekthez néha elég nagy kihívást jelent. Számos szervezet, kutató és magánszemély osztotta meg munkáját, és az ő adatkészleteiket fogjuk felhasználni a projektünk felépítéséhez.

Ebben a cikkben tehát 20+ gépi tanulás és adattudományi adatkészletet és projektötletet fogunk megvitatni, amelyeket felhasználhat a készségei gyakorlásához és fejlesztéséhez.

Enron Email Dataset

Az Enron adatkészlet népszerű a természetes nyelvi feldolgozásban. Több mint 150 felhasználó több mint 500K e-mailjét tartalmazza. Az adatok mérete körülbelül 432Mb. A 150 felhasználó közül a legtöbb felhasználó az Enron felső vezetése.

Adatlink: Enron email adatállomány

Projektötlet: A k-means klaszterezés segítségével modellt lehet építeni a csalárd tevékenységek felderítésére. A K-means klaszterezés egy felügyelet nélküli gépi tanulási algoritmus. A megfigyeléseket k számú klaszterbe sorolja az adatokban található hasonló minták alapján.

Chatbot Intents Dataset

A chatbot adatállománya egy JSON fájl, amely olyan különböző címkéket tartalmaz, mint goodbye, greetings, pharmacy_search, hospital_search stb. Minden taghez tartozik egy lista a mintákról, amelyeket a felhasználó kérdezhet, és a chatbot az adott mintának megfelelően fog válaszolni. Az adatkészlet tökéletes a chatbot-adatok működésének megértéséhez.

Adatlink: Intents JSON Dataset

Projektötlet: Építhet egy chatbotot, vagy megértheti egy chatbot működését az adatok csavarásával és bővítésével a megfigyeléseivel. Ahhoz, hogy saját chatbotot építhess, jól kell ismerned a természetes nyelvfeldolgozási fogalmakat.

Forráskód: Flickr 30k Dataset

A Flickr 30k adathalmaz több mint 30 000 képet tartalmaz, és minden kép különböző feliratokkal van ellátva. Ezt az adathalmazt egy képfelirat-generátor készítéséhez használjuk. Ez az adathalmaz pedig a Flickr 8k frissített változata, amelyet pontosabb modellek építéséhez használnak.

Adatok linkje: Flickr image dataset

Projektötlet: Egy CNN modellt lehet építeni, amely kiválóan alkalmas a kép elemzésére és jellemzőinek kinyerésére, és egy angol nyelvű mondat generálására, amely leírja a képet, amelyet feliratnak nevezünk.

Parkinson Dataset

A Parkinson-kór egy olyan betegség, amely idegrendszeri rendellenességet okozhat és befolyásolja a mozgást. A Parkinson-adatkészlet biogyógyászati méréseket, 195 rekordot tartalmaz 23 különböző attribútummal rendelkező emberekről. Ezek az adatok az egészséges és a Parkinson-kóros emberek megkülönböztetésére szolgálnak.

Adatlink: Parkinson adatkészlet

Projektötlet: Készítsen egy olyan modellt, amely segítségével megkülönböztetheti az egészséges embereket a Parkinson-kóros emberektől. Az erre a célra használható algoritmus az XGboost, ami az extreme gradient boosting rövidítése, és döntési fákon alapul.

Forráskód: ML Project on Detecting Parkinson’s Disease

Iris Dataset

Az írisz adatkészlet egy kezdőbarát adatkészlet, amely a virág szirom- és szepályméretéről tartalmaz információkat. Ez az adatkészlet 3 osztályt tartalmaz, minden osztályban 50 példánnyal, így csak 150 sort tartalmaz 4 oszloppal.

Adatlink: Iris dataset

Projektötlet: Az osztályozás az elemek megfelelő osztályba sorolása. Az adathalmazon gépi tanulási osztályozó vagy regressziós modellt lehet implementálni.

ImageNet adathalmaz

Az ImageNet egy nagy képadatbázis, amely a wordnet hierarchia szerint szerveződik. Több mint 100 000 kifejezéssel és kifejezésenként átlagosan 1000 képpel rendelkezik. A mérete meghaladja a 150 GB-ot. Alkalmas képfelismerésre, arcfelismerésre, tárgyfelismerésre stb. Egy ILSVRC nevű kihívást jelentő versenynek is otthont ad, hogy az emberek egyre pontosabb modelleket építsenek.

Adatok linkje: Imagenet Dataset

Projektötlet: Képosztályozás megvalósítása ezen a hatalmas adatbázison és objektumok felismerése. CNN modell (Convolutional neural networks) szükséges ehhez a projekthez, hogy pontos eredményeket kapjunk.

7. Mall Customers Dataset

A Mall customers dataset a plázát látogató emberek adatait tartalmazza. Az adatkészlet tartalmazza az életkort, a vásárlói azonosítót, a nemet, az éves jövedelmet és a költési pontszámot. Az adatokból betekintést nyer, és a vásárlókat viselkedésük alapján különböző csoportokra osztja.

Adatkészlet link: Mall customers dataset

Projektötlet: A vásárlók szegmentálása nemük, koruk, érdeklődésük alapján. Hasznos a személyre szabott marketingben. Az ügyfélszegmentálás fontos gyakorlat a vevők felosztása az egyes csoportok alapján, amelyek hasonlóak.

Forráskód:

Google Trends Data Portal

A Google Trends adatai segítségével vizuálisan vizsgálhatók és elemezhetők az adatok. Az adatkészletet egy egyszerű kattintással CSV fájlba is letöltheti. Megtudhatjuk, hogy mi a trendi és mit keresnek az emberek.

Adatok linkje: Google trends datasets

The Boston Housing Dataset

Ez egy népszerű, a mintafelismerésben használt adathalmaz. Boston különböző házairól tartalmaz információkat a bűnözési ráta, az adó, a szobák száma stb. alapján. Ez 506 sort és 14 különböző változót tartalmaz oszlopokban. Ezt az adathalmazt használhatja a lakásárak előrejelzésére.

Adatlink: Boston dataset

Projektötlet: Egy új ház lakásárának előrejelzése lineáris regresszió segítségével. A lineáris regresszió ismeretlen bemeneti értékek előrejelzésére szolgál, ha az adatok között valamilyen lineáris kapcsolat van a bemeneti és kimeneti változók között.

Uber Pickups Dataset

Az adatkészlet 4,5 millió New York-i Uber-felvételről tartalmaz információt 2014 áprilisától 2014 szeptemberéig, és további 14 millióról 2015 januárjától 2015 júniusáig. A felhasználók adatelemzést végezhetnek és betekintést nyerhetnek az adatokból.

Adatlink: Uber pickups dataset

Projektötlet: Az ügyfélfuvarok adatainak elemzése és az adatok vizualizálása, hogy olyan meglátásokat találjunk, amelyek segíthetnek az üzletmenet javításában. Az adatelemzés és -vizualizáció az adattudomány fontos része. Ezeket arra használják, hogy betekintést nyerjenek az adatokból, a vizualizációval pedig gyors információkat nyerhetnek az adatokból.

Recommender Systems Dataset

Ez egy portál a gazdag adatkészletek gyűjteményéhez, amelyeket az UCSD laboratóriumi kutatási projektjeiben használtak. Olyan népszerű weboldalakról származó különböző adatkészleteket tartalmaz, mint a Goodreads könyvértékelések, Amazon termékértékelések, csaposok adatai, a közösségi médiából származó adatok, stb. amelyeket ajánlórendszerek építéséhez használnak.

Adatok linkje: Ajánló rendszerek adatkészlet

Projektötlet: Építsünk egy olyan termékajánló rendszert, mint az Amazon. Egy ajánlórendszer az érdeklődési köröd és az általad kedvelt és korábban használt dolgok alapján tud neked termékeket, filmeket stb. ajánlani.

Forráskód: Movie Recommendation System Project

UCI Spambase Dataset

Az e-mailek spamként vagy nem spamként való osztályozása nagyon gyakori és hasznos feladat. Az adatkészlet 4601 e-mailt és 57 metainformációt tartalmaz az e-mailekről. Modelleket építhet a spamek kiszűrésére.

Adat link: UCI spambase dataset

Projektötlet: Olyan modellt építhet, amely képes azonosítani az e-maileket spamként vagy nem spamként.

GTSRB (German traffic sign recognition benchmark) Dataset

A GTSRB-adatkészlet mintegy 50 000 képet tartalmaz 43 különböző osztályba tartozó közlekedési táblákról, és információt tartalmaz az egyes táblák határoló dobozáról. Az adatkészletet többosztályos osztályozásra használják.

Adatlink: GTSRB dataset

Mesterséges intelligencia projektötlet: Építsünk egy olyan modellt egy mélytanulási keretrendszer segítségével, amely osztályozza a közlekedési táblákat, és felismeri a táblák határoló dobozát is. A közlekedési táblák osztályozása autonóm járművekben is hasznos a táblák azonosítására, majd a megfelelő lépések megtételére.

Forráskód: Forrás: Traffic Signs Recognition Python Project

Cityscapes Dataset

Ez egy nyílt forráskódú adathalmaz a számítógépes látás projektjeihez. 50 különböző város utcáin készült videószekvenciák kiváló minőségű, pixel-szintű megjegyzéseit tartalmazza. Az adatkészlet hasznos a szemantikus szegmentálásban és a mély neurális hálózatok képzésében a városi jelenetek megértéséhez.

Adatlink: Cityscapes dataset

Projektötlet: Képszegmentálás elvégzése és különböző objektumok felismerése egy közúti videóból. A képszegmentálás egy kép digitális felosztása különböző különböző kategóriákra, például autókra, buszokra, emberekre, fákra, utakra stb.

15. Kinetikai adathalmaz

A Kinetikához három különböző adathalmaz áll rendelkezésre: Kinetics 400, Kinetics 600 és Kinetics 700 adathalmaz. Ez egy nagyméretű adatkészlet, amely mintegy 6,5 millió kiváló minőségű videó URL-linkjét tartalmazza.

Adatkapcsolat: Kinetics dataset

Projektötlet: Emberi cselekvésfelismerő modell létrehozása és az emberi cselekvés felismerése. Az emberi cselekvés felismerése egy sor megfigyelés alapján történik.

IMDB-Wiki adatkészlet

Az IMDB-Wiki adatkészlet az egyik legnagyobb nyílt forráskódú adathalmaz a nemmel és életkorral jelölt arcképekhez. A képek az IMDB-ből és a Wikipédiából származnak. Több mint 5 millió címkézett képet tartalmaz.

Adatlink: IMDB wiki adatkészlet

Projektötlet: Készítsünk egy olyan modellt, amely felismeri az arcokat, és megjósolja a nemüket és korukat. A kategóriák különböző tartományokban lehetnek, mint például 0-10, 10-20, 30-40, 50-60, stb.

Color Detection Dataset

Az adatkészlet egy CSV fájlt tartalmaz, amely 865 színnevet tartalmaz a szín megfelelő RGB (piros, zöld és kék) értékeivel. A szín hexadecimális értékét is tartalmazza.

Adatlink:

Projektötlet: Színérzékelési adatállomány

Projektötlet:

Forráskód: A színadatkészletet felhasználhatjuk egy színfelismerő alkalmazás elkészítéséhez, amelyben egy felületen kiválaszthatunk egy színt a képből, és az alkalmazás megjeleníti a szín nevét.

Forráskód:

Urban Sound 8K dataset

A városi hangadatkészlet 8732 városi hangot tartalmaz 10 osztályból, mint például légkondicionáló, kutyaugatás, fúrás, sziréna, utcazene stb. Az adatkészlet népszerű a városi hangok osztályozási problémáihoz.

Adat link: Városi hangok 8K adatkészlet

Projektötlet: Hangosztályozó rendszert építhetünk a háttérben megszólaló városi hangok típusának felismerésére. Ez segít a hangadatokkal való ismerkedésben és a strukturálatlan adatokkal való munka megértésében.

Librispeech Dataset

Ez az adathalmaz nagyszámú angol nyelvű beszédet tartalmaz, amelyek a LibriVox projektből származnak. Ez 1000 órányi angolul olvasott beszédet tartalmaz különböző akcentusokban. Beszédfelismerési projektekhez használják.

Adatlink: Librispeech dataset

Projektötlet: Építsünk beszédfelismerő modellt az elhangzottak felismerésére és szöveggé alakítására. A beszédfelismerés célja, hogy automatikusan azonosítsa, mit mondanak a hangban.

Breast Histopathology Images Dataset

Ez az adathalmaz 2,77,524 db 50×50 méretű képet tartalmaz, melyeket 162 mellrákos mintáról készült, 40x szkennelt diapozitív képből nyertek. A képen 1 98 738 negatív és 78 786 pozitív, IDC-vel rendelkező vizsgálat található.

Adatlink:

Projektötlet: Az emlő szövettani adatkészlete

Projektötlet: Olyan modell létrehozása, amely képes az emlőrák osztályozására. Konvolúciós neurális hálózatokkal képosztályozó modellt építesz.

Forráskód:

Youtube 8M Dataset

A youtube 8M dataset egy nagyméretű címkézett videó adathalmaz, amely 6,1 millió Youtube videó azonosítót, 350 000 órányi videót, 2,6 milliárd audio/vizuális jellemzőt, 3862 osztályt és videónként átlagosan 3 címkét tartalmaz. Videók osztályozására használják.

Adatlink: Youtube 8M

Projektötlet: Az adatkészlet segítségével videók osztályozása végezhető el, és a modell leírhatja, hogy miről szól a videó. Egy videóhoz egy sor bemenet szükséges, hogy osztályozni lehessen, melyik kategóriába tartozik a videó.

EndNote

Ebben a cikkben több mint 20 gépi tanulási adathalmazt láttunk, amelyeket a gépi tanulás vagy az adattudomány gyakorlásához használhatsz. Saját magunknak adathalmazt létrehozni drága, ezért mások adathalmazait használhatjuk a munkánk elvégzéséhez. De alaposan el kell olvasnunk az adatkészlet dokumentumait, mert néhány adatkészlet ingyenes, míg néhány adatkészlet esetében az általuk megadottak szerint hitelt kell adnunk a tulajdonosnak.

Bio: Shivashish Thaku elemző és műszaki tartalomíró. Technológiamániás, aki szeret a világot átalakító legújabb csúcstechnológiákról írni. Emellett sportrajongó, aki szeret focizni és focit nézni.

Kapcsolódó:

KDnuggets

Enron Email Dataset

Chatbot Intents Dataset

Parkinson Dataset

Iris Dataset

ImageNet adathalmaz

7. Mall Customers Dataset

Google Trends Data Portal

The Boston Housing Dataset

Uber Pickups Dataset

Recommender Systems Dataset

UCI Spambase Dataset

GTSRB (German traffic sign recognition benchmark) Dataset

Cityscapes Dataset

15. Kinetikai adathalmaz

IMDB-Wiki adatkészlet

Color Detection Dataset

Urban Sound 8K dataset

Librispeech Dataset

Breast Histopathology Images Dataset

Youtube 8M Dataset

EndNote

Vélemény, hozzászólás? Kilépés a válaszból