20+ Machine Learning Datasets & Project Ideas

Päällikkö Shivashish Thakur, Digital Marketing, DataFlair.

Täydellisen mallin rakentamiseen tarvitaan suuri määrä dataa. Mutta oikean tietokokonaisuuden löytäminen koneoppimis- ja datatieteen projektiin on joskus melko haastava tehtävä. On monia organisaatioita, tutkijoita ja yksityishenkilöitä, jotka ovat jakaneet työnsä, ja käytämme heidän tietokokonaisuuksiaan projektimme rakentamiseen.

Tässä artikkelissa keskustelemme siis 20+ koneoppimisen ja datatieteen tietokokonaisuudesta ja projekti-ideasta, joita voit käyttää taitojesi harjoitteluun ja päivittämiseen.

Enronin sähköpostitietokokonaisuus

Enronin tietokokonaisuus (Enronin tietokokonaisuus)

on suosittu luonnollisen kielen käsittelyssä. Siinä on yli 500K sähköpostia yli 150 käyttäjältä. Datan koko on noin 432Mb. 150 käyttäjästä suurin osa on Enronin ylempää johtoa.

Data Link: Enron email dataset

Projekti-idea: Käyttämällä k-means-klusterointia voit rakentaa mallin petollisen toiminnan havaitsemiseksi. K-means-klusterointi on valvomaton koneoppimisalgoritmi. Se jakaa havainnot k-määrään klustereita datan samankaltaisten mallien perusteella.

Chatbot Intents Dataset

Chatbot Intents Dataset on JSON-tiedosto, jossa on hajanaisia tunnisteita, kuten goodbye, greetings, pharmacy_search, hospital_search jne. Jokaisella tagilla on luettelo kuvioista, joita käyttäjä voi kysyä, ja chatbot vastaa kyseisen kuvion mukaan. Tietoaineisto sopii erinomaisesti chatbotin datan toiminnan ymmärtämiseen.

Data Link: Intents JSON Dataset

Projekti-idea: Voit rakentaa chatbotin tai ymmärtää chatbotin toimintaa vääntämällä ja laajentamalla dataa omilla havainnoillasi. Jotta voit rakentaa oman chatbotin, sinun on tunnettava luonnollisen kielen käsittelyn käsitteet hyvin.

Lähdekoodi: Chatbot Project in Python

Flickr 30k Dataset

Flickr 30k datasetissa on yli 30 000 kuvaa, ja jokainen kuva on merkitty eri kuvateksteillä. Tätä datasettiä käytetään kuvatekstigeneraattorin rakentamiseen. Ja tämä dataset on päivitetty versio Flickr 8k:sta, jota käytetään tarkempien mallien rakentamiseen.

Data Link: Flickr image dataset

Projekti-idea: Voit rakentaa CNN-mallin, joka on hyvä analysoimaan ja poimimaan piirteitä kuvasta ja tuottamaan englanninkielisen lauseen, joka kuvaa kuvaa, jota kutsutaan kuvatekstiksi.

Parkinson Dataset

Parkinsonin tauti on sairaus, joka voi aiheuttaa hermoston häiriön ja vaikuttaa liikkumiseen. Parkinson dataset sisältää biolääketieteellisiä mittauksia, 195 tietuetta ihmisistä, joilla on 23 eri attribuuttia. Tätä dataa käytetään terveiden ihmisten ja Parkinsonin tautia sairastavien ihmisten erottamiseen toisistaan.

Data Link: Parkinson dataset

Projekti-idea: Voit rakentaa mallin, jonka avulla voidaan erottaa terveet ihmiset Parkinsonin tautia sairastavista ihmisistä. Tähän tarkoitukseen käyttökelpoinen algoritmi on XGboost, joka on lyhenne sanoista extreme gradient boosting, ja se perustuu päätöspuihin.

Lähdekoodi: ML Project on Detecting Parkinson’s Disease

Iris Dataset

Iris-tietokanta on aloittelijaystävällinen tietokanta, joka sisältää tietoa kukan terälehtien ja verholehtien koosta. Tässä tietokokonaisuudessa on 3 luokkaa, joissa jokaisessa luokassa on 50 instanssia, joten se sisältää vain 150 riviä ja 4 saraketta.

Tietolinkki: Iris dataset

Projekti-idea: Luokittelu on tehtävä, jossa kohteet erotetaan vastaavaan luokkaan. Voit toteuttaa koneoppimisen luokittelu- tai regressiomallin tietokantaan.

ImageNet dataset

ImageNet on suuri kuvatietokanta, joka on järjestetty wordnet-hierarkian mukaisesti. Siinä on yli 100 000 lausetta ja keskimäärin 1000 kuvaa per lause. Koko on yli 150 Gt. Se soveltuu kuvantunnistukseen, kasvojentunnistukseen, objektien tunnistukseen jne. Siinä järjestetään myös haastava kilpailu nimeltä ILSVRC, jossa ihmiset voivat rakentaa yhä tarkempia malleja.

Data Link: Imagenet Dataset

Projekti-idea: Toteuttaa kuvien luokittelu tähän valtavaan tietokantaan ja tunnistaa kohteita. CNN-malli (Convolutional neural networks) on välttämätön tässä projektissa tarkkojen tulosten saamiseksi.

7. Mall Customers Dataset

The Mall customers dataset holds the details about people visiting the Mall. Tietoaineistossa on ikä, asiakastunnus, sukupuoli, vuositulot ja kulutuspisteet. Se saa tietoa tiedoista ja jakaa asiakkaat eri ryhmiin heidän käyttäytymisensä perusteella.

Dataset Link: Mall customers dataset

Projekti-idea: Segmentoida asiakkaat sukupuolen, iän ja kiinnostuksen perusteella. Siitä on hyötyä räätälöidyssä markkinoinnissa. Asiakassegmentointi on tärkeä käytäntö, jossa asiakkaat jaetaan yksittäisten samankaltaisten ryhmien perusteella.

Lähdekoodi:

Google Trends Data Portal

Google Trends -datan avulla voidaan tarkastella ja analysoida tietoja visuaalisesti. Voit myös ladata tietokokonaisuuden CSV-tiedostoiksi yhdellä napsautuksella. Voimme selvittää, mikä on trendejä ja mitä ihmiset etsivät.

Tietolinkki: Google trends datasets

The Boston Housing Dataset

Tämä on suosittu tietokokonaisuus, jota käytetään hahmontunnistuksessa. Se sisältää tietoa Bostonin eri taloista rikollisuuden, verojen, huoneiden lukumäärän jne. perusteella. Siinä on 506 riviä ja 14 eri muuttujaa sarakkeissa. Voit käyttää tätä tietokokonaisuutta talojen hintojen ennustamiseen.

Tietolinkki: Boston dataset

Projekti-idea: Ennusta uuden talon asuntojen hintoja lineaarisen regression avulla. Lineaarista regressiota käytetään ennustamaan tuntemattoman syötteen arvoja, kun datassa on jokin lineaarinen suhde syötteen ja tulomuuttujien välillä.

Uber Pickups Dataset

Tietokannassa on tietoa 4,5 miljoonasta Uberin kyydeistä New Yorkissa huhtikuusta 2014 syyskuuhun 2014 ja 14 miljoonasta muusta tammikuusta 2015 kesäkuuhun 2015. Käyttäjät voivat tehdä data-analyysejä ja kerätä tietoa tiedoista.

Tietolinkki: Uber pickups dataset

Projekti-idea: Asiakaskyytejä koskevien tietojen analysointi ja tietojen visualisointi sellaisten oivallusten löytämiseksi, joiden avulla voidaan parantaa liiketoimintaa. Datan analysointi ja visualisointi on tärkeä osa datatiedettä. Niitä käytetään keräämään oivalluksia datasta, ja visualisoinnin avulla datasta saadaan nopeasti tietoa.

Recommender Systems Dataset

Tämä on portaali kokoelmaan rikkaita tietokokonaisuuksia, joita käytettiin UCSD:n laboratoriotutkimusprojekteissa. Se sisältää erilaisia tietokokonaisuuksia suosituilta verkkosivustoilta, kuten Goodreads-kirja-arvosteluja, Amazon-tuotearvosteluja, baarimikkodataa, dataa sosiaalisesta mediasta jne. joita käytetään suosittelujärjestelmän rakentamisessa.

Data Link: Recommender systems dataset

Projekti-idea: Rakennetaan Amazonin kaltainen tuotesuosittelujärjestelmä. Suosittelujärjestelmä voi ehdottaa sinulle tuotteita, elokuvia jne. kiinnostuksen kohteidesi ja niiden asioiden perusteella, joista pidät ja joita olet käyttänyt aiemmin.

Lähdekoodi: Movie Recommendation System Project

UCI Spambase Dataset

Sähköpostien luokittelu roskapostiksi tai ei-roskapostiksi on hyvin yleinen ja hyödyllinen tehtävä. Tietokanta sisältää 4601 sähköpostia ja 57 metatietoa sähköposteista. Voit rakentaa malleja roskapostin suodattamiseksi pois.

Data Link: UCI spambase dataset

Projekti-idea: Voit rakentaa mallin, joka pystyy tunnistamaan sähköpostit roskapostiksi tai ei-roskapostiksi.

GTSRB (German traffic sign recognition benchmark) Dataset

GTSRB-dataset sisältää noin 50 000 kuvaa liikennemerkeistä, jotka kuuluvat 43:een eri luokkaan, ja se sisältää tietoa kunkin merkin rajauskehyksestä. Tietokokonaisuutta käytetään moniluokkaiseen luokitteluun.

Tietolinkki: GTSRB dataset

Tekoälyprojekti-idea: Rakennetaan syväoppimiskehystä käyttävä malli, joka luokittelee liikennemerkkejä ja tunnistaa myös merkkien rajatun laatikon. Liikennemerkkien luokittelusta on hyötyä myös autonomisissa ajoneuvoissa, jotka tunnistavat liikennemerkit ja ryhtyvät sitten asianmukaisiin toimiin.

Lähdekoodi: Traffic Signs Recognition Python Project

Cityscapes Dataset

Tämä on avoimen lähdekoodin tietokokonaisuus Computer Vision -projekteja varten. Se sisältää korkealaatuisia pikselitason merkintöjä 50 eri kaupungin kaduilla otetuista videosekvensseistä. Tietokokonaisuus on hyödyllinen semanttisessa segmentoinnissa ja syvien neuroverkkojen kouluttamisessa kaupunkikuvan ymmärtämiseksi.

Tietolinkki: Cityscapes dataset

Projekti-idea: Kuvan segmentoinnin suorittaminen ja erilaisten kohteiden havaitseminen videosta tiellä. Kuvan segmentointi on prosessi, jossa kuva jaetaan digitaalisesti eri luokkiin, kuten autoihin, busseihin, ihmisiin, puihin, teihin jne.

15. Kinetics-tietokanta

Kinetics-tietokannassa on kolme erilaista tietokantaa: Kinetics 400-, Kinetics 600- ja Kinetics 700 -tietokanta. Tämä on laajamittainen tietokokonaisuus, joka sisältää URL-linkin noin 6,5 miljoonaan korkealaatuiseen videoon.

Tietolinkki: Kinetics dataset

Projekti-idea: Rakennetaan ihmisen toiminnan tunnistusmalli ja havaitaan ihmisen toiminta. Ihmisen toiminnan tunnistaminen tunnistetaan sarjan havaintojen perusteella.

IMDB-Wiki dataset

IMDB-Wiki dataset on yksi suurimmista avoimen lähdekoodin dataseteistä kasvokuville, joissa on merkitty sukupuoli ja ikä. Kuvat on kerätty IMDB:stä ja Wikipediasta. Siinä on yli 5 miljoonaa merkittyä kuvaa.

Tietolinkki: IMDB wiki dataset

Projekti-idea: Tee malli, joka tunnistaa kasvot ja ennustaa niiden sukupuolen ja iän. Luokkia voi olla eri alueilla, kuten 0-10, 10-20, 30-40, 50-60 jne.

Color Detection Dataset

Datasetissa on CSV-tiedosto, jossa on 865 värin nimeä ja niitä vastaavat värin RGB-arvot (punainen, vihreä ja sininen). Siinä on myös värin heksadesimaaliarvo.

Tietolinkki: Color Detection Dataset

Projekti-idea:

Lähdekoodi: Väritietokannan avulla voidaan tehdä värintunnistussovellus, jossa meillä on käyttöliittymä, jolla voimme valita värin kuvasta ja sovellus näyttää värin nimen.

Lähdekoodi: Color Detection Python Project

Urban Sound 8K dataset

Urban Sound dataset sisältää 8732 kaupunkiääntä 10 luokasta, kuten ilmastointilaite, koiran haukku, poraus, sireeni, katumusiikki jne. Tietokokonaisuus on suosittu kaupunkiäänten luokitusongelmiin.

Data Link: Urban Sound 8K dataset

Projekti-idea: Voimme rakentaa ääniluokitusjärjestelmän, jolla voidaan havaita taustalla soivan kaupunkiäänen tyyppi. Tämä auttaa sinua pääsemään alkuun äänidatan kanssa ja ymmärtämään, miten työskennellä jäsentymättömän datan kanssa.

Librispeech Dataset

Tämä tietokokonaisuus sisältää suuren määrän englanninkielisiä puheita, jotka ovat peräisin LibriVox-projektista. Siinä on 1000 tuntia englanniksi luettua puhetta eri aksenteilla. Sitä käytetään puheentunnistushankkeissa.

Data Link: Librispeech dataset

Projekti-idea: Rakennetaan puheentunnistusmalli, joka tunnistaa, mitä sanotaan ja muuntaa sen tekstiksi. Puheentunnistuksen tavoitteena on tunnistaa automaattisesti, mitä äänessä sanotaan.

Breast Histopathology Images Dataset

Tämä tietokokonaisuus sisältää 2 77 524 kuvaa, joiden koko on 50×50 ja jotka on poimittu 162 rintasyöpänäytteen diapositiokuvasta, jotka on skannattu 40x. Negatiivisia testejä on 1 98 738 ja positiivisia testejä, joissa on IDC, on 78 786.

Data Link: Rintojen histopatologian dataset

Projekti-idea: Rakentaa malli, jolla voidaan luokitella rintasyöpä. Rakennat kuvanluokittelumallin Convolutional neural networks.

Lähdekoodi: Breast Cancer Classification Python Project

Youtube 8M Dataset

Youtube 8M dataset on laajamittainen leimattu videotietokanta, jossa on 6,1 miljoonaa Youtube-videotunnusta, 350 000 tuntia videota, 2,6 miljardia audio/visuaalista piirrettä, 3862 luokkaa ja 3 keskimääräistä leimaa videota kohden. Sitä käytetään videoiden luokitteluun.

Data Link: Youtube 8M

Projekti-idea: Videoiden luokittelu voidaan tehdä datasetin avulla, ja malli voi kuvata, mistä videossa on kyse. Video ottaa sarjan syötteitä, jotta voidaan luokitella, mihin luokkaan video kuuluu.

EndNote

Tässä artikkelissa näimme yli 20 koneoppimisen datasettiä, joita voit käyttää koneoppimisen tai datatieteen harjoitteluun. Oman datasetin luominen on kallista, joten voimme käyttää muiden ihmisten datasettejä saadaksemme työmme tehtyä. Meidän on kuitenkin luettava tietokokonaisuuden asiakirjat huolellisesti, koska jotkut tietokokonaisuudet ovat ilmaisia, kun taas joidenkin tietokokonaisuuksien kohdalla sinun on annettava omistajalle niiden mainitsema kunnianosoitus.

Bio: Shivashish Thaku on analyytikko ja teknisen sisällön kirjoittaja. Hän on teknologiafriikki, joka rakastaa kirjoittaa uusimmista huipputeknologioista, jotka muuttavat maailmaa. Hän on myös urheilufani, joka rakastaa pelata ja katsella jalkapalloa.

Suhteessa:

KDnuggets