Päällikkö Shivashish Thakur, Digital Marketing, DataFlair.
Täydellisen mallin rakentamiseen tarvitaan suuri määrä dataa. Mutta oikean tietokokonaisuuden löytäminen koneoppimis- ja datatieteen projektiin on joskus melko haastava tehtävä. On monia organisaatioita, tutkijoita ja yksityishenkilöitä, jotka ovat jakaneet työnsä, ja käytämme heidän tietokokonaisuuksiaan projektimme rakentamiseen.
Tässä artikkelissa keskustelemme siis 20+ koneoppimisen ja datatieteen tietokokonaisuudesta ja projekti-ideasta, joita voit käyttää taitojesi harjoitteluun ja päivittämiseen.
- Enronin sähköpostitietokokonaisuus
- Chatbot Intents Dataset
- Flickr 30k Dataset
- Parkinson Dataset
- Iris Dataset
- ImageNet dataset
- 7. Mall Customers Dataset
- Google Trends Data Portal
- The Boston Housing Dataset
- Uber Pickups Dataset
- Recommender Systems Dataset
- UCI Spambase Dataset
- GTSRB (German traffic sign recognition benchmark) Dataset
- Cityscapes Dataset
- 15. Kinetics-tietokanta
- IMDB-Wiki dataset
- Color Detection Dataset
- Urban Sound 8K dataset
- Librispeech Dataset
- Breast Histopathology Images Dataset
- Youtube 8M Dataset
- EndNote
Enronin sähköpostitietokokonaisuus
Enronin tietokokonaisuus (Enronin tietokokonaisuus)
on suosittu luonnollisen kielen käsittelyssä. Siinä on yli 500K sähköpostia yli 150 käyttäjältä. Datan koko on noin 432Mb. 150 käyttäjästä suurin osa on Enronin ylempää johtoa.
Data Link: Enron email dataset
Projekti-idea: Käyttämällä k-means-klusterointia voit rakentaa mallin petollisen toiminnan havaitsemiseksi. K-means-klusterointi on valvomaton koneoppimisalgoritmi. Se jakaa havainnot k-määrään klustereita datan samankaltaisten mallien perusteella.
Chatbot Intents Dataset
Chatbot Intents Dataset on JSON-tiedosto, jossa on hajanaisia tunnisteita, kuten goodbye, greetings, pharmacy_search, hospital_search jne. Jokaisella tagilla on luettelo kuvioista, joita käyttäjä voi kysyä, ja chatbot vastaa kyseisen kuvion mukaan. Tietoaineisto sopii erinomaisesti chatbotin datan toiminnan ymmärtämiseen.
Data Link: Intents JSON Dataset
Projekti-idea: Voit rakentaa chatbotin tai ymmärtää chatbotin toimintaa vääntämällä ja laajentamalla dataa omilla havainnoillasi. Jotta voit rakentaa oman chatbotin, sinun on tunnettava luonnollisen kielen käsittelyn käsitteet hyvin.
Lähdekoodi: Chatbot Project in Python
Flickr 30k Dataset
Flickr 30k datasetissa on yli 30 000 kuvaa, ja jokainen kuva on merkitty eri kuvateksteillä. Tätä datasettiä käytetään kuvatekstigeneraattorin rakentamiseen. Ja tämä dataset on päivitetty versio Flickr 8k:sta, jota käytetään tarkempien mallien rakentamiseen.
Data Link: Flickr image dataset
Projekti-idea: Voit rakentaa CNN-mallin, joka on hyvä analysoimaan ja poimimaan piirteitä kuvasta ja tuottamaan englanninkielisen lauseen, joka kuvaa kuvaa, jota kutsutaan kuvatekstiksi.
Parkinson Dataset
Parkinsonin tauti on sairaus, joka voi aiheuttaa hermoston häiriön ja vaikuttaa liikkumiseen. Parkinson dataset sisältää biolääketieteellisiä mittauksia, 195 tietuetta ihmisistä, joilla on 23 eri attribuuttia. Tätä dataa käytetään terveiden ihmisten ja Parkinsonin tautia sairastavien ihmisten erottamiseen toisistaan.
Data Link: Parkinson dataset
Projekti-idea: Voit rakentaa mallin, jonka avulla voidaan erottaa terveet ihmiset Parkinsonin tautia sairastavista ihmisistä. Tähän tarkoitukseen käyttökelpoinen algoritmi on XGboost, joka on lyhenne sanoista extreme gradient boosting, ja se perustuu päätöspuihin.
Lähdekoodi: ML Project on Detecting Parkinson’s Disease
Iris Dataset
Iris-tietokanta on aloittelijaystävällinen tietokanta, joka sisältää tietoa kukan terälehtien ja verholehtien koosta. Tässä tietokokonaisuudessa on 3 luokkaa, joissa jokaisessa luokassa on 50 instanssia, joten se sisältää vain 150 riviä ja 4 saraketta.
Tietolinkki: Iris dataset
Projekti-idea: Luokittelu on tehtävä, jossa kohteet erotetaan vastaavaan luokkaan. Voit toteuttaa koneoppimisen luokittelu- tai regressiomallin tietokantaan.
ImageNet dataset
ImageNet on suuri kuvatietokanta, joka on järjestetty wordnet-hierarkian mukaisesti. Siinä on yli 100 000 lausetta ja keskimäärin 1000 kuvaa per lause. Koko on yli 150 Gt. Se soveltuu kuvantunnistukseen, kasvojentunnistukseen, objektien tunnistukseen jne. Siinä järjestetään myös haastava kilpailu nimeltä ILSVRC, jossa ihmiset voivat rakentaa yhä tarkempia malleja.
Data Link: Imagenet Dataset
Projekti-idea: Toteuttaa kuvien luokittelu tähän valtavaan tietokantaan ja tunnistaa kohteita. CNN-malli (Convolutional neural networks) on välttämätön tässä projektissa tarkkojen tulosten saamiseksi.
7. Mall Customers Dataset
The Mall customers dataset holds the details about people visiting the Mall. Tietoaineistossa on ikä, asiakastunnus, sukupuoli, vuositulot ja kulutuspisteet. Se saa tietoa tiedoista ja jakaa asiakkaat eri ryhmiin heidän käyttäytymisensä perusteella.
Dataset Link: Mall customers dataset
Projekti-idea: Segmentoida asiakkaat sukupuolen, iän ja kiinnostuksen perusteella. Siitä on hyötyä räätälöidyssä markkinoinnissa. Asiakassegmentointi on tärkeä käytäntö, jossa asiakkaat jaetaan yksittäisten samankaltaisten ryhmien perusteella.
Lähdekoodi:
Google Trends Data Portal
Google Trends -datan avulla voidaan tarkastella ja analysoida tietoja visuaalisesti. Voit myös ladata tietokokonaisuuden CSV-tiedostoiksi yhdellä napsautuksella. Voimme selvittää, mikä on trendejä ja mitä ihmiset etsivät.
Tietolinkki: Google trends datasets
The Boston Housing Dataset
Tämä on suosittu tietokokonaisuus, jota käytetään hahmontunnistuksessa. Se sisältää tietoa Bostonin eri taloista rikollisuuden, verojen, huoneiden lukumäärän jne. perusteella. Siinä on 506 riviä ja 14 eri muuttujaa sarakkeissa. Voit käyttää tätä tietokokonaisuutta talojen hintojen ennustamiseen.
Tietolinkki: Boston dataset
Projekti-idea: Ennusta uuden talon asuntojen hintoja lineaarisen regression avulla. Lineaarista regressiota käytetään ennustamaan tuntemattoman syötteen arvoja, kun datassa on jokin lineaarinen suhde syötteen ja tulomuuttujien välillä.
Uber Pickups Dataset
Tietokannassa on tietoa 4,5 miljoonasta Uberin kyydeistä New Yorkissa huhtikuusta 2014 syyskuuhun 2014 ja 14 miljoonasta muusta tammikuusta 2015 kesäkuuhun 2015. Käyttäjät voivat tehdä data-analyysejä ja kerätä tietoa tiedoista.
Tietolinkki: Uber pickups dataset
Projekti-idea: Asiakaskyytejä koskevien tietojen analysointi ja tietojen visualisointi sellaisten oivallusten löytämiseksi, joiden avulla voidaan parantaa liiketoimintaa. Datan analysointi ja visualisointi on tärkeä osa datatiedettä. Niitä käytetään keräämään oivalluksia datasta, ja visualisoinnin avulla datasta saadaan nopeasti tietoa.
Recommender Systems Dataset
Tämä on portaali kokoelmaan rikkaita tietokokonaisuuksia, joita käytettiin UCSD:n laboratoriotutkimusprojekteissa. Se sisältää erilaisia tietokokonaisuuksia suosituilta verkkosivustoilta, kuten Goodreads-kirja-arvosteluja, Amazon-tuotearvosteluja, baarimikkodataa, dataa sosiaalisesta mediasta jne. joita käytetään suosittelujärjestelmän rakentamisessa.
Data Link: Recommender systems dataset
Projekti-idea: Rakennetaan Amazonin kaltainen tuotesuosittelujärjestelmä. Suosittelujärjestelmä voi ehdottaa sinulle tuotteita, elokuvia jne. kiinnostuksen kohteidesi ja niiden asioiden perusteella, joista pidät ja joita olet käyttänyt aiemmin.
Lähdekoodi: Movie Recommendation System Project
UCI Spambase Dataset
Sähköpostien luokittelu roskapostiksi tai ei-roskapostiksi on hyvin yleinen ja hyödyllinen tehtävä. Tietokanta sisältää 4601 sähköpostia ja 57 metatietoa sähköposteista. Voit rakentaa malleja roskapostin suodattamiseksi pois.
Data Link: UCI spambase dataset
Projekti-idea: Voit rakentaa mallin, joka pystyy tunnistamaan sähköpostit roskapostiksi tai ei-roskapostiksi.
GTSRB (German traffic sign recognition benchmark) Dataset
GTSRB-dataset sisältää noin 50 000 kuvaa liikennemerkeistä, jotka kuuluvat 43:een eri luokkaan, ja se sisältää tietoa kunkin merkin rajauskehyksestä. Tietokokonaisuutta käytetään moniluokkaiseen luokitteluun.
Tietolinkki: GTSRB dataset
Tekoälyprojekti-idea: Rakennetaan syväoppimiskehystä käyttävä malli, joka luokittelee liikennemerkkejä ja tunnistaa myös merkkien rajatun laatikon. Liikennemerkkien luokittelusta on hyötyä myös autonomisissa ajoneuvoissa, jotka tunnistavat liikennemerkit ja ryhtyvät sitten asianmukaisiin toimiin.
Lähdekoodi: Traffic Signs Recognition Python Project
Cityscapes Dataset
Tämä on avoimen lähdekoodin tietokokonaisuus Computer Vision -projekteja varten. Se sisältää korkealaatuisia pikselitason merkintöjä 50 eri kaupungin kaduilla otetuista videosekvensseistä. Tietokokonaisuus on hyödyllinen semanttisessa segmentoinnissa ja syvien neuroverkkojen kouluttamisessa kaupunkikuvan ymmärtämiseksi.
Tietolinkki: Cityscapes dataset
Projekti-idea: Kuvan segmentoinnin suorittaminen ja erilaisten kohteiden havaitseminen videosta tiellä. Kuvan segmentointi on prosessi, jossa kuva jaetaan digitaalisesti eri luokkiin, kuten autoihin, busseihin, ihmisiin, puihin, teihin jne.
15. Kinetics-tietokanta
Kinetics-tietokannassa on kolme erilaista tietokantaa: Kinetics 400-, Kinetics 600- ja Kinetics 700 -tietokanta. Tämä on laajamittainen tietokokonaisuus, joka sisältää URL-linkin noin 6,5 miljoonaan korkealaatuiseen videoon.
Tietolinkki: Kinetics dataset
Projekti-idea: Rakennetaan ihmisen toiminnan tunnistusmalli ja havaitaan ihmisen toiminta. Ihmisen toiminnan tunnistaminen tunnistetaan sarjan havaintojen perusteella.
IMDB-Wiki dataset
IMDB-Wiki dataset on yksi suurimmista avoimen lähdekoodin dataseteistä kasvokuville, joissa on merkitty sukupuoli ja ikä. Kuvat on kerätty IMDB:stä ja Wikipediasta. Siinä on yli 5 miljoonaa merkittyä kuvaa.
Tietolinkki: IMDB wiki dataset
Projekti-idea: Tee malli, joka tunnistaa kasvot ja ennustaa niiden sukupuolen ja iän. Luokkia voi olla eri alueilla, kuten 0-10, 10-20, 30-40, 50-60 jne.
Color Detection Dataset
Datasetissa on CSV-tiedosto, jossa on 865 värin nimeä ja niitä vastaavat värin RGB-arvot (punainen, vihreä ja sininen). Siinä on myös värin heksadesimaaliarvo.
Tietolinkki: Color Detection Dataset
Projekti-idea:
Lähdekoodi: Väritietokannan avulla voidaan tehdä värintunnistussovellus, jossa meillä on käyttöliittymä, jolla voimme valita värin kuvasta ja sovellus näyttää värin nimen.
Lähdekoodi: Color Detection Python Project
Urban Sound 8K dataset
Urban Sound dataset sisältää 8732 kaupunkiääntä 10 luokasta, kuten ilmastointilaite, koiran haukku, poraus, sireeni, katumusiikki jne. Tietokokonaisuus on suosittu kaupunkiäänten luokitusongelmiin.
Data Link: Urban Sound 8K dataset
Projekti-idea: Voimme rakentaa ääniluokitusjärjestelmän, jolla voidaan havaita taustalla soivan kaupunkiäänen tyyppi. Tämä auttaa sinua pääsemään alkuun äänidatan kanssa ja ymmärtämään, miten työskennellä jäsentymättömän datan kanssa.
Librispeech Dataset
Tämä tietokokonaisuus sisältää suuren määrän englanninkielisiä puheita, jotka ovat peräisin LibriVox-projektista. Siinä on 1000 tuntia englanniksi luettua puhetta eri aksenteilla. Sitä käytetään puheentunnistushankkeissa.
Data Link: Librispeech dataset
Projekti-idea: Rakennetaan puheentunnistusmalli, joka tunnistaa, mitä sanotaan ja muuntaa sen tekstiksi. Puheentunnistuksen tavoitteena on tunnistaa automaattisesti, mitä äänessä sanotaan.
Breast Histopathology Images Dataset
Tämä tietokokonaisuus sisältää 2 77 524 kuvaa, joiden koko on 50×50 ja jotka on poimittu 162 rintasyöpänäytteen diapositiokuvasta, jotka on skannattu 40x. Negatiivisia testejä on 1 98 738 ja positiivisia testejä, joissa on IDC, on 78 786.
Data Link: Rintojen histopatologian dataset
Projekti-idea: Rakentaa malli, jolla voidaan luokitella rintasyöpä. Rakennat kuvanluokittelumallin Convolutional neural networks.
Lähdekoodi: Breast Cancer Classification Python Project
Youtube 8M Dataset
Youtube 8M dataset on laajamittainen leimattu videotietokanta, jossa on 6,1 miljoonaa Youtube-videotunnusta, 350 000 tuntia videota, 2,6 miljardia audio/visuaalista piirrettä, 3862 luokkaa ja 3 keskimääräistä leimaa videota kohden. Sitä käytetään videoiden luokitteluun.
Data Link: Youtube 8M
Projekti-idea: Videoiden luokittelu voidaan tehdä datasetin avulla, ja malli voi kuvata, mistä videossa on kyse. Video ottaa sarjan syötteitä, jotta voidaan luokitella, mihin luokkaan video kuuluu.
EndNote
Tässä artikkelissa näimme yli 20 koneoppimisen datasettiä, joita voit käyttää koneoppimisen tai datatieteen harjoitteluun. Oman datasetin luominen on kallista, joten voimme käyttää muiden ihmisten datasettejä saadaksemme työmme tehtyä. Meidän on kuitenkin luettava tietokokonaisuuden asiakirjat huolellisesti, koska jotkut tietokokonaisuudet ovat ilmaisia, kun taas joidenkin tietokokonaisuuksien kohdalla sinun on annettava omistajalle niiden mainitsema kunnianosoitus.
Bio: Shivashish Thaku on analyytikko ja teknisen sisällön kirjoittaja. Hän on teknologiafriikki, joka rakastaa kirjoittaa uusimmista huipputeknologioista, jotka muuttavat maailmaa. Hän on myös urheilufani, joka rakastaa pelata ja katsella jalkapalloa.
Suhteessa: