20+ Datasæt og projektideer til maskinlæring

Af Shivashish Thakur, Digital Marketing, DataFlair.

For at opbygge en perfekt model har du brug for en stor mængde data. Men at finde det rigtige datasæt til dit maskinlærings- og datalogiprojekt er nogle gange en ganske udfordrende opgave. Der er mange organisationer, forskere og enkeltpersoner, der har delt deres arbejde, og vi vil bruge deres datasæt til at opbygge vores projekt.

Så i denne artikel vil vi diskutere 20+ Machine learning og Data Science datasæt og projektideer, som du kan bruge til at øve og opgradere dine færdigheder.

Enron Email Dataset

Enron-datasættet er populært inden for naturlig sprogbehandling. Den indeholder mere end 500K e-mails fra over 150 brugere. Størrelsen af dataene er omkring 432 Mb. Ud af de 150 brugere er de fleste af brugerne den øverste ledelse i Enron.

Data Link: Enron e-mail-datasæt

Projektidé: Ved hjælp af k-means clustering kan man opbygge en model til at opdage svigagtige aktiviteter. K-means clustering er en uovervåget maskinlæringsalgoritme. Den adskiller observationerne i k antal klynger baseret på de lignende mønstre i dataene.

Chatbot Intents Dataset

Datasættet for en chatbot er en JSON-fil, der har uensartede tags som farvel, hilsner, apotek_søgning, hospital_søgning osv. Hvert tag har en liste over mønstre, som en bruger kan spørge om, og chatbotten vil svare i henhold til det pågældende mønster. Datasættet er perfekt til at forstå, hvordan chatbot-data fungerer.

Data Link: Intents JSON-datasæt

Projektidé: Du kan bygge en chatbot eller forstå, hvordan en chatbot fungerer, ved at vride og udvide dataene med dine observationer. For at bygge din egen chatbot skal du have et godt kendskab til begreberne for behandling af naturligt sprog.

Kildekode: Chatbot Project in Python

Flickr 30k Dataset

Flickr 30k-datasættet har over 30.000 billeder, og hvert billede er mærket med forskellige billedtekster. Dette datasæt bruges til at opbygge en billedtekstgenerator. Og dette datasæt er en opgraderet version af Flickr 8k, der bruges til at opbygge mere præcise modeller.

Data Link: Du kan bygge en CNN-model, der er god til at analysere og udtrække funktioner fra billedet og generere en engelsk sætning, der beskriver billedet, som kaldes Caption.

Parkinson Dataset

Parkinson er en sygdom, der kan forårsage en nervesystemforstyrrelse og påvirker bevægelsen. Parkinson-datasættet indeholder biomedicinske målinger, 195 optegnelser af personer med 23 forskellige attributter. Disse data bruges til at skelne mellem raske personer og personer med Parkinsons sygdom.

Data Link: Parkinson-datasæt

Projektidé: Du kan opbygge en model, der kan bruges til at skelne mellem raske personer og personer med Parkinsons sygdom. Den algoritme, der er nyttig til dette formål, er XGboost, som står for extreme gradient boosting, og den er baseret på beslutningstræer.

Kildekode: ML Project on Detecting Parkinson’s Disease

Iris-datasæt

Iris-datasættet er et begyndervenligt datasæt, der indeholder oplysninger om blomstens kronblad- og kronbladstørrelser. Dette datasæt har 3 klasser med 50 forekomster i hver klasse, så det indeholder kun 150 rækker med 4 kolonner.

Data Link: Iris-datasæt

Projektidé: Klassifikation er opgaven med at adskille elementer i deres tilsvarende klasse. Du kan implementere en maskinlærings-klassifikations- eller regressionsmodel på datasættet.

ImageNet-datasæt

ImageNet er en stor billeddatabase, der er organiseret i henhold til wordnet-hierarkiet. Den har over 100 000 sætninger og i gennemsnit 1000 billeder pr. sætning. Størrelsen overstiger 150 GB. Den er velegnet til billedgenkendelse, ansigtsgenkendelse, objektdetektion osv. Den er også vært for en udfordrende konkurrence ved navn ILSVRC for folk til at bygge mere og mere præcise modeller.

Data Link: Imagenet Dataset

Projektidé: At gennemføre billedklassificering på denne enorme database og genkende objekter. CNN-modellen (Convolutional neural networks) er nødvendig for dette projekt for at få nøjagtige resultater.

7. Mall Customers Dataset

Datasættet Mall customers dataset indeholder oplysninger om folk, der besøger indkøbscenteret. Datasættet har en alder, kundeid, køn, årlig indkomst og forbrugsscore. Den får indsigt fra dataene og opdeler kunderne i forskellige grupper baseret på deres adfærd.

Datasæt Link: mall customers dataset

Projektidé: Segmentering af kunderne baseret på deres køn, alder, interesse. Det er nyttigt i tilpasset markedsføring. Kundesegmentering er en vigtig praksis for opdeling af kunder baseret på individuelle grupper, der ligner hinanden.

Kildekode:

Google Trends Data Portal

Google trends data kan bruges til at undersøge og analysere data visuelt. Du kan også downloade datasættet til CSV-filer med et enkelt klik. Vi kan finde ud af, hvad der er trending, og hvad folk søger efter.

Data Link: Google trends datasæt

The Boston Housing Dataset

Dette er et populært datasæt, der bruges til mønstergenkendelse. Det indeholder oplysninger om de forskellige huse i Boston baseret på kriminalitetsrate, skat, antal værelser osv. Det har 506 rækker og 14 forskellige variabler i kolonnerne. Du kan bruge dette datasæt til at forudsige huspriser.

Data Link: Boston-datasæt

Projektidé: Forudsig boligpriserne for et nyt hus ved hjælp af lineær regression. Lineær regression bruges til at forudsige værdier af ukendte input, når dataene har en vis lineær sammenhæng mellem input- og outputvariabler.

Uber Pickups Dataset

Datasættet indeholder oplysninger om 4,5 millioner Uber-afhentninger i New York City fra april 2014 til september 2014 og 14 millioner mere fra januar 2015 til juni 2015. Brugere kan udføre dataanalyse og indsamle indsigt fra dataene.

Data Link: Uber pickups datasæt

Projektidé: At analysere data om kundernes ture og visualisere data for at finde indsigter, der kan hjælpe med at forbedre forretningen. Dataanalyse og visualisering er en vigtig del af datavidenskab. De bruges til at indsamle indsigt fra dataene, og med visualisering kan du få hurtig information fra dataene.

Recommender Systems Dataset

Dette er en portal til en samling af rige datasæt, der blev brugt i laboratorieforskningsprojekter ved UCSD. Den indeholder forskellige datasæt fra populære websteder som Goodreads-boganmeldelser, Amazon-produktanmeldelser, bartenderdata, data fra sociale medier osv., der bruges til at opbygge et anbefalingssystem.

Data Link: Anbefalingssystem-datasæt

Projektidé: Opbygning af et produktanbefalingssystem som Amazon. Et anbefalingssystem kan foreslå dine produkter, film osv. baseret på dine interesser og de ting, du kan lide og har brugt tidligere.

Kildekode: Filmanbefalingssystemprojekt

UCI Spambase Dataset

Klassificering af e-mails som spam eller ikke-spam er en meget almindelig og nyttig opgave. Datasættet indeholder 4601 e-mails og 57 metainformationer om e-mailene. Du kan opbygge modeller til at filtrere spam fra.

Data Link: UCI spambase-datasæt

Projektidé: Du kan opbygge en model, der kan identificere dine e-mails som spam eller ikke-spam.

GTSRB (German traffic sign recognition benchmark) Dataset

GTSRB-datasættet indeholder ca. 50 000 billeder af trafikskilte, der tilhører 43 forskellige klasser, og indeholder oplysninger om den afgrænsende boks for hvert skilt. Datasættet bruges til klassificering i flere klasser.

Data Link: GTSRB-datasæt

Artificial Intelligence Projektidé: Opbygning af en model ved hjælp af en deep learning-ramme, der klassificerer trafikskilte og også genkender skiltenes afgrænsende boks. Klassificeringen af trafikskilte er også nyttig i autonome køretøjer til at identificere skilte og derefter træffe passende foranstaltninger.

Kildekode: Dette er et datasæt med åben kildekode til Computer Vision-projekter. Det indeholder annotationer på pixelniveau af høj kvalitet af videosekvenser, der er optaget i 50 forskellige bygader. Datasættet er nyttigt til semantisk segmentering og træning af dybe neurale netværk til at forstå bybilledet.

Data Link: Cityscapes datasæt

Projektidé: At udføre billedsegmentering og registrere forskellige objekter fra en video på vejen. Billedsegmentering er processen med digital opdeling af et billede i forskellige kategorier som f.eks. biler, busser, mennesker, træer, veje osv.

15. Kinetics-datasæt

Der findes tre forskellige datasæt til Kinetics: Kinetics 400, Kinetics 600 og Kinetics 700 datasæt. Dette er et datasæt i stor skala, der indeholder et URL-link til ca. 6,5 millioner videoer af høj kvalitet.

Data Link: Kinetics-datasæt

Projektidé: Opbygning af en model til genkendelse af menneskelige handlinger og registrering af et menneskes handlinger. Genkendelse af menneskelig handling genkendes ved hjælp af en række observationer.

IMDB-Wiki-datasæt

Datasættet IMDB-Wiki er et af de største open source-datasæt for ansigtsbilleder med mærket køn og alder. Billederne er indsamlet fra IMDB og Wikipedia. Det har mere end 5 millioner mærket billeder.

Data Link: IMDB wiki-datasæt

Projektidé: Jeg har en idé: Lav en model, der kan registrere ansigter og forudsige deres køn og alder. Du kan have kategorier i forskellige intervaller som 0-10, 10-20, 30-40, 50-60 osv.

Color Detection Dataset

Datasættet indeholder en CSV-fil, der har 865 farvenavne med deres tilsvarende RGB-værdier (rød, grøn og blå) for farven. Den har også den hexadecimale værdi af farven.

Data Link: Color Detection Dataset

Project Idea: Det kan bruges til at lave en app til farvedetektion, hvor vi kan have en grænseflade til at vælge en farve fra billedet, og appen vil vise navnet på farven.

Kildekode: Link: Programkode:

Detektorering af farver Python-projektet

Urban Sound 8K-datasæt

Datasættet for bylyde indeholder 8732 bylyde fra 10 klasser som f.eks. en aircondition, hundeblæser, boring, sirene, gademusik osv. Datasættet er populært til klassifikationsproblemer i forbindelse med bylyde.

Data Link: Link: Urban Sound 8K datasæt

Projektidé: Vi kan opbygge et lydklassificeringssystem til at registrere den type bylyd, der spiller i baggrunden. Dette vil hjælpe dig med at komme i gang med lyddata og forstå, hvordan man arbejder med ustrukturerede data.

Librispeech Dataset

Dette datasæt indeholder et stort antal engelske taler, der stammer fra LibriVox-projektet. Det har 1000 timers engelsk læst tale i forskellige accenter. Det bruges til talegenkendelsesprojekter.

Data Link: Librispeech-datasæt

Projektidé: Opbygning af en talegenkendelsesmodel til at registrere, hvad der bliver sagt, og konvertere det til tekst. Målet med talegenkendelse er automatisk at identificere, hvad der bliver sagt i lyden.

Breast Histopathology Images Dataset

Dette datasæt indeholder 2 77 524 billeder i størrelsen 50×50, der er udtrukket fra 162 billeder af brystkræftprøver, der er skannet ved 40x. Der er 1.98.738 negative prøver og 78.786 positive prøver med IDC.

Data Link: Breast histopathology datasæt

Projektidé: At opbygge en model, der kan klassificere brystkræft. Du opbygger en billedklassifikationsmodel med Convolutional neural networks.

Kildekode: Youtube 8M-datasæt

Youtube 8M-datasættet er et stort mærket videodatasæt, der har 6,1 millioner Youtube-video-id’er, 350.000 timers video, 2,6 milliarder audio/visuelle funktioner, 3862 klasser og 3 gennemsnitsmærker pr. video. Det bruges til videoklassificering.

Data Link: Youtube 8M

Projektidé: Det er muligt at foretage videoklassificering ved hjælp af datasættet, og modellen kan beskrive, hvad videoen handler om. En video tager en række input for at klassificere, hvilken kategori videoen hører til.

EndNote

I denne artikel så vi mere end 20 maskinlæringsdatasæt, som du kan bruge til at øve maskinlæring eller datalogi. Det er dyrt at oprette et datasæt på egen hånd, så vi kan bruge andres datasæt til at få vores arbejde gjort. Men vi bør læse dokumenterne for datasættet omhyggeligt, fordi nogle datasæt er gratis, mens du for nogle datasæt skal give kredit til ejeren som angivet af dem.

Bio: Shivashish Thaku er en analytiker og teknisk indholdsforfatter. Han er en teknologifreak, der elsker at skrive om de nyeste banebrydende teknologier, der forandrer verden. Han er også en sportsfan, der elsker at spille og se fodbold.

Relateret:

KDnuggets