KDnuggets

av Shivashish Thakur, Digital Marketing, DataFlair.

För att bygga en perfekt modell behöver du en stor mängd data. Men att hitta rätt dataset för ditt projekt för maskininlärning och datavetenskap är ibland en ganska utmanande uppgift. Det finns många organisationer, forskare och individer som har delat med sig av sitt arbete, och vi kommer att använda deras dataset för att bygga vårt projekt.

Så i den här artikeln kommer vi att diskutera 20+ Maskininlärning och datavetenskap dataset och projektidéer som du kan använda för att öva och uppgradera dina färdigheter.

Enron Email Dataset

Enron Dataset är populärt inom naturlig språkbehandling. Den innehåller mer än 500 000 e-postmeddelanden från över 150 användare. Storleken på uppgifterna är cirka 432 Mb. Av de 150 användarna är de flesta användare ledande befattningshavare i Enron.

Datalänk: Enron email dataset

Projektidé: Enron email dataset

Projektidé: Enron email dataset

Med hjälp av k-means-klustring kan man bygga en modell för att upptäcka bedräglig verksamhet. K-means clustering är en oövervakad algoritm för maskininlärning. Den separerar observationerna i k antal kluster baserat på liknande mönster i data.

Chatbot Intents Dataset

Dataset för en chatbot är en JSON-fil som har disparata taggar som goodbye, greetings, pharmacy_search, hospital_search osv. Varje tagg har en lista med mönster som en användare kan fråga om, och chattroboten svarar enligt det mönstret. Datamängden är perfekt för att förstå hur chatbotdata fungerar.

Datalänk: Intents JSON Dataset

Projektidé: Du kan bygga en chatbot eller förstå hur en chatbot fungerar genom att vrida och utvidga data med dina observationer. För att bygga en egen chattbot måste du ha goda kunskaper om begrepp för behandling av naturliga språk.

Källkod: Chatbot Project in Python

Flickr 30k Dataset

Flickr 30k Dataset har över 30 000 bilder, och varje bild är märkt med olika bildtexter. Detta dataset används för att bygga en bildtextgenerator. Det här datasetet är en uppgraderad version av Flickr 8k som används för att bygga mer exakta modeller.

Datalänk: Du kan bygga en CNN-modell som är bra för att analysera och extrahera funktioner från bilden och generera en engelsk mening som beskriver bilden som kallas Caption.

Parkinson Dataset

Parkinsons sjukdom är en sjukdom som kan orsaka en störning i nervsystemet och som påverkar rörelsen. Parkinson datasetet innehåller biomedicinska mätningar, 195 poster om personer med 23 olika attribut. Dessa data används för att skilja friska personer från personer med Parkinsons sjukdom.

Datalänk: Parkinson-dataset

Projektidé: Du kan bygga en modell som kan användas för att skilja friska personer från personer med Parkinsons sjukdom. Algoritmen som är användbar för detta ändamål är XGboost, som står för extreme gradient boosting, och den är baserad på beslutsträd.

Källkod: ML Project on Detecting Parkinson’s Disease

Iris Dataset

Iris-dataset är ett nybörjarvänligt dataset som innehåller information om storleken på blommans kronblad och blad. Datamängden har 3 klasser med 50 instanser i varje klass, så den innehåller bara 150 rader med 4 kolumner.

Datalänk: Dataset för Iris

Projektidé: Klassificering är uppgiften att dela in objekt i motsvarande klass. Du kan implementera en klassificerings- eller regressionsmodell för maskininlärning på datasetet.

ImageNet-dataset

ImageNet är en stor bilddatabas som är organiserad enligt wordnet-hierarkin. Den har över 100 000 fraser och i genomsnitt 1000 bilder per fras. Storleken överstiger 150 GB. Den är lämplig för bildigenkänning, ansiktsigenkänning, objektdetektering osv. Den är också värd för en utmanande tävling vid namn ILSVRC för människor som vill bygga mer och mer exakta modeller.

Data Link: Imagenet Dataset

Projektidé: Att genomföra bildklassificering i denna enorma databas och känna igen objekt. CNN-modellen (Convolutional neural networks) är nödvändig för detta projekt för att få exakta resultat.

7. Mall Customers Dataset

Dataset för Mall customers innehåller uppgifter om personer som besöker köpcentret. Datasetetet har en ålder, kund-ID, kön, årsinkomst och utgiftspoäng. Den får insikter från uppgifterna och delar in kunderna i olika grupper utifrån deras beteende.

Dataset Link: mall customers dataset

Projektidé: Segmentera kunderna utifrån kön, ålder och intresse. Det är användbart vid skräddarsydd marknadsföring. Kundsegmentering är en viktig praxis för att dela upp kunder utifrån enskilda grupper som är likartade.

Källkod:

Google Trends Data Portal

Google trends data kan användas för att undersöka och analysera data visuellt. Du kan också ladda ner datasetet till CSV-filer med ett enkelt klick. Vi kan ta reda på vad som trendar och vad folk söker efter.

Datalänk: Google trends dataset

The Boston Housing Dataset

Detta är ett populärt dataset som används vid mönsterigenkänning. Den innehåller information om de olika husen i Boston baserat på brottslighet, skatt, antal rum osv. Det har 506 rader och 14 olika variabler i kolumner. Du kan använda det här datasetet för att förutsäga huspriser.

Datalänk: Boston dataset

Projektidé: Förutsäg bostadsrättspriserna för ett nytt hus med hjälp av linjär regression. Linjär regression används för att förutsäga värden för okänd input när data har ett visst linjärt förhållande mellan input- och outputvariabler.

Uber Pickups Dataset

Dataset innehåller information om 4,5 miljoner Uber-upphämtningar i New York City från april 2014 till september 2014 och ytterligare 14 miljoner från januari 2015 till juni 2015. Användare kan utföra dataanalyser och samla insikter från uppgifterna.

Datalänk: Uber pickups dataset

Projektidé: Uber pickups dataset

Projektidé: Uber pickups dataset: Det är en viktig uppgift att analysera data om kundernas resor och visualisera data för att hitta insikter som kan bidra till att förbättra verksamheten. Dataanalys och visualisering är en viktig del av datavetenskap. De används för att samla insikter från data, och med visualisering kan du få snabb information från data.

Recommender Systems Dataset

Detta är en portal till en samling rika datamängder som användes i laboratorieforskningsprojekt vid UCSD. Den innehåller olika dataset från populära webbplatser som Goodreads bokrecensioner, Amazon-produktrecensioner, bartenderdata, data från sociala medier osv. som används för att bygga ett rekommendationssystem.

Datalänk: Dataset för rekommendationssystem

Projektidé: Bygg ett produktrekommendationssystem som Amazon. Ett rekommendationssystem kan föreslå dina produkter, filmer etc. baserat på dina intressen och de saker du gillar och har använt tidigare.

Källkod: Projekt: Movie Recommendation System Project

UCI Spambase Dataset

Klassificering av e-postmeddelanden som spam eller icke-spam är en mycket vanlig och användbar uppgift. Datasetet innehåller 4601 e-postmeddelanden och 57 metainformationer om e-postmeddelandena. Du kan bygga modeller för att filtrera bort skräppost.

Datalänk: UCI spambase dataset

Projektidé: Du kan bygga en modell som kan identifiera dina e-postmeddelanden som skräppost eller inte.

GTSRB (German traffic sign recognition benchmark) Dataset

GTSRB-dataset innehåller cirka 50 000 bilder av trafikskyltar som tillhör 43 olika klasser och innehåller information om den avgränsande boxen för varje skylt. Datamängden används för klassificering i flera klasser.

Datalänk: Projektidé för artificiell intelligens: Bygg en modell med hjälp av ett ramverk för djupinlärning som klassificerar trafikskyltar och även känner igen den avgränsande rutan för skyltarna. Klassificeringen av trafikskyltar är också användbar i autonoma fordon för att identifiera skyltar och sedan vidta lämpliga åtgärder.

Källkod: Detta är en datamängd med öppen källkod för datorseendeprojekt. Den innehåller högkvalitativa annotationer på pixelnivå av videosekvenser tagna på 50 olika stadsgator. Datamängden är användbar för semantisk segmentering och träning av djupa neurala nätverk för att förstå stadsscenerier.

Datalänk: Datasetet Cityscapes

Projektidé: Att utföra bildsegmentering och upptäcka olika objekt från en video på vägen. Bildsegmentering är en process där man digitalt delar in en bild i olika kategorier som bilar, bussar, människor, träd, vägar osv.

15. Kinetics dataset

Det finns tre olika dataset för Kinetics: Det finns tre olika dataset för Kinetics: Kinetics 400, Kinetics 600 och Kinetics 700. Detta är ett storskaligt dataset som innehåller en URL-länk till cirka 6,5 miljoner högkvalitativa videor.

Datalänk: Kinetics dataset

Projektidé: Bygga en modell för igenkänning av mänskliga handlingar och upptäcka en mänsklig handling. Erkännande av mänsklig handling känns igen genom en serie observationer.

IMDB-Wiki-dataset

Datasetetet IMDB-Wiki är ett av de största dataseten med öppen källkod för ansiktsbilder med märkt kön och ålder. Bilderna samlas in från IMDB och Wikipedia. Det har över 5 miljoner märkta bilder.

Datalänk: IMDB wiki dataset

Projektidé: Gör en modell som kan upptäcka ansikten och förutsäga deras kön och ålder. Du kan ha kategorier i olika intervall som 0-10, 10-20, 30-40, 50-60 osv.

Color Detection Dataset

Dataset innehåller en CSV-fil som har 865 färgnamn med motsvarande RGB-värden (röd, grön och blå) för färgen. Den har också det hexadecimala värdet för färgen.

Datalänk: Färgdetekteringsdataset

Projektidé: Färgdatasetet kan användas för att göra en app för färgdetektering där vi kan ha ett gränssnitt för att välja en färg från bilden och appen kommer att visa namnet på färgen.

Källkod: Källkod: Den kan användas för att skapa ett gränssnitt för att välja en färg från bilden: Den urbana ljuddatasatsen innehåller 8732 urbana ljud från 10 klasser som luftkonditionering, hundskällning, borrning, sirener, gatumusik osv. Datasetetet är populärt för klassificeringsproblem av stadsljud.

Datalänk: Urban Sound 8K dataset

Projektidé: Urban Sound 8K dataset

Projektidé: Vi kan bygga ett system för ljudklassificering för att upptäcka vilken typ av stadsljud som spelas i bakgrunden. Detta kommer att hjälpa dig att komma igång med ljuddata och förstå hur man arbetar med ostrukturerade data.

Librispeech Dataset

Detta dataset innehåller ett stort antal engelska tal som härrör från LibriVox-projektet. Det har 1000 timmars engelskläst tal med olika accenter. Det används för taligenkänningsprojekt.

Datalänk: Projektidé: Bygga en modell för taligenkänning för att upptäcka vad som sägs och omvandla det till text. Målet med taligenkänning är att automatiskt identifiera vad som sägs i ljudet.

Breast Histopathology Images Dataset

Det här datasetetet innehåller 2 77 524 bilder i storleken 50×50 som har hämtats från 162 bilder av bröstcancerprover som skannats med 40x. Det finns 1 98 738 negativa tester och 78 786 positiva tester med IDC.

Datalänk: Brösthistopatologidataset

Projektidé: Att bygga en modell som kan klassificera bröstcancer. Du bygger en modell för bildklassificering med konvolutionella neurala nätverk.

Källkod: Den är en storskalig märkt videodatabas med 6,1 miljoner Youtube-video-id:n, 350 000 videotimmar, 2,6 miljarder audio/visuella funktioner, 3862 klasser och 3 genomsnittliga etiketter per video. Den används för videoklassificering.

Data Link: Youtube 8M

Projektidé: Video klassificering kan göras med hjälp av datasetet, och modellen kan beskriva vad videon handlar om. En video tar en serie ingångar för att klassificera i vilken kategori videon hör hemma.

EndNote

I den här artikeln såg vi mer än 20 dataset för maskininlärning som du kan använda för att öva maskininlärning eller datavetenskap. Att skapa ett dataset på egen hand är dyrt, så vi kan använda andras dataset för att få vårt arbete gjort. Men vi bör läsa dokumenten för datamängden noggrant eftersom vissa datamängder är gratis, medan du för vissa datamängder måste ge kredit till ägaren enligt vad de anger.

Bio: Shivashish Thaku är analytiker och författare av tekniskt innehåll. Han är ett teknikfreak som älskar att skriva om den senaste banbrytande tekniken som förändrar världen. Han är också ett sportfan som älskar att spela och titta på fotboll.

Relaterat:

Lämna ett svar

Din e-postadress kommer inte publiceras.