KDnuggets

By Shivashish Thakur, Digital Marketing, DataFlair.

Om een perfect model te bouwen, heb je een grote hoeveelheid data nodig. Maar het vinden van de juiste dataset voor uw machine learning- en data science-project is soms een behoorlijk uitdagende taak. Er zijn veel organisaties, onderzoekers en individuen die hun werk hebben gedeeld, en we zullen hun datasets gebruiken om ons project te bouwen.

Dus in dit artikel gaan we 20+ Machine learning en Data Science dataset en projectideeën bespreken die je kunt gebruiken voor het oefenen en upgraden van je vaardigheden.

Enron Email Dataset

De Enron Dataset is populair in natuurlijke taalverwerking. Het heeft meer dan 500K e-mails van meer dan 150 gebruikers. De grootte van de gegevens is ongeveer 432Mb. Van de 150 gebruikers zijn de meeste gebruikers het hogere management van Enron.

Data Link: Enron e-mail dataset

Project Idee: Met behulp van k-means clustering, kun je een model bouwen om frauduleuze activiteiten op te sporen. K-means clustering is een algoritme voor machinaal leren zonder toezicht. Het scheidt de waarnemingen in k aantal clusters op basis van de vergelijkbare patronen in de gegevens.

Chatbot Intents Dataset

De dataset voor een chatbot is een JSON-bestand dat ongelijksoortige tags heeft zoals goodbye, greetings, pharmacy_search, hospital_search, enz. Elke tag heeft een lijst van patronen die een gebruiker kan vragen, en de chatbot zal reageren volgens dat patroon. De dataset is perfect om te begrijpen hoe chatbotgegevens werken.

Data Link: Intents JSON Dataset

Projectidee: Je kunt een chatbot bouwen of de werking van een chatbot begrijpen door de gegevens te verdraaien en uit te breiden met je observaties. Om zelf een Chatbot te bouwen, moet je een goede kennis hebben van Natuurlijke taalverwerkingsconcepten.

Broncode: Chatbot Project in Python

Flickr 30k Dataset

De Flickr 30k dataset heeft meer dan 30.000 afbeeldingen, en elke afbeelding is gelabeld met verschillende bijschriften. Deze dataset wordt gebruikt om een image caption generator te bouwen. En deze dataset is een verbeterde versie van Flickr 8k die wordt gebruikt om nauwkeurigere modellen te bouwen.

Data Link: Flickr image dataset

Projectidee: U kunt een CNN-model bouwen dat geweldig is voor het analyseren en extraheren van kenmerken uit de afbeelding en het genereren van een engelse zin die de afbeelding beschrijft die Caption wordt genoemd.

Parkinson Dataset

Parkinson is een ziekte die een stoornis van het zenuwstelsel kan veroorzaken en de beweging beïnvloedt. De Parkinson-dataset bevat biomedische metingen, 195 records van mensen met 23 verschillende attributen. Deze gegevens worden gebruikt om gezonde mensen te onderscheiden van mensen met de ziekte van Parkinson.

Data Link: Parkinson dataset

Projectidee: Je kunt een model bouwen dat gebruikt kan worden om gezonde mensen te onderscheiden van mensen met de ziekte van Parkinson. Het algoritme dat hiervoor bruikbaar is, is XGboost, wat staat voor extreme gradient boosting, en het is gebaseerd op beslisbomen.

Broncode: ML Project on Detecting Parkinson’s Disease

Iris Dataset

De iris dataset is een beginnersvriendelijke dataset die informatie heeft over de grootte van de bloemblaadjes en kelkblaadjes. Deze dataset heeft 3 klassen met 50 instanties in elke klasse, dus bevat slechts 150 rijen met 4 kolommen.

Data Link: Iris dataset

Project Idee: Classificatie is de taak van het scheiden van items in hun overeenkomstige klasse. Je kunt een machine learning classificatie- of regressiemodel op de dataset implementeren.

ImageNet dataset

ImageNet is een grote beelddatabase die is georganiseerd volgens de wordnet-hiërarchie. Het heeft meer dan 100.000 zinnen en een gemiddelde van 1000 afbeeldingen per zin. De grootte overschrijdt 150 GB. Het is geschikt voor beeldherkenning, gezichtsherkenning, objectdetectie, enz. Het organiseert ook een uitdagende competitie genaamd ILSVRC voor mensen om meer en meer accurate modellen te bouwen.

Data Link: Imagenet Dataset

Project Idee: Om beeldclassificatie te implementeren op deze enorme database en objecten te herkennen. CNN model (Convolutional neural networks) zijn nodig voor dit project om nauwkeurige resultaten te krijgen.

7. Mall Customers Dataset

De Mall klanten dataset bevat de details over mensen die het winkelcentrum bezoeken. De dataset heeft een leeftijd, klant id, geslacht, jaarlijks inkomen, en de uitgaven score. Het verkrijgt inzichten uit de gegevens en verdeelt de klanten in verschillende groepen op basis van hun gedrag.

Dataset Link: mall customers dataset

Project Idee: Segmenteer de klanten op basis van hun geslacht, leeftijd, interesse. Het is nuttig in aangepaste marketing. Klantsegmentatie is een belangrijke praktijk van het verdelen van klanten op basis van individuele groepen die vergelijkbaar zijn.

Broncode: Customer segmentation with Machine learning.

Google Trends Data Portal

Google trends data kan worden gebruikt om de gegevens visueel te onderzoeken en te analyseren. U kunt ook downloaden van de dataset in CSV-bestanden met een simpele klik. We kunnen uitvinden wat trending is en waar mensen naar zoeken.

Data Link: Google trends datasets

The Boston Housing Dataset

Dit is een populaire dataset die wordt gebruikt bij patroonherkenning. Hij bevat informatie over de verschillende huizen in Boston op basis van misdaadcijfer, belasting, aantal kamers, enz. Het heeft 506 rijen en 14 verschillende variabelen in kolommen. U kunt deze dataset gebruiken om huizenprijzen te voorspellen.

Data Link: Boston dataset

Projectidee: Voorspel de huizenprijzen van een nieuw huis met behulp van lineaire regressie. Lineaire regressie wordt gebruikt om waarden van onbekende input te voorspellen wanneer de gegevens een of ander lineair verband hebben tussen input- en outputvariabelen.

Uber Pickups Dataset

De dataset heeft informatie over 4,5 miljoen Uber-pickups in New York City van april 2014 tot september 2014 en nog eens 14 miljoen van januari 2015 tot juni 2015. Gebruikers kunnen data-analyses uitvoeren en inzichten verzamelen uit de gegevens.

Data Link: Uber pickups dataset

Project Idee: Het analyseren van de gegevens van de klant ritten en visualiseren van de gegevens om inzichten te vinden die kunnen helpen bij het verbeteren van het bedrijf. Data-analyse en visualisatie is een belangrijk onderdeel van data science. Ze worden gebruikt om inzichten uit de gegevens te verzamelen, en met visualisatie kun je snel informatie uit de gegevens halen.

Recommender Systems Dataset

Dit is een portaal naar een verzameling van rijke datasets die zijn gebruikt in labonderzoeksprojecten aan UCSD. Het bevat verschillende datasets van populaire websites zoals Goodreads boekrecensies, Amazon productrecensies, bartending data, data van sociale media, enz. die gebruikt worden bij het bouwen van een recommender system.

Data Link: Recommender systems dataset

Projectidee: Bouw een productaanbevelingssysteem zoals Amazon. Een aanbevelingssysteem kan je producten, films, enz. voorstellen op basis van je interesses en de dingen die je leuk vindt en eerder hebt gebruikt.

Broncode: Movie Recommendation System Project

UCI Spambase Dataset

Het classificeren van e-mails als spam of niet-spam is een veelvoorkomende en nuttige taak. De dataset bevat 4601 emails en 57 meta-informatie over de emails. Je kunt modellen bouwen om de spam eruit te filteren.

Data Link: UCI spambase dataset

Projectidee: U kunt een model bouwen dat uw e-mails kan identificeren als spam of niet-spam.

GTSRB (Duitse verkeersbordherkenning benchmark) Dataset

De GTSRB dataset bevat ongeveer 50.000 afbeeldingen van verkeersborden die behoren tot 43 verschillende klassen en bevat informatie over de bounding box van elk bord. De dataset wordt gebruikt voor multiclass classificatie.

Data Link: GTSRB dataset

Artificial Intelligence Project Idee: Bouw een model met behulp van een deep learning framework dat verkeersborden classificeert en ook de bounding box van borden herkent. De verkeersbordenclassificatie is ook nuttig in autonome voertuigen voor het identificeren van borden en vervolgens het nemen van passende acties.

Broncode: Traffic Signs Recognition Python Project

Cityscapes Dataset

Dit is een open-source dataset voor Computer Vision projecten. Het bevat annotaties van hoge kwaliteit op pixelniveau van videosequenties genomen in 50 verschillende stadsstraten. De dataset is nuttig voor semantische segmentatie en het trainen van diepe neurale netwerken om de stedelijke scène te begrijpen.

Data Link: Cityscapes dataset

Project Idee: Het uitvoeren van beeldsegmentatie en het detecteren van verschillende objecten uit een video op de weg. Beeldsegmentatie is het proces van het digitaal opdelen van een beeld in verschillende categorieën zoals auto’s, bussen, mensen, bomen, wegen, enz.

15. Kinetics Dataset

Er zijn drie verschillende datasets voor Kinetics: Kinetics 400, Kinetics 600, en Kinetics 700 dataset. Dit is een grootschalige dataset die een URL-link bevat naar ongeveer 6,5 miljoen video’s van hoge kwaliteit.

Datalink: Kinetics dataset

Project Idee: Bouw een menselijk actieherkenningsmodel en detecteer de actie van een mens. Menselijke actieherkenning wordt herkend door een reeks observaties.

IMDB-Wiki dataset

De IMDB-Wiki dataset is een van de grootste open-source datasets voor gezichtsafbeeldingen met gelabeld geslacht en leeftijd. De afbeeldingen zijn verzameld van IMDB en Wikipedia. Het heeft 5 miljoen-plus gelabelde afbeeldingen.

Data Link: IMDB wiki dataset

Projectidee: Maak een model dat gezichten detecteert en hun geslacht en leeftijd voorspelt. U kunt categorieën in verschillende bereiken hebben, zoals 0-10, 10-20, 30-40, 50-60, enz.

Kleurdetectie Dataset

De dataset bevat een CSV-bestand met 865 kleurnamen met hun bijbehorende RGB-waarden (rood, groen en blauw) van de kleur. Het heeft ook de hexadecimale waarde van de kleur.

Data Link: Color Detection Dataset

Project Idee: De kleur dataset kan gebruikt worden om een kleur detectie app te maken waarin we een interface kunnen hebben om een kleur uit de afbeelding te kiezen en de app zal de naam van de kleur weergeven.

Broncode: Color Detection Python Project

Urban Sound 8K dataset

De stedelijke geluidsdataset bevat 8732 stedelijke geluiden uit 10 klassen zoals een airconditioner, hondengeblaf, boren, sirene, straatmuziek, enz. De dataset is populair voor stedelijk geluid classificatie problemen.

Data Link: Stedelijk Geluid 8K dataset

Project Idee: We kunnen een geluidsclassificatiesysteem bouwen om het type stedelijk geluid te detecteren dat op de achtergrond speelt. Dit helpt je aan de slag te gaan met audiodata en te begrijpen hoe je met ongestructureerde data kunt werken.

Librispeech Dataset

Deze dataset bevat een groot aantal Engelse speeches die zijn afgeleid van het LibriVox-project. Het bevat 1000 uur Engels-voorgelezen spraak in verschillende accenten. Het wordt gebruikt voor spraakherkenningsprojecten.

Data Link: Librispeech dataset

Project Idee: Bouw een spraakherkenningsmodel om te detecteren wat er gezegd wordt en zet dit om in tekst. Het doel van spraakherkenning is om automatisch te identificeren wat er wordt gezegd in de audio.

Breast Histopathology Images Dataset

Deze dataset bevat 2,77,524 beelden van grootte 50×50 uit 162 mount dia beelden van borstkanker specimens gescand op 40x. Er zijn 1.98.738 negatieve testen en 78.786 positieve testen met IDC.

Data Link: Borst histopathologie dataset

Project Idee: Een model bouwen dat borstkanker kan classificeren. U bouwt een beeldclassificatiemodel met Convolutionele neurale netwerken.

Broncode: Breast Cancer Classification Python Project

Youtube 8M Dataset

De youtube 8M dataset is een grootschalige gelabelde video dataset die 6,1 miljoen Youtube video ids, 350.000 uur video, 2,6 miljard audio/visuele kenmerken, 3862 klassen, en 3 avg labels per video heeft. Het wordt gebruikt voor video classificatie doeleinden.

Data Link: Youtube 8M

Project Idee: Video classificatie kan worden gedaan door gebruik te maken van de dataset, en het model kan beschrijven waar video over gaat. Een video neemt een reeks inputs om te classificeren in welke categorie de video thuishoort.

EndNote

In dit artikel zagen we meer dan 20 machine learning datasets die u kunt gebruiken om machine learning of data science te oefenen. Zelf een dataset maken is duur, dus kunnen we de datasets van anderen gebruiken om ons werk te doen. Maar we moeten de documenten van de dataset zorgvuldig lezen, want sommige datasets zijn gratis, terwijl je voor sommige datasets krediet moet geven aan de eigenaar zoals door hen aangegeven.

Bio: Shivashish Thaku is een analist en schrijver van technische inhoud. Hij is een technologiefreak die ervan houdt om te schrijven over de nieuwste geavanceerde technologieën die de wereld veranderen. Hij is ook een sportfan die graag voetbal speelt en kijkt.

Related:

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.