20+ Machine Learning Datasets & Project Ideas

By Shivashish Thakur, Digital Marketing, DataFlair.

Um ein perfektes Modell zu erstellen, benötigt man eine große Menge an Daten. Aber den richtigen Datensatz für Ihr maschinelles Lernen und Data-Science-Projekt zu finden, ist manchmal eine ziemlich schwierige Aufgabe. Es gibt viele Organisationen, Forscher und Einzelpersonen, die ihre Arbeit geteilt haben, und wir werden ihre Datensätze verwenden, um unser Projekt zu erstellen.

In diesem Artikel werden wir also 20+ Maschinelles Lernen und Data Science-Datensätze und Projektideen besprechen, die Sie zum Üben und Verbessern Ihrer Fähigkeiten verwenden können.

Enron Email Dataset

Der Enron-Datensatz ist in der natürlichen Sprachverarbeitung sehr beliebt. Er enthält mehr als 500K E-Mails von über 150 Benutzern. Die Größe der Daten beträgt ca. 432Mb. Von den 150 Nutzern sind die meisten das Senior Management von Enron.

Data Link: Enron email dataset

Projektidee: Mit Hilfe von k-means clustering kann man ein Modell erstellen, um betrügerische Aktivitäten zu erkennen. K-means clustering ist ein unüberwachter Algorithmus für maschinelles Lernen. Er teilt die Beobachtungen in eine Anzahl von k Clustern ein, die auf ähnlichen Mustern in den Daten basieren.

Datensatz für Chatbot-Intentionen

Der Datensatz für einen Chatbot ist eine JSON-Datei, die verschiedene Tags wie „Goodbye“, „Greetings“, „pharmacy_search“, „hospital_search“, usw. enthält. Jedes Tag enthält eine Liste von Mustern, die ein Benutzer fragen kann, und der Chatbot wird entsprechend diesem Muster antworten. Der Datensatz ist perfekt, um zu verstehen, wie Chatbot-Daten funktionieren.

Data Link: Intents JSON Dataset

Projektidee: Sie können einen Chatbot bauen oder die Funktionsweise eines Chatbots verstehen, indem Sie die Daten mit Ihren Beobachtungen verdrehen und erweitern. Um einen eigenen Chatbot zu bauen, muss man gute Kenntnisse über Konzepte der natürlichen Sprachverarbeitung haben.

Quellcode: Chatbot Project in Python

Flickr 30k Dataset

Der Flickr 30k Dataset hat über 30.000 Bilder, und jedes Bild ist mit verschiedenen Beschriftungen versehen. Dieser Datensatz wird verwendet, um einen Generator für Bildunterschriften zu erstellen. Und dieser Datensatz ist eine verbesserte Version von Flickr 8k, die zur Erstellung genauerer Modelle verwendet wird.

Datenlink: Flickr image dataset

Projektidee: Sie können ein CNN-Modell erstellen, das sich hervorragend für die Analyse und Extraktion von Merkmalen aus dem Bild eignet und einen englischen Satz generiert, der das Bild beschreibt, der Caption genannt wird.

Parkinson Dataset

Parkinson ist eine Krankheit, die eine Störung des Nervensystems verursachen kann und die Bewegung beeinflusst. Der Parkinson-Datensatz enthält biomedizinische Messungen, 195 Datensätze von Personen mit 23 verschiedenen Attributen. Diese Daten werden zur Unterscheidung zwischen gesunden Personen und Personen mit Parkinson-Krankheit verwendet.

Data Link: Parkinson-Datensatz

Projektidee: Sie können ein Modell erstellen, mit dem gesunde Menschen von Menschen mit Parkinson-Krankheit unterschieden werden können. Der Algorithmus, der sich für diesen Zweck eignet, ist XGboost, was für Extreme Gradient Boosting steht und auf Entscheidungsbäumen basiert.

Source Code: ML Project on Detecting Parkinson’s Disease

Iris Dataset

Der Iris-Datensatz ist ein anfängerfreundlicher Datensatz, der Informationen über die Größe der Blütenblätter und Kelchblätter enthält. Dieser Datensatz hat 3 Klassen mit 50 Instanzen in jeder Klasse, enthält also nur 150 Zeilen mit 4 Spalten.

Data Link: Iris-Datensatz

Projektidee: Klassifizierung ist die Aufgabe, Elemente in ihre entsprechende Klasse einzuteilen. Sie können ein maschinelles Lernklassifizierungs- oder Regressionsmodell auf dem Datensatz implementieren.

ImageNet dataset

ImageNet ist eine große Bilddatenbank, die nach der Worthierarchie organisiert ist. Sie enthält über 100.000 Phrasen und durchschnittlich 1000 Bilder pro Phrase. Die Größe übersteigt 150 GB. Sie eignet sich für Bilderkennung, Gesichtserkennung, Objekterkennung usw. Außerdem wird ein anspruchsvoller Wettbewerb namens ILSVRC veranstaltet, bei dem die Teilnehmer immer genauere Modelle erstellen können.

Datenlink: Imagenet Dataset

Projektidee: Bildklassifizierung auf dieser riesigen Datenbank zu implementieren und Objekte zu erkennen. CNN-Modelle (Convolutional Neural Networks) sind für dieses Projekt notwendig, um genaue Ergebnisse zu erzielen.

7. Mall Customers Dataset

Das Mall Customers Dataset enthält die Details über die Besucher des Einkaufszentrums. Der Datensatz enthält das Alter, die Kundennummer, das Geschlecht, das Jahreseinkommen und die Ausgabenquote. Es gewinnt Erkenntnisse aus den Daten und teilt die Kunden anhand ihres Verhaltens in verschiedene Gruppen ein.

Datensatz-Link: Mall-Kunden-Datensatz

Projektidee: Segmentieren Sie die Kunden anhand ihres Geschlechts, Alters und ihrer Interessen. Das ist nützlich für ein individuelles Marketing. Kundensegmentierung ist eine wichtige Praxis der Aufteilung von Kunden auf der Grundlage einzelner Gruppen, die ähnlich sind.

Source Code: Kundensegmentierung mit maschinellem Lernen.

Google Trends Datenportal

Google Trends Daten können verwendet werden, um die Daten visuell zu untersuchen und zu analysieren. Sie können den Datensatz auch mit einem einfachen Klick in CSV-Dateien herunterladen. Man kann herausfinden, was im Trend liegt und wonach die Leute suchen.

Datenlink: Google trends datasets

The Boston Housing Dataset

Dies ist ein beliebter Datensatz, der in der Mustererkennung verwendet wird. Er enthält Informationen über die verschiedenen Häuser in Boston auf der Grundlage von Kriminalitätsrate, Steuern, Anzahl der Zimmer usw. Er hat 506 Zeilen und 14 verschiedene Variablen in Spalten. Sie können diesen Datensatz verwenden, um Hauspreise vorherzusagen.

Data Link: Boston dataset

Projektidee: Sagen Sie die Immobilienpreise für ein neues Haus mithilfe der linearen Regression voraus. Lineare Regression wird verwendet, um Werte unbekannter Eingaben vorherzusagen, wenn die Daten eine lineare Beziehung zwischen Eingabe- und Ausgabevariablen aufweisen.

Uber Pickups Dataset

Der Datensatz enthält Informationen über 4,5 Millionen Uber-Abholungen in New York City von April 2014 bis September 2014 und 14 Millionen weitere von Januar 2015 bis Juni 2015. Nutzer können Datenanalysen durchführen und Erkenntnisse aus den Daten gewinnen.

Data Link: Uber Pickups Dataset

Projektidee: Analyse der Daten der Kundenfahrten und Visualisierung der Daten, um Erkenntnisse zu gewinnen, die zur Verbesserung des Geschäfts beitragen können. Die Datenanalyse und -visualisierung ist ein wichtiger Teil der Datenwissenschaft. Sie werden verwendet, um Erkenntnisse aus den Daten zu gewinnen, und mit der Visualisierung kann man schnell Informationen aus den Daten erhalten.

Recommender Systems Dataset

Dies ist ein Portal zu einer Sammlung von umfangreichen Datensätzen, die in Laborforschungsprojekten an der UCSD verwendet wurden. Es enthält verschiedene Datensätze von beliebten Websites wie Goodreads-Buchrezensionen, Amazon-Produktrezensionen, Barkeeperdaten, Daten aus sozialen Medien usw., die beim Aufbau eines Empfehlungssystems verwendet werden.

Data Link: Recommender Systems Dataset

Projektidee: Bauen Sie ein Produktempfehlungssystem wie Amazon. Ein Empfehlungssystem kann dir Produkte, Filme, etc. vorschlagen, basierend auf deinen Interessen und den Dingen, die du magst und schon benutzt hast.

Source Code: Movie Recommendation System Project

UCI Spambase Dataset

Die Klassifizierung von E-Mails als Spam oder Nicht-Spam ist eine sehr häufige und nützliche Aufgabe. Der Datensatz enthält 4601 E-Mails und 57 Meta-Informationen über die E-Mails. Sie können Modelle erstellen, um Spam herauszufiltern.

Datenlink: UCI spambase dataset

Projektidee: Sie können ein Modell erstellen, das Ihre E-Mails als Spam oder Nicht-Spam identifizieren kann.

GTSRB (German traffic sign recognition benchmark) Dataset

Der GTSRB-Datensatz enthält etwa 50.000 Bilder von Verkehrsschildern, die zu 43 verschiedenen Klassen gehören, und enthält Informationen über die Bounding Box jedes Schildes. Der Datensatz wird für die Multiklassenklassifikation verwendet.

Datenlink: GTSRB-Datensatz

Künstliche Intelligenz Projektidee: Erstellung eines Modells unter Verwendung eines Deep-Learning-Frameworks, das Verkehrsschilder klassifiziert und auch die Bounding Box der Schilder erkennt. Die Klassifizierung von Verkehrsschildern ist auch in autonomen Fahrzeugen nützlich, um Schilder zu erkennen und dann entsprechende Maßnahmen zu ergreifen.

Quellcode: Traffic Signs Recognition Python Project

Cityscapes Dataset

Dies ist ein Open-Source-Datensatz für Computer Vision Projekte. Er enthält hochwertige Annotationen auf Pixelebene von Videosequenzen, die in 50 verschiedenen Stadtstraßen aufgenommen wurden. Der Datensatz ist nützlich für die semantische Segmentierung und das Training tiefer neuronaler Netze, um die städtische Szene zu verstehen.

Data Link: Cityscapes dataset

Projektidee: Durchführung von Bildsegmentierung und Erkennung verschiedener Objekte aus einem Video auf der Straße. Bildsegmentierung ist der Prozess der digitalen Aufteilung eines Bildes in verschiedene Kategorien wie Autos, Busse, Menschen, Bäume, Straßen usw.

15. Kinetics-Datensatz

Es gibt drei verschiedene Datensätze für Kinetics: Kinetics 400, Kinetics 600 und Kinetics 700 Datensatz. Dies ist ein großer Datensatz, der einen URL-Link zu etwa 6,5 Millionen qualitativ hochwertigen Videos enthält.

Datenlink: Kinetics dataset

Projektidee: Aufbau eines Modells zur Erkennung menschlicher Handlungen und Erkennung der Handlungen eines Menschen. Die Erkennung menschlicher Handlungen erfolgt durch eine Reihe von Beobachtungen.

IMDB-Wiki-Datensatz

Der IMDB-Wiki-Datensatz ist einer der größten Open-Source-Datensätze für Gesichtsbilder mit beschriftetem Geschlecht und Alter. Die Bilder werden von IMDB und Wikipedia gesammelt. Er umfasst mehr als 5 Millionen beschriftete Bilder.

Data Link: IMDB wiki dataset

Projektidee: Erstellen Sie ein Modell, das Gesichter erkennt und ihr Geschlecht und Alter vorhersagt. Sie können Kategorien in verschiedenen Bereichen haben, wie 0-10, 10-20, 30-40, 50-60, usw.

Datensatz zur Farberkennung

Der Datensatz enthält eine CSV-Datei mit 865 Farbnamen und den entsprechenden RGB-Werten (rot, grün und blau) der Farbe. Sie enthält auch den hexadezimalen Wert der Farbe.

Datenlink: Color Detection Dataset

Projektidee: Der Farbdatensatz kann verwendet werden, um eine Farberkennungs-App zu erstellen, in der wir eine Schnittstelle haben können, um eine Farbe aus dem Bild auszuwählen, und die App wird den Namen der Farbe anzeigen.

Source Code: Color Detection Python Project

Urban Sound 8K dataset

Der städtische Sound-Datensatz enthält 8732 städtische Geräusche aus 10 Klassen wie eine Klimaanlage, Hundegebell, Bohren, Sirene, Straßenmusik, etc. Der Datensatz ist für die Klassifizierung von Stadtgeräuschen beliebt.

Datenlink: Urban Sound 8K dataset

Projektidee: Wir können ein Sound-Klassifizierungssystem aufbauen, um die Art des urbanen Sounds zu erkennen, der im Hintergrund spielt. Dies wird Ihnen helfen, mit Audiodaten zu beginnen und zu verstehen, wie man mit unstrukturierten Daten arbeitet.

Librispeech Dataset

Dieser Datensatz enthält eine große Anzahl englischer Reden, die aus dem LibriVox-Projekt stammen. Er enthält 1000 Stunden englischsprachige Sprache in verschiedenen Akzenten. Er wird für Spracherkennungsprojekte verwendet.

Data Link: Librispeech dataset

Projektidee: Erstellen eines Spracherkennungsmodells, um zu erkennen, was gesagt wird und es in Text umzuwandeln. Das Ziel der Spracherkennung ist es, automatisch zu erkennen, was im Audio gesprochen wird.

Breast Histopathology Images Dataset

Dieser Datensatz enthält 2.77.524 Bilder der Größe 50×50, die aus 162 Diapositivbildern von Brustkrebsproben extrahiert wurden, die mit 40x gescannt wurden. Es gibt 1.98.738 negative Tests und 78.786 positive Tests mit IDC.

Data Link: Breast Histopathology Dataset

Projektidee: Erstellen eines Modells, das Brustkrebs klassifizieren kann. Sie bauen ein Bildklassifizierungsmodell mit Convolutional Neural Networks.

Source Code: Breast Cancer Classification Python Project

Youtube 8M Dataset

Der youtube 8M Dataset ist ein groß angelegter, beschrifteter Videodatensatz mit 6,1 Millionen Youtube-Videonummern, 350.000 Stunden Video, 2,6 Milliarden audio/visuellen Merkmalen, 3862 Klassen und 3 durchschnittlichen Beschriftungen pro Video. Sie wird für die Klassifizierung von Videos verwendet.

Datenlink: Youtube 8M

Projektidee: Mit Hilfe des Datensatzes kann eine Videoklassifizierung durchgeführt werden, und das Modell kann beschreiben, worum es in dem Video geht. Ein Video benötigt eine Reihe von Eingaben, um zu klassifizieren, in welche Kategorie das Video gehört.

EndNote

In diesem Artikel haben wir mehr als 20 Datensätze für maschinelles Lernen gesehen, die Sie verwenden können, um maschinelles Lernen oder Data Science zu üben. Die Erstellung eines eigenen Datensatzes ist teuer, also können wir die Datensätze anderer Leute verwenden, um unsere Arbeit zu erledigen. Aber wir sollten die Dokumente des Datensatzes sorgfältig lesen, denn einige Datensätze sind kostenlos, während man bei anderen Datensätzen den Eigentümern die von ihnen angegebene Ehre erweisen muss.

Bio: Shivashish Thaku ist Analyst und Autor technischer Inhalte. Er ist ein Technikfreak, der gerne über die neuesten Spitzentechnologien schreibt, die die Welt verändern. Er ist auch ein Sportfan, der gerne Fußball spielt und schaut.

Verwandtes:

KDnuggets