By Shivashish Thakur, Digital Marketing, DataFlair.
Um ein perfektes Modell zu erstellen, benötigt man eine große Menge an Daten. Aber den richtigen Datensatz für Ihr maschinelles Lernen und Data-Science-Projekt zu finden, ist manchmal eine ziemlich schwierige Aufgabe. Es gibt viele Organisationen, Forscher und Einzelpersonen, die ihre Arbeit geteilt haben, und wir werden ihre Datensätze verwenden, um unser Projekt zu erstellen.
In diesem Artikel werden wir also 20+ Maschinelles Lernen und Data Science-Datensätze und Projektideen besprechen, die Sie zum Üben und Verbessern Ihrer Fähigkeiten verwenden können.
- Enron Email Dataset
- Datensatz für Chatbot-Intentionen
- Flickr 30k Dataset
- Parkinson Dataset
- Iris Dataset
- ImageNet dataset
- 7. Mall Customers Dataset
- Google Trends Datenportal
- The Boston Housing Dataset
- Uber Pickups Dataset
- Recommender Systems Dataset
- UCI Spambase Dataset
- GTSRB (German traffic sign recognition benchmark) Dataset
- Cityscapes Dataset
- 15. Kinetics-Datensatz
- IMDB-Wiki-Datensatz
- Datensatz zur Farberkennung
- Urban Sound 8K dataset
- Librispeech Dataset
- Breast Histopathology Images Dataset
- Youtube 8M Dataset
- EndNote
Enron Email Dataset
Der Enron-Datensatz ist in der natürlichen Sprachverarbeitung sehr beliebt. Er enthält mehr als 500K E-Mails von über 150 Benutzern. Die Größe der Daten beträgt ca. 432Mb. Von den 150 Nutzern sind die meisten das Senior Management von Enron.
Data Link: Enron email dataset
Projektidee: Mit Hilfe von k-means clustering kann man ein Modell erstellen, um betrügerische Aktivitäten zu erkennen. K-means clustering ist ein unüberwachter Algorithmus für maschinelles Lernen. Er teilt die Beobachtungen in eine Anzahl von k Clustern ein, die auf ähnlichen Mustern in den Daten basieren.
Datensatz für Chatbot-Intentionen
Der Datensatz für einen Chatbot ist eine JSON-Datei, die verschiedene Tags wie „Goodbye“, „Greetings“, „pharmacy_search“, „hospital_search“, usw. enthält. Jedes Tag enthält eine Liste von Mustern, die ein Benutzer fragen kann, und der Chatbot wird entsprechend diesem Muster antworten. Der Datensatz ist perfekt, um zu verstehen, wie Chatbot-Daten funktionieren.
Data Link: Intents JSON Dataset
Projektidee: Sie können einen Chatbot bauen oder die Funktionsweise eines Chatbots verstehen, indem Sie die Daten mit Ihren Beobachtungen verdrehen und erweitern. Um einen eigenen Chatbot zu bauen, muss man gute Kenntnisse über Konzepte der natürlichen Sprachverarbeitung haben.
Quellcode: Chatbot Project in Python
Flickr 30k Dataset
Der Flickr 30k Dataset hat über 30.000 Bilder, und jedes Bild ist mit verschiedenen Beschriftungen versehen. Dieser Datensatz wird verwendet, um einen Generator für Bildunterschriften zu erstellen. Und dieser Datensatz ist eine verbesserte Version von Flickr 8k, die zur Erstellung genauerer Modelle verwendet wird.
Datenlink: Flickr image dataset
Projektidee: Sie können ein CNN-Modell erstellen, das sich hervorragend für die Analyse und Extraktion von Merkmalen aus dem Bild eignet und einen englischen Satz generiert, der das Bild beschreibt, der Caption genannt wird.
Parkinson Dataset
Parkinson ist eine Krankheit, die eine Störung des Nervensystems verursachen kann und die Bewegung beeinflusst. Der Parkinson-Datensatz enthält biomedizinische Messungen, 195 Datensätze von Personen mit 23 verschiedenen Attributen. Diese Daten werden zur Unterscheidung zwischen gesunden Personen und Personen mit Parkinson-Krankheit verwendet.
Data Link: Parkinson-Datensatz
Projektidee: Sie können ein Modell erstellen, mit dem gesunde Menschen von Menschen mit Parkinson-Krankheit unterschieden werden können. Der Algorithmus, der sich für diesen Zweck eignet, ist XGboost, was für Extreme Gradient Boosting steht und auf Entscheidungsbäumen basiert.
Source Code: ML Project on Detecting Parkinson’s Disease
Iris Dataset
Der Iris-Datensatz ist ein anfängerfreundlicher Datensatz, der Informationen über die Größe der Blütenblätter und Kelchblätter enthält. Dieser Datensatz hat 3 Klassen mit 50 Instanzen in jeder Klasse, enthält also nur 150 Zeilen mit 4 Spalten.
Data Link: Iris-Datensatz
Projektidee: Klassifizierung ist die Aufgabe, Elemente in ihre entsprechende Klasse einzuteilen. Sie können ein maschinelles Lernklassifizierungs- oder Regressionsmodell auf dem Datensatz implementieren.
ImageNet dataset
ImageNet ist eine große Bilddatenbank, die nach der Worthierarchie organisiert ist. Sie enthält über 100.000 Phrasen und durchschnittlich 1000 Bilder pro Phrase. Die Größe übersteigt 150 GB. Sie eignet sich für Bilderkennung, Gesichtserkennung, Objekterkennung usw. Außerdem wird ein anspruchsvoller Wettbewerb namens ILSVRC veranstaltet, bei dem die Teilnehmer immer genauere Modelle erstellen können.
Datenlink: Imagenet Dataset
Projektidee: Bildklassifizierung auf dieser riesigen Datenbank zu implementieren und Objekte zu erkennen. CNN-Modelle (Convolutional Neural Networks) sind für dieses Projekt notwendig, um genaue Ergebnisse zu erzielen.
7. Mall Customers Dataset
Das Mall Customers Dataset enthält die Details über die Besucher des Einkaufszentrums. Der Datensatz enthält das Alter, die Kundennummer, das Geschlecht, das Jahreseinkommen und die Ausgabenquote. Es gewinnt Erkenntnisse aus den Daten und teilt die Kunden anhand ihres Verhaltens in verschiedene Gruppen ein.
Datensatz-Link: Mall-Kunden-Datensatz
Projektidee: Segmentieren Sie die Kunden anhand ihres Geschlechts, Alters und ihrer Interessen. Das ist nützlich für ein individuelles Marketing. Kundensegmentierung ist eine wichtige Praxis der Aufteilung von Kunden auf der Grundlage einzelner Gruppen, die ähnlich sind.
Source Code: Kundensegmentierung mit maschinellem Lernen.
Google Trends Datenportal
Google Trends Daten können verwendet werden, um die Daten visuell zu untersuchen und zu analysieren. Sie können den Datensatz auch mit einem einfachen Klick in CSV-Dateien herunterladen. Man kann herausfinden, was im Trend liegt und wonach die Leute suchen.
Datenlink: Google trends datasets
The Boston Housing Dataset
Dies ist ein beliebter Datensatz, der in der Mustererkennung verwendet wird. Er enthält Informationen über die verschiedenen Häuser in Boston auf der Grundlage von Kriminalitätsrate, Steuern, Anzahl der Zimmer usw. Er hat 506 Zeilen und 14 verschiedene Variablen in Spalten. Sie können diesen Datensatz verwenden, um Hauspreise vorherzusagen.
Data Link: Boston dataset
Projektidee: Sagen Sie die Immobilienpreise für ein neues Haus mithilfe der linearen Regression voraus. Lineare Regression wird verwendet, um Werte unbekannter Eingaben vorherzusagen, wenn die Daten eine lineare Beziehung zwischen Eingabe- und Ausgabevariablen aufweisen.
Uber Pickups Dataset
Der Datensatz enthält Informationen über 4,5 Millionen Uber-Abholungen in New York City von April 2014 bis September 2014 und 14 Millionen weitere von Januar 2015 bis Juni 2015. Nutzer können Datenanalysen durchführen und Erkenntnisse aus den Daten gewinnen.
Data Link: Uber Pickups Dataset
Projektidee: Analyse der Daten der Kundenfahrten und Visualisierung der Daten, um Erkenntnisse zu gewinnen, die zur Verbesserung des Geschäfts beitragen können. Die Datenanalyse und -visualisierung ist ein wichtiger Teil der Datenwissenschaft. Sie werden verwendet, um Erkenntnisse aus den Daten zu gewinnen, und mit der Visualisierung kann man schnell Informationen aus den Daten erhalten.
Recommender Systems Dataset
Dies ist ein Portal zu einer Sammlung von umfangreichen Datensätzen, die in Laborforschungsprojekten an der UCSD verwendet wurden. Es enthält verschiedene Datensätze von beliebten Websites wie Goodreads-Buchrezensionen, Amazon-Produktrezensionen, Barkeeperdaten, Daten aus sozialen Medien usw., die beim Aufbau eines Empfehlungssystems verwendet werden.
Data Link: Recommender Systems Dataset
Projektidee: Bauen Sie ein Produktempfehlungssystem wie Amazon. Ein Empfehlungssystem kann dir Produkte, Filme, etc. vorschlagen, basierend auf deinen Interessen und den Dingen, die du magst und schon benutzt hast.
Source Code: Movie Recommendation System Project
UCI Spambase Dataset
Die Klassifizierung von E-Mails als Spam oder Nicht-Spam ist eine sehr häufige und nützliche Aufgabe. Der Datensatz enthält 4601 E-Mails und 57 Meta-Informationen über die E-Mails. Sie können Modelle erstellen, um Spam herauszufiltern.
Datenlink: UCI spambase dataset
Projektidee: Sie können ein Modell erstellen, das Ihre E-Mails als Spam oder Nicht-Spam identifizieren kann.
GTSRB (German traffic sign recognition benchmark) Dataset
Der GTSRB-Datensatz enthält etwa 50.000 Bilder von Verkehrsschildern, die zu 43 verschiedenen Klassen gehören, und enthält Informationen über die Bounding Box jedes Schildes. Der Datensatz wird für die Multiklassenklassifikation verwendet.
Datenlink: GTSRB-Datensatz
Künstliche Intelligenz Projektidee: Erstellung eines Modells unter Verwendung eines Deep-Learning-Frameworks, das Verkehrsschilder klassifiziert und auch die Bounding Box der Schilder erkennt. Die Klassifizierung von Verkehrsschildern ist auch in autonomen Fahrzeugen nützlich, um Schilder zu erkennen und dann entsprechende Maßnahmen zu ergreifen.
Quellcode: Traffic Signs Recognition Python Project
Cityscapes Dataset
Dies ist ein Open-Source-Datensatz für Computer Vision Projekte. Er enthält hochwertige Annotationen auf Pixelebene von Videosequenzen, die in 50 verschiedenen Stadtstraßen aufgenommen wurden. Der Datensatz ist nützlich für die semantische Segmentierung und das Training tiefer neuronaler Netze, um die städtische Szene zu verstehen.
Data Link: Cityscapes dataset
Projektidee: Durchführung von Bildsegmentierung und Erkennung verschiedener Objekte aus einem Video auf der Straße. Bildsegmentierung ist der Prozess der digitalen Aufteilung eines Bildes in verschiedene Kategorien wie Autos, Busse, Menschen, Bäume, Straßen usw.
15. Kinetics-Datensatz
Es gibt drei verschiedene Datensätze für Kinetics: Kinetics 400, Kinetics 600 und Kinetics 700 Datensatz. Dies ist ein großer Datensatz, der einen URL-Link zu etwa 6,5 Millionen qualitativ hochwertigen Videos enthält.
Datenlink: Kinetics dataset
Projektidee: Aufbau eines Modells zur Erkennung menschlicher Handlungen und Erkennung der Handlungen eines Menschen. Die Erkennung menschlicher Handlungen erfolgt durch eine Reihe von Beobachtungen.
IMDB-Wiki-Datensatz
Der IMDB-Wiki-Datensatz ist einer der größten Open-Source-Datensätze für Gesichtsbilder mit beschriftetem Geschlecht und Alter. Die Bilder werden von IMDB und Wikipedia gesammelt. Er umfasst mehr als 5 Millionen beschriftete Bilder.
Data Link: IMDB wiki dataset
Projektidee: Erstellen Sie ein Modell, das Gesichter erkennt und ihr Geschlecht und Alter vorhersagt. Sie können Kategorien in verschiedenen Bereichen haben, wie 0-10, 10-20, 30-40, 50-60, usw.
Datensatz zur Farberkennung
Der Datensatz enthält eine CSV-Datei mit 865 Farbnamen und den entsprechenden RGB-Werten (rot, grün und blau) der Farbe. Sie enthält auch den hexadezimalen Wert der Farbe.
Datenlink: Color Detection Dataset
Projektidee: Der Farbdatensatz kann verwendet werden, um eine Farberkennungs-App zu erstellen, in der wir eine Schnittstelle haben können, um eine Farbe aus dem Bild auszuwählen, und die App wird den Namen der Farbe anzeigen.
Source Code: Color Detection Python Project
Urban Sound 8K dataset
Der städtische Sound-Datensatz enthält 8732 städtische Geräusche aus 10 Klassen wie eine Klimaanlage, Hundegebell, Bohren, Sirene, Straßenmusik, etc. Der Datensatz ist für die Klassifizierung von Stadtgeräuschen beliebt.
Datenlink: Urban Sound 8K dataset
Projektidee: Wir können ein Sound-Klassifizierungssystem aufbauen, um die Art des urbanen Sounds zu erkennen, der im Hintergrund spielt. Dies wird Ihnen helfen, mit Audiodaten zu beginnen und zu verstehen, wie man mit unstrukturierten Daten arbeitet.
Librispeech Dataset
Dieser Datensatz enthält eine große Anzahl englischer Reden, die aus dem LibriVox-Projekt stammen. Er enthält 1000 Stunden englischsprachige Sprache in verschiedenen Akzenten. Er wird für Spracherkennungsprojekte verwendet.
Data Link: Librispeech dataset
Projektidee: Erstellen eines Spracherkennungsmodells, um zu erkennen, was gesagt wird und es in Text umzuwandeln. Das Ziel der Spracherkennung ist es, automatisch zu erkennen, was im Audio gesprochen wird.
Breast Histopathology Images Dataset
Dieser Datensatz enthält 2.77.524 Bilder der Größe 50×50, die aus 162 Diapositivbildern von Brustkrebsproben extrahiert wurden, die mit 40x gescannt wurden. Es gibt 1.98.738 negative Tests und 78.786 positive Tests mit IDC.
Data Link: Breast Histopathology Dataset
Projektidee: Erstellen eines Modells, das Brustkrebs klassifizieren kann. Sie bauen ein Bildklassifizierungsmodell mit Convolutional Neural Networks.
Source Code: Breast Cancer Classification Python Project
Youtube 8M Dataset
Der youtube 8M Dataset ist ein groß angelegter, beschrifteter Videodatensatz mit 6,1 Millionen Youtube-Videonummern, 350.000 Stunden Video, 2,6 Milliarden audio/visuellen Merkmalen, 3862 Klassen und 3 durchschnittlichen Beschriftungen pro Video. Sie wird für die Klassifizierung von Videos verwendet.
Datenlink: Youtube 8M
Projektidee: Mit Hilfe des Datensatzes kann eine Videoklassifizierung durchgeführt werden, und das Modell kann beschreiben, worum es in dem Video geht. Ein Video benötigt eine Reihe von Eingaben, um zu klassifizieren, in welche Kategorie das Video gehört.
EndNote
In diesem Artikel haben wir mehr als 20 Datensätze für maschinelles Lernen gesehen, die Sie verwenden können, um maschinelles Lernen oder Data Science zu üben. Die Erstellung eines eigenen Datensatzes ist teuer, also können wir die Datensätze anderer Leute verwenden, um unsere Arbeit zu erledigen. Aber wir sollten die Dokumente des Datensatzes sorgfältig lesen, denn einige Datensätze sind kostenlos, während man bei anderen Datensätzen den Eigentümern die von ihnen angegebene Ehre erweisen muss.
Bio: Shivashish Thaku ist Analyst und Autor technischer Inhalte. Er ist ein Technikfreak, der gerne über die neuesten Spitzentechnologien schreibt, die die Welt verändern. Er ist auch ein Sportfan, der gerne Fußball spielt und schaut.
Verwandtes: