20+ Machine Learning Datasets & Project Ideas

By Shivashish Thakur, Digital Marketing, DataFlair.

Aby zbudować doskonały model, potrzebujesz dużej ilości danych. Ale znalezienie odpowiedniego zbioru danych dla projektu uczenia maszynowego i nauki o danych jest czasami dość trudnym zadaniem. Istnieje wiele organizacji, naukowców i osób prywatnych, które podzieliły się swoją pracą, a my użyjemy ich zbiorów danych do zbudowania naszego projektu.

W tym artykule omówimy 20+ uczenia maszynowego i Data Science zbiorów danych i pomysłów na projekty, które możesz wykorzystać do ćwiczenia i podnoszenia swoich umiejętności.

Enron Email Dataset

Enron Dataset jest popularny w przetwarzaniu języka naturalnego. Zawiera ponad 500K emaili od ponad 150 użytkowników. Rozmiar danych to około 432Mb. Spośród 150 użytkowników, większość z nich to wyższa kadra zarządzająca Enronu.

Data Link: Enron email dataset

Project Idea: Używając klasteryzacji k-średnich, można zbudować model do wykrywania oszustw. Klasteryzacja k-średnich jest algorytmem uczenia maszynowego bez nadzoru. Rozdziela on obserwacje na k-kilka klastrów na podstawie podobnych wzorców w danych.

Chatbot Intents Dataset

Zbiór danych dla chatbota to plik JSON, który posiada rozbieżne tagi, takie jak goodbye, greetings, pharmacy_search, hospital_search, itp. Każdy tag ma listę wzorców, które użytkownik może zadać, a chatbot odpowie zgodnie z tym wzorcem. Zestaw danych jest idealny do zrozumienia jak działają dane chatbota.

Data Link: Intents JSON Dataset

Pomysł na projekt: Możesz zbudować chatbota lub zrozumieć działanie chatbota, przekręcając i rozszerzając dane o swoje obserwacje. Aby zbudować własnego Chatbota, musisz mieć dobrą znajomość koncepcji przetwarzania języka naturalnego.

Source Code: Chatbot Project in Python

Flickr 30k Dataset

Zbiór danych Flickr 30k zawiera ponad 30 000 obrazów, a każdy obraz jest oznaczony różnymi podpisami. Ten zbiór danych jest używany do budowania generatora podpisów do obrazów. A ten zbiór danych jest ulepszoną wersją Flickr 8k używaną do budowania dokładniejszych modeli.

Data Link: Flickr image dataset

Project Idea: Możesz zbudować model CNN, który jest świetny do analizowania i wydobywania cech z obrazu i generowania angielskiego zdania, które opisuje obraz, który jest nazywany Caption.

Parkinson Dataset

Parkinson’s jest chorobą, która może powodować zaburzenia układu nerwowego i wpływa na ruch. Zbiór danych Parkinson zawiera pomiary biomedyczne, 195 rekordów osób z 23 różnymi atrybutami. Dane te są wykorzystywane do różnicowania osób zdrowych i osób z chorobą Parkinsona.

Data Link: Parkinson dataset

Project Idea: Możesz zbudować model, który może być użyty do różnicowania osób zdrowych od osób z chorobą Parkinsona. Algorytm, który jest przydatny do tego celu to XGboost, który oznacza extreme gradient boosting i jest oparty na drzewach decyzyjnych.

Source Code: ML Project on Detecting Parkinson’s Disease

Iris Dataset

Zbiór danych irysów jest przyjaznym dla początkujących zbiorem danych, który posiada informacje o rozmiarach płatków i działek kwiatu. Ten zbiór danych ma 3 klasy z 50 instancjami w każdej klasie, więc zawiera tylko 150 wierszy z 4 kolumnami.

Data Link: Iris dataset

Project Idea: Klasyfikacja to zadanie polegające na rozdzieleniu elementów do odpowiadającej im klasy. Możesz zaimplementować uczenie maszynowe klasyfikacji lub model regresji na zbiorze danych.

ImageNet dataset

ImageNet jest dużą bazą danych obrazów, która jest zorganizowana zgodnie z hierarchią wordnet. Posiada ponad 100 000 fraz i średnio 1000 obrazów na frazę. Jej rozmiar przekracza 150 GB. Nadaje się do rozpoznawania obrazów, rozpoznawania twarzy, wykrywania obiektów itp. Jest również gospodarzem konkursu ILSVRC dla ludzi, którzy chcą budować coraz dokładniejsze modele.

Data Link: Imagenet Dataset

Project Idea: Zaimplementować klasyfikację obrazów na tej ogromnej bazie danych i rozpoznawać obiekty. Model CNN (Convolutional neural networks) jest niezbędny dla tego projektu, aby uzyskać dokładne wyniki.

7. Mall Customers Dataset

Zbiór danych klientów centrum handlowego zawiera szczegóły dotyczące ludzi odwiedzających centrum handlowe. Zbiór danych ma wiek, identyfikator klienta, płeć, roczny dochód i wynik wydatków. Uzyskuje wgląd w dane i dzieli klientów na różne grupy w oparciu o ich zachowania.

Łącze zbioru danych: mall customers dataset

Pomysł projektu: Segmentacja klientów na podstawie ich płci, wieku, zainteresowań. Jest to przydatne w marketingu dostosowanym do potrzeb klienta. Segmentacja klientów jest ważną praktyką dzielenia klientów na podstawie poszczególnych grup, które są podobne.

Kod źródłowy: Customer segmentation with Machine learning.

Google Trends Data Portal

DaneGoogle trends mogą być używane do badania i analizowania danych wizualnie. Można również pobrać zbiór danych do plików CSV za pomocą prostego kliknięcia. Możemy dowiedzieć się, co jest trendy i czego ludzie szukają.

Data Link: Google trends datasets

The Boston Housing Dataset

Jest to popularny zbiór danych wykorzystywany w rozpoznawaniu wzorców. Zawiera informacje o różnych domach w Bostonie w oparciu o wskaźnik przestępczości, podatek, liczbę pokoi, itp. Ma 506 wierszy i 14 różnych zmiennych w kolumnach. Możesz użyć tego zbioru danych do przewidywania cen domów.

Data Link: Boston dataset

Project Idea: Przewidywanie cen mieszkań w nowym domu przy użyciu regresji liniowej. Regresja liniowa jest używana do przewidywania wartości nieznanych danych wejściowych, gdy dane mają pewną liniową zależność między zmiennymi wejściowymi i wyjściowymi.

Uber Pickups Dataset

Zbiór danych zawiera informacje o 4,5 miliona Uber pickups w Nowym Jorku od kwietnia 2014 do września 2014 i 14 milionów więcej od stycznia 2015 do czerwca 2015. Użytkownicy mogą przeprowadzać analizy danych i zbierać spostrzeżenia z danych.

Data Link: Uber pickups dataset

Project Idea: Analiza danych dotyczących przejazdów klientów i wizualizacja danych w celu znalezienia spostrzeżeń, które mogą pomóc w ulepszeniu biznesu. Analiza i wizualizacja danych jest ważną częścią nauki o danych. Są one używane do zbierania spostrzeżeń z danych, a dzięki wizualizacji można uzyskać szybkie informacje z danych.

Recommender Systems Dataset

Jest to portal do kolekcji bogatych zbiorów danych, które były używane w projektach badawczych w laboratorium UCSD. Zawiera on różne zbiory danych z popularnych stron internetowych, takich jak recenzje książek Goodreads, recenzje produktów Amazon, dane barmańskie, dane z mediów społecznościowych, itp, które są wykorzystywane w budowaniu systemu rekomendacji.

Data Link: Recommender systems dataset

Project Idea: Zbuduj system rekomendacji produktów jak Amazon. System rekomendacji może zasugerować Ci produkty, filmy, itp. w oparciu o Twoje zainteresowania i rzeczy, które lubisz i których używałeś wcześniej.

Kod źródłowy: Movie Recommendation System Project

UCI Spambase Dataset

Klasyfikowanie e-maili jako spamu lub nie-spamu jest bardzo powszechnym i użytecznym zadaniem. Zbiór danych zawiera 4601 emaili i 57 meta-informacji o nich. Można zbudować modele do filtrowania spamu.

Data Link: UCI spambase dataset

Project Idea: Możesz zbudować model, który może zidentyfikować twoje e-maile jako spam lub nie-spam.

GTSRB (German traffic sign recognition benchmark) Dataset

Zbiór danych GTSRB zawiera około 50 000 obrazów znaków drogowych należących do 43 różnych klas i zawiera informacje o bounding box każdego znaku. Zbiór ten jest wykorzystywany do klasyfikacji wieloklasowej.

Data Link: GTSRB dataset

Artificial Intelligence Project Idea: Zbudować model wykorzystujący framework głębokiego uczenia, który klasyfikuje znaki drogowe, a także rozpoznaje bounding box znaków. Klasyfikacja znaków drogowych jest również przydatna w pojazdach autonomicznych do identyfikowania znaków, a następnie podejmowania odpowiednich działań.

Kod źródłowy: Traffic Signs Recognition Python Project

Cityscapes Dataset

Jest to zbiór danych typu open-source dla projektów Computer Vision. Zawiera on wysokiej jakości adnotacje na poziomie pikseli sekwencji wideo wykonanych na 50 różnych ulicach miast. Zbiór danych jest przydatny w segmentacji semantycznej i szkoleniu głębokich sieci neuronowych w celu zrozumienia sceny miejskiej.

Data Link: Cityscapes dataset

Project Idea: Przeprowadzenie segmentacji obrazu i wykrycie różnych obiektów z wideo na drodze. Segmentacja obrazu jest procesem cyfrowego podziału obrazu na różne kategorie, takie jak samochody, autobusy, ludzie, drzewa, drogi, itp.

15. Kinetics Dataset

Istnieją trzy różne zestawy danych dla Kinetics: Kinetics 400, Kinetics 600, i Kinetics 700 dataset. Jest to zbiór danych o dużej skali, który zawiera link URL do około 6,5 miliona wysokiej jakości filmów wideo.

Data Link: Kinetics dataset

Pomysł projektu: Zbudować model rozpoznawania ludzkich działań i wykrywać działania człowieka. Rozpoznawanie ludzkich działań jest rozpoznawane na podstawie serii obserwacji.

Zbiór danych IMDB-Wiki

Zbiór danych IMDB-Wiki jest jednym z największych zbiorów danych open-source dla obrazów twarzy z oznaczoną płcią i wiekiem. Obrazy są zbierane z IMDB i Wikipedii. Zawiera ponad 5 milionów etykietowanych obrazów.

Data Link: IMDB wiki dataset

Project Idea: Stwórz model, który będzie wykrywał twarze i przewidywał ich płeć i wiek. Możesz mieć kategorie w różnych zakresach jak 0-10, 10-20, 30-40, 50-60, etc.

Color Detection Dataset

Zestaw danych zawiera plik CSV, który ma 865 nazw kolorów z odpowiadającymi im wartościami RGB (czerwony, zielony i niebieski) koloru. Posiada również wartość szesnastkową koloru.

Data Link: Color Detection Dataset

Project Idea: Zestaw danych kolorów może być użyty do stworzenia aplikacji do wykrywania kolorów, w której możemy mieć interfejs do wybierania koloru z obrazu, a aplikacja wyświetli nazwę koloru.

Source Code: Color Detection Python Project

Urban Sound 8K dataset

Urban sound dataset zawiera 8732 dźwięki miejskie z 10 klas, takich jak klimatyzator, szczekanie psa, wiercenie, syrena, muzyka uliczna itp. Zbiór danych jest popularny w przypadku problemów z klasyfikacją dźwięków miejskich.

Data Link: Urban Sound 8K dataset

Project Idea: Możemy zbudować system klasyfikacji dźwięku, aby wykryć rodzaj dźwięku miejskiego grającego w tle. To pomoże Ci rozpocząć pracę z danymi audio i zrozumieć, jak pracować z nieustrukturyzowanymi danymi.

Librispeech Dataset

Ten zbiór danych zawiera dużą liczbę angielskich przemówień, które pochodzą z projektu LibriVox. Zawiera 1000 godzin wypowiedzi czytanych po angielsku w różnych akcentach. Jest on używany w projektach rozpoznawania mowy.

Data Link: Librispeech dataset

Pomysł na projekt: Zbuduj model rozpoznawania mowy, aby wykryć co jest mówione i przekształcić to w tekst. Celem rozpoznawania mowy jest automatyczna identyfikacja tego, co jest mówione w audio.

Breast Histopathology Images Dataset

Ten zbiór danych zawiera 2,77,524 obrazy o rozmiarze 50×50 wyodrębnione z 162 obrazów slajdów raka piersi zeskanowanych przy 40x. Jest 1,98,738 negatywnych testów i 78,786 pozytywnych testów z IDC.

Data Link: Breast histopathology dataset

Project Idea: Zbudowanie modelu, który może sklasyfikować raka piersi. Zbudujesz model klasyfikacji obrazu za pomocą sieci neuronowych Convolutional.

Kod źródłowy: Breast Cancer Classification Python Project

Youtube 8M Dataset

Zbiór danych youtube 8M jest zbiorem danych wideo z etykietami na dużą skalę, który ma 6,1 miliona identyfikatorów wideo Youtube, 350 000 godzin wideo, 2,6 miliarda cech audio/wizualnych, 3862 klasy i 3 etykiety na wideo. Jest on używany do celów klasyfikacji wideo.

Data Link: Youtube 8M

Project Idea: Klasyfikacja wideo może być wykonana przy użyciu zbioru danych, a model może opisać, o czym jest wideo. Wideo pobiera serię danych wejściowych, aby sklasyfikować, do której kategorii należy wideo.

EndNote

W tym artykule zobaczyliśmy ponad 20 zestawów danych uczenia maszynowego, które można wykorzystać do praktyki uczenia maszynowego lub nauki o danych. Tworzenie zbiorów danych na własną rękę jest drogie, więc możemy użyć zbiorów danych innych osób, aby wykonać naszą pracę. Ale powinniśmy uważnie przeczytać dokumenty zbioru danych, ponieważ niektóre zbiory danych są darmowe, podczas gdy dla niektórych zbiorów danych, musisz dać kredyt właścicielowi, jak stwierdzono przez nich.

Bio: Shivashish Thaku jest analitykiem i pisarzem treści technicznych. Jest maniakiem technologii, który uwielbia pisać o najnowszych technologiach, które przekształcają świat. Jest również fanem sportu, który uwielbia grać i oglądać piłkę nożną.

Powiązane:

KDnuggets