By Shivashish Thakur, Digital Marketing, DataFlair.
Aby zbudować doskonały model, potrzebujesz dużej ilości danych. Ale znalezienie odpowiedniego zbioru danych dla projektu uczenia maszynowego i nauki o danych jest czasami dość trudnym zadaniem. Istnieje wiele organizacji, naukowców i osób prywatnych, które podzieliły się swoją pracą, a my użyjemy ich zbiorów danych do zbudowania naszego projektu.
W tym artykule omówimy 20+ uczenia maszynowego i Data Science zbiorów danych i pomysłów na projekty, które możesz wykorzystać do ćwiczenia i podnoszenia swoich umiejętności.
- Enron Email Dataset
- Chatbot Intents Dataset
- Flickr 30k Dataset
- Parkinson Dataset
- Iris Dataset
- ImageNet dataset
- 7. Mall Customers Dataset
- Google Trends Data Portal
- The Boston Housing Dataset
- Uber Pickups Dataset
- Recommender Systems Dataset
- UCI Spambase Dataset
- GTSRB (German traffic sign recognition benchmark) Dataset
- Cityscapes Dataset
- 15. Kinetics Dataset
- Zbiór danych IMDB-Wiki
- Color Detection Dataset
- Urban Sound 8K dataset
- Librispeech Dataset
- Breast Histopathology Images Dataset
- Youtube 8M Dataset
- EndNote
Enron Email Dataset
Enron Dataset jest popularny w przetwarzaniu języka naturalnego. Zawiera ponad 500K emaili od ponad 150 użytkowników. Rozmiar danych to około 432Mb. Spośród 150 użytkowników, większość z nich to wyższa kadra zarządzająca Enronu.
Data Link: Enron email dataset
Project Idea: Używając klasteryzacji k-średnich, można zbudować model do wykrywania oszustw. Klasteryzacja k-średnich jest algorytmem uczenia maszynowego bez nadzoru. Rozdziela on obserwacje na k-kilka klastrów na podstawie podobnych wzorców w danych.
Chatbot Intents Dataset
Zbiór danych dla chatbota to plik JSON, który posiada rozbieżne tagi, takie jak goodbye, greetings, pharmacy_search, hospital_search, itp. Każdy tag ma listę wzorców, które użytkownik może zadać, a chatbot odpowie zgodnie z tym wzorcem. Zestaw danych jest idealny do zrozumienia jak działają dane chatbota.
Data Link: Intents JSON Dataset
Pomysł na projekt: Możesz zbudować chatbota lub zrozumieć działanie chatbota, przekręcając i rozszerzając dane o swoje obserwacje. Aby zbudować własnego Chatbota, musisz mieć dobrą znajomość koncepcji przetwarzania języka naturalnego.
Source Code: Chatbot Project in Python
Flickr 30k Dataset
Zbiór danych Flickr 30k zawiera ponad 30 000 obrazów, a każdy obraz jest oznaczony różnymi podpisami. Ten zbiór danych jest używany do budowania generatora podpisów do obrazów. A ten zbiór danych jest ulepszoną wersją Flickr 8k używaną do budowania dokładniejszych modeli.
Data Link: Flickr image dataset
Project Idea: Możesz zbudować model CNN, który jest świetny do analizowania i wydobywania cech z obrazu i generowania angielskiego zdania, które opisuje obraz, który jest nazywany Caption.
Parkinson Dataset
Parkinson’s jest chorobą, która może powodować zaburzenia układu nerwowego i wpływa na ruch. Zbiór danych Parkinson zawiera pomiary biomedyczne, 195 rekordów osób z 23 różnymi atrybutami. Dane te są wykorzystywane do różnicowania osób zdrowych i osób z chorobą Parkinsona.
Data Link: Parkinson dataset
Project Idea: Możesz zbudować model, który może być użyty do różnicowania osób zdrowych od osób z chorobą Parkinsona. Algorytm, który jest przydatny do tego celu to XGboost, który oznacza extreme gradient boosting i jest oparty na drzewach decyzyjnych.
Source Code: ML Project on Detecting Parkinson’s Disease
Iris Dataset
Zbiór danych irysów jest przyjaznym dla początkujących zbiorem danych, który posiada informacje o rozmiarach płatków i działek kwiatu. Ten zbiór danych ma 3 klasy z 50 instancjami w każdej klasie, więc zawiera tylko 150 wierszy z 4 kolumnami.
Data Link: Iris dataset
Project Idea: Klasyfikacja to zadanie polegające na rozdzieleniu elementów do odpowiadającej im klasy. Możesz zaimplementować uczenie maszynowe klasyfikacji lub model regresji na zbiorze danych.
ImageNet dataset
ImageNet jest dużą bazą danych obrazów, która jest zorganizowana zgodnie z hierarchią wordnet. Posiada ponad 100 000 fraz i średnio 1000 obrazów na frazę. Jej rozmiar przekracza 150 GB. Nadaje się do rozpoznawania obrazów, rozpoznawania twarzy, wykrywania obiektów itp. Jest również gospodarzem konkursu ILSVRC dla ludzi, którzy chcą budować coraz dokładniejsze modele.
Data Link: Imagenet Dataset
Project Idea: Zaimplementować klasyfikację obrazów na tej ogromnej bazie danych i rozpoznawać obiekty. Model CNN (Convolutional neural networks) jest niezbędny dla tego projektu, aby uzyskać dokładne wyniki.
7. Mall Customers Dataset
Zbiór danych klientów centrum handlowego zawiera szczegóły dotyczące ludzi odwiedzających centrum handlowe. Zbiór danych ma wiek, identyfikator klienta, płeć, roczny dochód i wynik wydatków. Uzyskuje wgląd w dane i dzieli klientów na różne grupy w oparciu o ich zachowania.
Łącze zbioru danych: mall customers dataset
Pomysł projektu: Segmentacja klientów na podstawie ich płci, wieku, zainteresowań. Jest to przydatne w marketingu dostosowanym do potrzeb klienta. Segmentacja klientów jest ważną praktyką dzielenia klientów na podstawie poszczególnych grup, które są podobne.
Kod źródłowy: Customer segmentation with Machine learning.
Google Trends Data Portal
DaneGoogle trends mogą być używane do badania i analizowania danych wizualnie. Można również pobrać zbiór danych do plików CSV za pomocą prostego kliknięcia. Możemy dowiedzieć się, co jest trendy i czego ludzie szukają.
Data Link: Google trends datasets
The Boston Housing Dataset
Jest to popularny zbiór danych wykorzystywany w rozpoznawaniu wzorców. Zawiera informacje o różnych domach w Bostonie w oparciu o wskaźnik przestępczości, podatek, liczbę pokoi, itp. Ma 506 wierszy i 14 różnych zmiennych w kolumnach. Możesz użyć tego zbioru danych do przewidywania cen domów.
Data Link: Boston dataset
Project Idea: Przewidywanie cen mieszkań w nowym domu przy użyciu regresji liniowej. Regresja liniowa jest używana do przewidywania wartości nieznanych danych wejściowych, gdy dane mają pewną liniową zależność między zmiennymi wejściowymi i wyjściowymi.
Uber Pickups Dataset
Zbiór danych zawiera informacje o 4,5 miliona Uber pickups w Nowym Jorku od kwietnia 2014 do września 2014 i 14 milionów więcej od stycznia 2015 do czerwca 2015. Użytkownicy mogą przeprowadzać analizy danych i zbierać spostrzeżenia z danych.
Data Link: Uber pickups dataset
Project Idea: Analiza danych dotyczących przejazdów klientów i wizualizacja danych w celu znalezienia spostrzeżeń, które mogą pomóc w ulepszeniu biznesu. Analiza i wizualizacja danych jest ważną częścią nauki o danych. Są one używane do zbierania spostrzeżeń z danych, a dzięki wizualizacji można uzyskać szybkie informacje z danych.
Recommender Systems Dataset
Jest to portal do kolekcji bogatych zbiorów danych, które były używane w projektach badawczych w laboratorium UCSD. Zawiera on różne zbiory danych z popularnych stron internetowych, takich jak recenzje książek Goodreads, recenzje produktów Amazon, dane barmańskie, dane z mediów społecznościowych, itp, które są wykorzystywane w budowaniu systemu rekomendacji.
Data Link: Recommender systems dataset
Project Idea: Zbuduj system rekomendacji produktów jak Amazon. System rekomendacji może zasugerować Ci produkty, filmy, itp. w oparciu o Twoje zainteresowania i rzeczy, które lubisz i których używałeś wcześniej.
Kod źródłowy: Movie Recommendation System Project
UCI Spambase Dataset
Klasyfikowanie e-maili jako spamu lub nie-spamu jest bardzo powszechnym i użytecznym zadaniem. Zbiór danych zawiera 4601 emaili i 57 meta-informacji o nich. Można zbudować modele do filtrowania spamu.
Data Link: UCI spambase dataset
Project Idea: Możesz zbudować model, który może zidentyfikować twoje e-maile jako spam lub nie-spam.
GTSRB (German traffic sign recognition benchmark) Dataset
Zbiór danych GTSRB zawiera około 50 000 obrazów znaków drogowych należących do 43 różnych klas i zawiera informacje o bounding box każdego znaku. Zbiór ten jest wykorzystywany do klasyfikacji wieloklasowej.
Data Link: GTSRB dataset
Artificial Intelligence Project Idea: Zbudować model wykorzystujący framework głębokiego uczenia, który klasyfikuje znaki drogowe, a także rozpoznaje bounding box znaków. Klasyfikacja znaków drogowych jest również przydatna w pojazdach autonomicznych do identyfikowania znaków, a następnie podejmowania odpowiednich działań.
Kod źródłowy: Traffic Signs Recognition Python Project
Cityscapes Dataset
Jest to zbiór danych typu open-source dla projektów Computer Vision. Zawiera on wysokiej jakości adnotacje na poziomie pikseli sekwencji wideo wykonanych na 50 różnych ulicach miast. Zbiór danych jest przydatny w segmentacji semantycznej i szkoleniu głębokich sieci neuronowych w celu zrozumienia sceny miejskiej.
Data Link: Cityscapes dataset
Project Idea: Przeprowadzenie segmentacji obrazu i wykrycie różnych obiektów z wideo na drodze. Segmentacja obrazu jest procesem cyfrowego podziału obrazu na różne kategorie, takie jak samochody, autobusy, ludzie, drzewa, drogi, itp.
15. Kinetics Dataset
Istnieją trzy różne zestawy danych dla Kinetics: Kinetics 400, Kinetics 600, i Kinetics 700 dataset. Jest to zbiór danych o dużej skali, który zawiera link URL do około 6,5 miliona wysokiej jakości filmów wideo.
Data Link: Kinetics dataset
Pomysł projektu: Zbudować model rozpoznawania ludzkich działań i wykrywać działania człowieka. Rozpoznawanie ludzkich działań jest rozpoznawane na podstawie serii obserwacji.
Zbiór danych IMDB-Wiki
Zbiór danych IMDB-Wiki jest jednym z największych zbiorów danych open-source dla obrazów twarzy z oznaczoną płcią i wiekiem. Obrazy są zbierane z IMDB i Wikipedii. Zawiera ponad 5 milionów etykietowanych obrazów.
Data Link: IMDB wiki dataset
Project Idea: Stwórz model, który będzie wykrywał twarze i przewidywał ich płeć i wiek. Możesz mieć kategorie w różnych zakresach jak 0-10, 10-20, 30-40, 50-60, etc.
Color Detection Dataset
Zestaw danych zawiera plik CSV, który ma 865 nazw kolorów z odpowiadającymi im wartościami RGB (czerwony, zielony i niebieski) koloru. Posiada również wartość szesnastkową koloru.
Data Link: Color Detection Dataset
Project Idea: Zestaw danych kolorów może być użyty do stworzenia aplikacji do wykrywania kolorów, w której możemy mieć interfejs do wybierania koloru z obrazu, a aplikacja wyświetli nazwę koloru.
Source Code: Color Detection Python Project
Urban Sound 8K dataset
Urban sound dataset zawiera 8732 dźwięki miejskie z 10 klas, takich jak klimatyzator, szczekanie psa, wiercenie, syrena, muzyka uliczna itp. Zbiór danych jest popularny w przypadku problemów z klasyfikacją dźwięków miejskich.
Data Link: Urban Sound 8K dataset
Project Idea: Możemy zbudować system klasyfikacji dźwięku, aby wykryć rodzaj dźwięku miejskiego grającego w tle. To pomoże Ci rozpocząć pracę z danymi audio i zrozumieć, jak pracować z nieustrukturyzowanymi danymi.
Librispeech Dataset
Ten zbiór danych zawiera dużą liczbę angielskich przemówień, które pochodzą z projektu LibriVox. Zawiera 1000 godzin wypowiedzi czytanych po angielsku w różnych akcentach. Jest on używany w projektach rozpoznawania mowy.
Data Link: Librispeech dataset
Pomysł na projekt: Zbuduj model rozpoznawania mowy, aby wykryć co jest mówione i przekształcić to w tekst. Celem rozpoznawania mowy jest automatyczna identyfikacja tego, co jest mówione w audio.
Breast Histopathology Images Dataset
Ten zbiór danych zawiera 2,77,524 obrazy o rozmiarze 50×50 wyodrębnione z 162 obrazów slajdów raka piersi zeskanowanych przy 40x. Jest 1,98,738 negatywnych testów i 78,786 pozytywnych testów z IDC.
Data Link: Breast histopathology dataset
Project Idea: Zbudowanie modelu, który może sklasyfikować raka piersi. Zbudujesz model klasyfikacji obrazu za pomocą sieci neuronowych Convolutional.
Kod źródłowy: Breast Cancer Classification Python Project
Youtube 8M Dataset
Zbiór danych youtube 8M jest zbiorem danych wideo z etykietami na dużą skalę, który ma 6,1 miliona identyfikatorów wideo Youtube, 350 000 godzin wideo, 2,6 miliarda cech audio/wizualnych, 3862 klasy i 3 etykiety na wideo. Jest on używany do celów klasyfikacji wideo.
Data Link: Youtube 8M
Project Idea: Klasyfikacja wideo może być wykonana przy użyciu zbioru danych, a model może opisać, o czym jest wideo. Wideo pobiera serię danych wejściowych, aby sklasyfikować, do której kategorii należy wideo.
EndNote
W tym artykule zobaczyliśmy ponad 20 zestawów danych uczenia maszynowego, które można wykorzystać do praktyki uczenia maszynowego lub nauki o danych. Tworzenie zbiorów danych na własną rękę jest drogie, więc możemy użyć zbiorów danych innych osób, aby wykonać naszą pracę. Ale powinniśmy uważnie przeczytać dokumenty zbioru danych, ponieważ niektóre zbiory danych są darmowe, podczas gdy dla niektórych zbiorów danych, musisz dać kredyt właścicielowi, jak stwierdzono przez nich.
Bio: Shivashish Thaku jest analitykiem i pisarzem treści technicznych. Jest maniakiem technologii, który uwielbia pisać o najnowszych technologiach, które przekształcają świat. Jest również fanem sportu, który uwielbia grać i oglądać piłkę nożną.
Powiązane:
.