KDnuggets

De Shivashish Thakur, Digital Marketing, DataFlair.

Pentru a construi un model perfect, aveți nevoie de o cantitate mare de date. Dar găsirea setului de date potrivit pentru proiectul dvs. de învățare automată și știința datelor este uneori o sarcină destul de dificilă. Există multe organizații, cercetători și persoane care și-au împărtășit munca, iar noi vom folosi seturile lor de date pentru a ne construi proiectul.

Atunci, în acest articol, vom discuta despre 20+ seturi de date și idei de proiecte de învățare automată și știință a datelor pe care le puteți folosi pentru a vă exersa și a vă îmbunătăți abilitățile.

Enron Email Dataset

Set de date Enron este popular în procesarea limbajului natural. Acesta are mai mult de 500K de e-mailuri de la peste 150 de utilizatori. Dimensiunea datelor este de aproximativ 432Mb. Dintre cei 150 de utilizatori, cei mai mulți sunt cadrele de conducere de la Enron.

Legătură de date: Enron email dataset

Ideea proiectului: Folosind gruparea k-means, puteți construi un model pentru a detecta activitățile frauduloase. Clusterizarea K-means este un algoritm de învățare automată nesupravegheată. Acesta separă observațiile într-un număr k de clustere pe baza modelelor similare din date.

Chatbot Intents Dataset

Setul de date pentru un chatbot este un fișier JSON care are etichete disparate precum goodbye, greetings, pharmacy_search, hospital_search, etc. Fiecare tag are o listă de modele pe care un utilizator le poate întreba, iar chatbotul va răspunde în funcție de acel model. Setul de date este perfect pentru a înțelege cum funcționează datele chatbot.

Legătură de date: Intents JSON Dataset

Ideea de proiect: Puteți construi un chatbot sau înțelege funcționarea unui chatbot prin răsucirea și extinderea datelor cu observațiile dumneavoastră. Pentru a construi un chatbot propriu, trebuie să aveți o bună cunoaștere a conceptelor de procesare a limbajului natural.

Codul sursă: Chatbot Project in Python

Flickr 30k Dataset

The Flickr 30k dataset has over 30,000 images, and each image is labeled with different captions. Acest set de date este utilizat pentru a construi un generator de legende pentru imagini. Și acest set de date este o versiune îmbunătățită a Flickr 8k folosită pentru a construi modele mai precise.

Legătură de date: Flickr image dataset

Ideea de proiect: Puteți construi un model CNN care este foarte bun pentru a analiza și extrage caracteristici din imagine și a genera o propoziție în limba engleză care să descrie imaginea care se numește Caption.

Parkinson Dataset

Parkinson este o boală care poate provoca o tulburare a sistemului nervos și afectează mișcarea. Setul de date Parkinson conține măsurători biomedicale, 195 de înregistrări de persoane cu 23 de atribute diferite. Aceste date sunt utilizate pentru a diferenția persoanele sănătoase și persoanele cu boala Parkinson.

Legătură de date: Set de date Parkinson

Ideea de proiect: Puteți construi un model care poate fi utilizat pentru a diferenția persoanele sănătoase de persoanele care au boala Parkinson. Algoritmul care este util în acest scop este XGboost, care înseamnă extreme gradient boosting, și se bazează pe arbori de decizie.

Cod sursă: Cod sursă: ML Project on Detecting Parkinson’s Disease

Iris Dataset

The iris dataset is a beginner-friendly dataset that has information about the flower petal and sepal sizes. Acest set de date are 3 clase cu 50 de instanțe în fiecare clasă, deci conține doar 150 de rânduri cu 4 coloane.

Legătură de date: Iris dataset

Ideea de proiect: Clasificarea este sarcina de a separa elementele în clasa lor corespunzătoare. Puteți implementa un model de clasificare sau de regresie de învățare automată pe setul de date.

Set de date ImageNet

ImageNet este o bază de date mare de imagini care este organizată în conformitate cu ierarhia wordnet. Are peste 100.000 de fraze și o medie de 1000 de imagini pe frază. Dimensiunea depășește 150 GB. Este potrivită pentru recunoașterea imaginilor, recunoașterea fețelor, detectarea obiectelor etc. De asemenea, găzduiește o competiție provocatoare numită ILSVRC pentru ca oamenii să construiască modele din ce în ce mai precise.

Legătură de date: Imagenet Dataset

Ideea proiectului: Să implementăm clasificarea imaginilor pe această bază de date uriașă și să recunoaștem obiecte. Modelul CNN (rețele neuronale convoluționale) este necesar pentru acest proiect pentru a obține rezultate precise.

7. Mall Customers Dataset

The Mall customers dataset deține detalii despre persoanele care vizitează mall-ul. Setul de date conține vârsta, ID-ul clientului, sexul, venitul anual și scorul de cheltuieli. Acesta obține informații din date și împarte clienții în diferite grupuri pe baza comportamentelor lor.

Legătură set de date: Mall customers dataset

Ideea de proiect: Mall customers dataset

Ideea de proiect: Segmentați clienții în funcție de sex, vârstă, interese. Este util în marketingul personalizat. Segmentarea clienților este o practică importantă de împărțire a clienților pe baza unor grupuri individuale care sunt similare.

Cod sursă: Cod: Centru de segmentare a clienților: Segmentarea clienților cu Machine learning.

Google Trends Data Portal

Datele Google Trends pot fi folosite pentru a examina și analiza vizual datele. De asemenea, puteți descărca setul de date în fișiere CSV cu un simplu clic. Putem afla ce se află în tendințe și ce caută oamenii.

Legătură de date: Google trends dataset

The Boston Housing Dataset

Acest set de date este un set de date popular utilizat în recunoașterea modelelor. Acesta conține informații despre diferitele case din Boston pe baza ratei criminalității, a impozitelor, a numărului de camere, etc. Are 506 rânduri și 14 variabile diferite în coloane. Puteți utiliza acest set de date pentru a prezice prețurile caselor.

Legătură de date: Boston dataset

Ideea de proiect: Prevedeți prețurile unei case noi folosind regresia liniară. Regresia liniară este utilizată pentru a prezice valorile unor intrări necunoscute atunci când datele au o anumită relație liniară între variabilele de intrare și de ieșire.

Uber Pickups Dataset

Setul de date conține informații despre 4,5 milioane de preluări Uber în New York City din aprilie 2014 până în septembrie 2014 și alte 14 milioane din ianuarie 2015 până în iunie 2015. Utilizatorii pot efectua analize de date și pot obține informații din aceste date.

Legătură de date: Set de date Uber pickups

Ideea de proiect: Să analizeze datele privind cursele clienților și să vizualizeze datele pentru a găsi informații care pot ajuta la îmbunătățirea afacerii. Analiza și vizualizarea datelor reprezintă o parte importantă a științei datelor. Acestea sunt folosite pentru a aduna informații din date, iar cu ajutorul vizualizării, puteți obține rapid informații din date.

Recommender Systems Dataset

Acesta este un portal către o colecție de seturi de date bogate care au fost folosite în proiecte de cercetare de laborator la UCSD. Acesta conține diverse seturi de date de pe site-uri web populare, cum ar fi recenzii de cărți Goodreads, recenzii de produse Amazon, date de barmani, date din social media etc., care sunt utilizate în construirea unui sistem de recomandare.

Legătură de date: Set de date privind sistemele de recomandare

Ideea proiectului: Construiți un sistem de recomandare a produselor precum Amazon. Un sistem de recomandare vă poate sugera produse, filme etc. pe baza intereselor dvs. și a lucrurilor care vă plac și pe care le-ați folosit anterior.

Cod sursă: Cod sursă: Movie Recommendation System Project

UCI Spambase Dataset

Clasificarea e-mailurilor ca fiind spam sau non-spam este o sarcină foarte comună și utilă. Setul de date conține 4601 e-mailuri și 57 de meta-informații despre e-mailuri. Puteți construi modele pentru a filtra spam-ul.

Legătură de date: UCI spambase dataset

Project Idea: Puteți construi un model care să identifice e-mailurile ca fiind spam sau non-spam.

GTSRB (German traffic sign recognition benchmark) Dataset

The GTSRB dataset contains around 50,000 images of traffic signs belonging to 43 different classes and contains information on the bounding box of each sign. Setul de date este utilizat pentru clasificarea multiclasă.

Legătură de date: GTSRB dataset

Inteligență artificială Ideea proiectului: Construiți un model care să utilizeze un cadru de învățare profundă care să clasifice semnele de circulație și să recunoască, de asemenea, caseta de delimitare a semnelor. Clasificarea semnelor de trafic este, de asemenea, utilă în vehiculele autonome pentru a identifica semnele și apoi pentru a întreprinde acțiunile corespunzătoare.

Codul sursă: Traffic Signs Recognition Python Project

Cityscapes Dataset

Acesta este un set de date open-source pentru proiecte de viziune computerizată. Acesta conține adnotări de înaltă calitate la nivel de pixel ale secvențelor video realizate pe 50 de străzi diferite din oraș. Setul de date este util în segmentarea semantică și în antrenarea rețelelor neuronale profunde pentru a înțelege scena urbană.

Legătură de date: Setul de date Cityscapes

Ideea proiectului: Pentru a efectua segmentarea imaginilor și a detecta diferite obiecte dintr-un videoclip pe șosea. Segmentarea imaginilor este procesul de împărțire digitală a unei imagini în diverse categorii diferite, cum ar fi mașini, autobuze, oameni, copaci, drumuri etc.

15. Setul de date Kinetics

Există trei seturi de date diferite pentru Kinetics: Setul de date Kinetics 400, Kinetics 600 și Kinetics 700. Acesta este un set de date la scară largă care conține un link URL către aproximativ 6,5 milioane de videoclipuri de înaltă calitate.

Legătură de date: Kinetics dataset

Ideea proiectului: Construiți un model de recunoaștere a acțiunilor umane și detectați acțiunea unui om. Recunoașterea acțiunii umane este recunoscută printr-o serie de observații.

Set de date IMDB-Wiki

Set de date IMDB-Wiki este unul dintre cele mai mari seturi de date open-source pentru imagini de fețe cu gen și vârstă etichetate. Imaginile sunt colectate din IMDB și Wikipedia. Are peste 5 milioane de imagini etichetate.

Legătură de date: IMDB wiki dataset

Ideea proiectului: Realizați un model care să detecteze fețele și să le prezică sexul și vârsta. Puteți avea categorii în diferite intervale, cum ar fi 0-10, 10-20, 30-40, 50-60, etc.

Color Detection Dataset

Set de date conține un fișier CSV care are 865 de nume de culori cu valorile RGB (roșu, verde și albastru) corespunzătoare ale culorii. De asemenea, conține și valoarea hexazecimală a culorii.

Legătură de date: Color Detection Dataset

Ideea de proiect: Setul de date privind culorile poate fi folosit pentru a realiza o aplicație de detectare a culorilor în care putem avea o interfață pentru a alege o culoare din imagine, iar aplicația va afișa numele culorii.

Cod sursă: Cod sursă: Color Detection Python Project

Urban Sound 8K dataset

The urban sound dataset contains 8732 urban sounds from 10 classes such an air conditioner, dog bark, drilling, siren, street music, etc. Setul de date este popular pentru problemele de clasificare a sunetelor urbane.

Legătură de date: Urban Sound 8K dataset

Ideea de proiect: Putem construi un sistem de clasificare a sunetului pentru a detecta tipul de sunet urban care rulează în fundal. Acest lucru vă va ajuta să începeți cu datele audio și să înțelegeți cum să lucrați cu date nestructurate.

Librispeech Dataset

Acest set de date conține un număr mare de discursuri în limba engleză care provin din proiectul LibriVox. Are 1000 de ore de discursuri în limba engleză citite în diferite accente. Este utilizat pentru proiecte de recunoaștere vocală.

Legătură de date: Librispeech dataset

Ideea proiectului: Construiți un model de recunoaștere a vorbirii pentru a detecta ceea ce se spune și pentru a-l converti în text. Obiectivul recunoașterii vorbirii este de a identifica în mod automat ceea ce se spune în audio.

Breast Histopathology Images Dataset

Acest set de date conține 2.77.524 de imagini de dimensiune 50×50 extrase din 162 de imagini de diapozitive de montaj ale specimenelor de cancer de sân scanate la 40x. Există 1.98.738 de teste negative și 78.786 de teste pozitive cu IDC.

Legătură de date: Set de date de histopatologie mamară

Ideea de proiect: Să construim un model care să poată clasifica cancerul de sân. Se construiește un model de clasificare a imaginilor cu ajutorul rețelelor neuronale convoluționale.

Cod sursă: Cod sursă: Breast Cancer Classification Python Project

Youtube 8M Dataset

The youtube 8M dataset is a large scale labeled video dataset that has 6.1 million Youtube video ids, 350,000 hours of video, 2.6 billion audio/visual features, 3862 classes, and 3 avg labels per video. Este utilizat în scopuri de clasificare video.

Legătură de date: Youtube 8M

Ideea proiectului: Clasificarea video se poate face utilizând setul de date, iar modelul poate descrie despre ce este vorba în videoclip. Un videoclip are nevoie de o serie de intrări pentru a clasifica în ce categorie aparține videoclipul.

EndNote

În acest articol, am văzut mai mult de 20 de seturi de date de învățare automată pe care le puteți folosi pentru a practica învățarea automată sau știința datelor. Crearea unui set de date pe cont propriu este costisitoare, așa că putem folosi seturile de date ale altor persoane pentru a ne face treaba. Dar ar trebui să citim cu atenție documentele setului de date, deoarece unele seturi de date sunt gratuite, în timp ce pentru unele seturi de date, trebuie să acordați credit proprietarului, așa cum se menționează de către aceștia.

Bio: Shivashish Thaku este analist și redactor de conținut tehnic. Este un pasionat de tehnologie care adoră să scrie despre cele mai recente tehnologii de ultimă oră care transformă lumea. El este, de asemenea, un fan al sportului care adoră să joace și să se uite la fotbal.

Relații:

Lasă un răspuns

Adresa ta de email nu va fi publicată.