20+ Datasets di Machine Learning & Idee di progetto

Di Shivashish Thakur, Digital Marketing, DataFlair.

Per costruire un modello perfetto, hai bisogno di una grande quantità di dati. Ma trovare il giusto set di dati per il tuo progetto di apprendimento automatico e scienza dei dati è a volte un compito piuttosto impegnativo. Ci sono molte organizzazioni, ricercatori e individui che hanno condiviso il loro lavoro, e noi useremo i loro set di dati per costruire il nostro progetto.

Quindi in questo articolo, discuteremo 20+ dataset e idee di progetto di Machine learning e Data Science che puoi usare per praticare e migliorare le tue abilità.

Enron Email Dataset

Il Dataset Enron è popolare nell’elaborazione del linguaggio naturale. Ha più di 500K email di oltre 150 utenti. La dimensione dei dati è di circa 432Mb. Su 150 utenti, la maggior parte degli utenti sono i dirigenti di Enron.

Data Link: Enron email dataset

Progetto Idea: Usando il k-means clustering, è possibile costruire un modello per rilevare attività fraudolente. K-means clustering è un algoritmo di apprendimento automatico non supervisionato. Separa le osservazioni in un numero k di cluster basati sui modelli simili nei dati.

Dataset di intenti del chatbot

Il dataset per un chatbot è un file JSON che ha tag disparati come addio, saluti, farmacia_ricerca, ospedale_ricerca, ecc. Ogni tag ha una lista di modelli che un utente può chiedere, e il chatbot risponderà in base a quel modello. Il dataset è perfetto per capire come funzionano i dati dei chatbot.

Data Link: Intents JSON Dataset

Progetto Idea: Puoi costruire un chatbot o capire il funzionamento di un chatbot torcendo ed espandendo i dati con le tue osservazioni. Per costruire un Chatbot per conto tuo, devi avere una buona conoscenza dei concetti di elaborazione del linguaggio naturale.

Codice sorgente: Progetto Chatbot in Python

Flickr 30k Dataset

Il dataset Flickr 30k ha oltre 30.000 immagini, e ogni immagine è etichettata con diverse didascalie. Questo set di dati è usato per costruire un generatore di didascalie di immagini. E questo dataset è una versione aggiornata di Flickr 8k usata per costruire modelli più accurati.

Link dati: Flickr image dataset

Progetto Idea: È possibile costruire un modello CNN che è grande per analizzare ed estrarre le caratteristiche dall’immagine e generare una frase inglese che descrive l’immagine che si chiama Caption.

Parkinson Dataset

Parkinson è una malattia che può causare un disturbo del sistema nervoso e colpisce il movimento. Il set di dati Parkinson contiene misure biomediche, 195 record di persone con 23 attributi diversi. Questi dati sono usati per differenziare le persone sane e le persone con il morbo di Parkinson.

Data Link: Parkinson dataset

Progetto Idea: Puoi costruire un modello che può essere usato per differenziare le persone sane da quelle con la malattia di Parkinson. L’algoritmo utile a questo scopo è XGboost, che sta per extreme gradient boosting, ed è basato su alberi decisionali.

Codice sorgente: ML Project on Detecting Parkinson’s Disease

Iris Dataset

Il dataset iris è un dataset per principianti che ha informazioni sulle dimensioni dei petali e dei sepali dei fiori. Questo dataset ha 3 classi con 50 istanze in ogni classe, quindi contiene solo 150 righe con 4 colonne.

Data Link: Iris dataset

Progetto Idea: La classificazione è il compito di separare gli elementi nella loro classe corrispondente. Puoi implementare un modello di classificazione o regressione di machine learning sul dataset.

ImageNet dataset

ImageNet è un grande database di immagini che è organizzato secondo la gerarchia wordnet. Ha più di 100.000 frasi e una media di 1000 immagini per frase. La dimensione supera i 150 GB. È adatto per il riconoscimento delle immagini, il riconoscimento dei volti, il rilevamento degli oggetti, ecc. Ospita anche una competizione impegnativa chiamata ILSVRC per le persone che costruiscono modelli sempre più accurati.

Data Link: Imagenet Dataset

Progetto Idea: Implementare la classificazione delle immagini su questo enorme database e riconoscere gli oggetti. Il modello CNN (reti neurali convoluzionali) è necessario per questo progetto per ottenere risultati accurati.

7. Mall Customers Dataset

Il dataset Mall customers contiene i dettagli sulle persone che visitano il centro commerciale. Il set di dati ha l’età, l’id del cliente, il sesso, il reddito annuale e il punteggio di spesa. Ottiene intuizioni dai dati e divide i clienti in diversi gruppi in base ai loro comportamenti.

Link dataset: dataset clienti centro commerciale

Progetto Idea: Segmentare i clienti in base al loro sesso, età, interessi. È utile nel marketing personalizzato. La segmentazione dei clienti è una pratica importante di dividere i clienti in base a gruppi individuali che sono simili.

Codice sorgente: Segmentazione dei clienti con l’apprendimento automatico.

Portale dei dati di Google Trends

I dati delle tendenze di Google possono essere utilizzati per esaminare e analizzare i dati visivamente. È anche possibile scaricare il set di dati in file CSV con un semplice clic. Possiamo scoprire cosa è di tendenza e cosa le persone stanno cercando.

Link dati: Google trends datasets

The Boston Housing Dataset

Questo è un popolare dataset usato nel riconoscimento dei modelli. Contiene informazioni sulle diverse case di Boston in base al tasso di criminalità, tasse, numero di stanze, ecc. Ha 506 righe e 14 diverse variabili nelle colonne. È possibile utilizzare questo set di dati per prevedere i prezzi delle case.

Data Link: Boston dataset

Progetto Idea: Prevedere i prezzi di una nuova casa usando la regressione lineare. La regressione lineare è usata per predire i valori di input sconosciuti quando i dati hanno qualche relazione lineare tra le variabili di input e di output.

Uber Pickups Dataset

Il dataset ha informazioni su 4,5 milioni di prelievi Uber a New York City da aprile 2014 a settembre 2014 e altri 14 milioni da gennaio 2015 a giugno 2015. Gli utenti possono eseguire l’analisi dei dati e raccogliere approfondimenti dai dati.

Link dati: Uber pickups dataset

Progetto Idea: Analizzare i dati delle corse dei clienti e visualizzare i dati per trovare intuizioni che possono aiutare a migliorare il business. L’analisi e la visualizzazione dei dati è una parte importante della scienza dei dati. Sono utilizzati per raccogliere intuizioni dai dati, e con la visualizzazione, è possibile ottenere informazioni veloci dai dati.

Recommender Systems Dataset

Questo è un portale per una raccolta di ricchi set di dati che sono stati utilizzati in progetti di ricerca di laboratorio alla UCSD. Contiene vari set di dati da siti web popolari come recensioni di libri Goodreads, recensioni di prodotti Amazon, dati di baristi, dati dai social media, ecc. che sono usati nella costruzione di un sistema di raccomandazione.

Data Link: Recommender systems dataset

Progetto Idea: Costruire un sistema di raccomandazione di prodotti come Amazon. Un sistema di raccomandazione può suggerire prodotti, film, ecc. in base ai tuoi interessi e alle cose che ti piacciono e che hai usato in precedenza.

Codice sorgente: Movie Recommendation System Project

UCI Spambase Dataset

Classificare le email come spam o non spam è un compito molto comune e utile. Il dataset contiene 4601 email e 57 meta-informazioni sulle email. È possibile costruire modelli per filtrare lo spam.

Data Link: UCI spambase dataset

Progetto Idea: Puoi costruire un modello che può identificare le tue email come spam o non spam.

GTSRB (German traffic sign recognition benchmark) Dataset

Il dataset GTSRB contiene circa 50.000 immagini di segnali stradali appartenenti a 43 classi diverse e contiene informazioni sul bounding box di ogni segnale. Il set di dati è usato per la classificazione multiclasse.

Link dati: GTSRB dataset

Intelligenza Artificiale Progetto Idea: Costruire un modello utilizzando un framework di deep learning che classifichi i segnali stradali e riconosca anche il bounding box dei segnali. La classificazione dei segnali stradali è utile anche nei veicoli autonomi per identificare i segnali e poi intraprendere azioni appropriate.

Codice sorgente: Traffic Signs Recognition Python Project

Cityscapes Dataset

Questo è un dataset open-source per progetti di Computer Vision. Contiene annotazioni di alta qualità a livello di pixel di sequenze video prese in 50 diverse strade della città. Il dataset è utile nella segmentazione semantica e nell’addestramento di reti neurali profonde per comprendere la scena urbana.

Data Link: Cityscapes dataset

Progetto Idea: Eseguire la segmentazione dell’immagine e rilevare diversi oggetti da un video sulla strada. La segmentazione dell’immagine è il processo di partizione digitale di un’immagine in varie categorie diverse come automobili, autobus, persone, alberi, strade, ecc.

15. Kinetics Dataset

Ci sono tre diversi dataset per Kinetics: Kinetics 400, Kinetics 600, e Kinetics 700 dataset. Questo è un set di dati su larga scala che contiene un link URL a circa 6,5 milioni di video di alta qualità.

Data Link: Kinetics dataset

Idea del progetto: Costruire un modello di riconoscimento delle azioni umane e rilevare l’azione di un umano. Il riconoscimento dell’azione umana è riconosciuto da una serie di osservazioni.

IMDB-Wiki dataset

Il IMDB-Wiki dataset è uno dei più grandi set di dati open-source per immagini facciali con etichetta di sesso ed età. Le immagini sono raccolte da IMDB e Wikipedia. Ha 5 milioni e più di immagini etichettate.

Data Link: IMDB wiki dataset

Progetto Idea: Creare un modello che rilevi i volti e preveda il loro sesso e la loro età. Si possono avere categorie in diversi intervalli come 0-10, 10-20, 30-40, 50-60, ecc.

Dataset di rilevamento dei colori

Il dataset contiene un file CSV che ha 865 nomi di colori con i loro corrispondenti valori RGB (rosso, verde e blu) del colore. Ha anche il valore esadecimale del colore.

Data Link: Set di dati per il rilevamento del colore

Progetto Idea: Il dataset di colore può essere usato per fare un’app di rilevamento del colore in cui possiamo avere un’interfaccia per scegliere un colore dall’immagine e l’app mostrerà il nome del colore.

Codice sorgente: Color Detection Python Project

Urban Sound 8K dataset

Il dataset di suoni urbani contiene 8732 suoni urbani da 10 classi come un condizionatore d’aria, l’abbaiare del cane, la perforazione, la sirena, la musica di strada, ecc. Il set di dati è popolare per i problemi di classificazione dei suoni urbani.

Data Link: Urban Sound 8K dataset

Progetto Idea: Possiamo costruire un sistema di classificazione del suono per rilevare il tipo di suono urbano che suona in sottofondo. Questo vi aiuterà ad iniziare con i dati audio e a capire come lavorare con i dati non strutturati.

Librispeech Dataset

Questo dataset contiene un gran numero di discorsi inglesi che sono derivati dal progetto LibriVox. Ha 1000 ore di discorso letto in inglese in vari accenti. Viene utilizzato per progetti di riconoscimento vocale.

Link dati: Librispeech dataset

Idea del progetto: Costruire un modello di riconoscimento vocale per rilevare ciò che viene detto e convertirlo in testo. L’obiettivo del riconoscimento vocale è quello di identificare automaticamente ciò che viene detto nell’audio.

Breast Histopathology Images Dataset

Questo dataset contiene 2.77.524 immagini di dimensioni 50×50 estratte da 162 immagini di vetrini di campioni di cancro al seno scannerizzati a 40x. Ci sono 1.98.738 test negativi e 78.786 test positivi con IDC.

Data Link: Set di dati di istopatologia del seno

Idea del progetto: Costruire un modello che possa classificare il cancro al seno. Si costruisce un modello di classificazione delle immagini con reti neurali convoluzionali.

Codice sorgente: Breast Cancer Classification Python Project

Youtube 8M Dataset

The youtube 8M dataset è un dataset di video etichettati su larga scala che ha 6.1 milioni di id di video Youtube, 350.000 ore di video, 2.6 miliardi di caratteristiche audio/visive, 3862 classi e 3 etichette medie per video. È usato per scopi di classificazione video.

Link dati: Youtube 8M

Progetto Idea: La classificazione dei video può essere fatta usando il set di dati, e il modello può descrivere di cosa tratta il video. Un video prende una serie di input per classificare a quale categoria appartiene il video.

EndNote

In questo articolo, abbiamo visto più di 20 dataset di apprendimento automatico che puoi usare per praticare l’apprendimento automatico o la scienza dei dati. Creare un set di dati per conto proprio è costoso, quindi possiamo usare i set di dati di altre persone per fare il nostro lavoro. Ma dovremmo leggere attentamente i documenti del set di dati perché alcuni set di dati sono gratuiti, mentre per alcuni set di dati, è necessario dare credito al proprietario come indicato da loro.

Bio: Shivashish Thaku è un analista e scrittore di contenuti tecnici. È un fanatico della tecnologia che ama scrivere sulle ultime tecnologie all’avanguardia che stanno trasformando il mondo. È anche un appassionato di sport che ama giocare e guardare il calcio.

KDnuggets