KDnuggets

Par Shivashish Thakur, Digital Marketing, DataFlair.

Pour construire un modèle parfait, vous avez besoin d’une grande quantité de données. Mais trouver le bon ensemble de données pour votre apprentissage automatique et votre projet de science des données est parfois une tâche assez difficile. Il y a beaucoup d’organisations, de chercheurs et d’individus qui ont partagé leur travail, et nous utiliserons leurs ensembles de données pour construire notre projet.

Donc, dans cet article, nous allons discuter de 20+ ensembles de données d’apprentissage automatique et de science des données et des idées de projets que vous pouvez utiliser pour pratiquer et améliorer vos compétences.

Enron Email Dataset

L’ensemble de données Enron est populaire dans le traitement du langage naturel. Il comporte plus de 500K emails de plus de 150 utilisateurs. La taille des données est d’environ 432Mb. Sur les 150 utilisateurs, la plupart sont des cadres supérieurs d’Enron.

Lien des données : Enron email dataset

Idée du projet : En utilisant le clustering k-means, vous pouvez construire un modèle pour détecter les activités frauduleuses. Le clustering K-means est un algorithme d’apprentissage automatique non supervisé. Il sépare les observations en un nombre k de clusters basés sur les modèles similaires dans les données.

Chatbot Intents Dataset

Le jeu de données pour un chatbot est un fichier JSON qui a des tags disparates comme goodbye, greetings, pharmacy_search, hospital_search, etc. Chaque balise possède une liste de motifs qu’un utilisateur peut demander, et le chatbot répondra en fonction de ce motif. Cet ensemble de données est parfait pour comprendre le fonctionnement des données de chatbot.

Lien de données : Intents JSON Dataset

Idée du projet : Vous pouvez construire un chatbot ou comprendre le fonctionnement d’un chatbot en tordant et en élargissant les données avec vos observations. Pour construire un Chatbot de votre propre chef, vous devez avoir une bonne connaissance des concepts de traitement du langage naturel.

Code source : Projet Chatbot en Python

Flickr 30k Dataset

Le jeu de données Flickr 30k comporte plus de 30 000 images, et chaque image est étiquetée avec différentes légendes. Ce jeu de données est utilisé pour construire un générateur de légendes d’images. Et ce jeu de données est une version améliorée de Flickr 8k utilisée pour construire des modèles plus précis.

Lien de données : Flickr image dataset

Idée de projet : Vous pouvez construire un modèle CNN qui est génial pour analyser et extraire les caractéristiques de l’image et générer une phrase anglaise qui décrit l’image qui est appelée Caption.

Parkinson Dataset

La maladie de Parkinson est une maladie qui peut causer un trouble du système nerveux et affecte le mouvement. Le jeu de données Parkinson contient des mesures biomédicales, 195 enregistrements de personnes avec 23 attributs différents. Ces données sont utilisées pour différencier les personnes en bonne santé et les personnes atteintes de la maladie de Parkinson.

Lien des données : Parkinson dataset

Idée du projet : Vous pouvez construire un modèle qui peut être utilisé pour différencier les personnes en bonne santé des personnes atteintes de la maladie de Parkinson. L’algorithme qui est utile à cette fin est XGboost, qui signifie extreme gradient boosting, et il est basé sur des arbres de décision.

Code source : Projet ML sur la détection de la maladie de Parkinson

Jeu de données d’iris

Le jeu de données d’iris est un jeu de données convivial pour les débutants qui a des informations sur la taille des pétales et des sépales de la fleur. Ce jeu de données a 3 classes avec 50 instances dans chaque classe, donc ne contient que 150 lignes avec 4 colonnes.

Lien de données : Jeu de données Iris

Idée du projet : La classification est la tâche de séparer les éléments dans leur classe correspondante. Vous pouvez mettre en œuvre un modèle de classification ou de régression par apprentissage automatique sur le jeu de données.

Jeu de données ImageNet

ImageNet est une grande base de données d’images qui est organisée selon la hiérarchie wordnet. Elle compte plus de 100 000 phrases et une moyenne de 1000 images par phrase. Sa taille dépasse les 150 Go. Elle est adaptée à la reconnaissance d’images, à la reconnaissance de visages, à la détection d’objets, etc. Il accueille également un concours stimulant nommé ILSVRC pour que les gens construisent des modèles de plus en plus précis.

Lien de données : Imagenet Dataset

Idée du projet : Mettre en œuvre la classification d’images sur cette énorme base de données et reconnaître des objets. Le modèle CNN (réseaux neuronaux convolutifs) est nécessaire pour ce projet afin d’obtenir des résultats précis.

7. Mall Customers Dataset

Le Mall customers dataset détient les détails sur les personnes qui visitent le centre commercial. L’ensemble de données a un âge, un identifiant de client, un sexe, un revenu annuel et un score de dépenses. Il obtient des informations à partir des données et divise les clients en différents groupes en fonction de leurs comportements.

Lien du jeu de données : mall customers dataset

Idée du projet : Segmenter les clients en fonction de leur sexe, de leur âge, de leurs intérêts. C’est utile dans le marketing personnalisé. La segmentation des clients est une pratique importante qui consiste à diviser les clients en fonction de groupes individuels qui sont similaires.

Code source : Customer segmentation with Machine learning.

Google Trends Data Portal

Les données de Google trends peuvent être utilisées pour examiner et analyser les données visuellement. On peut également télécharger l’ensemble des données en fichiers CSV d’un simple clic. On peut découvrir ce qui est tendance et ce que les gens recherchent.

Lien de données : Jeux de données sur les tendances Google

Le jeu de données sur les logements de Boston

C’est un jeu de données populaire utilisé dans la reconnaissance des formes. Il contient des informations sur les différentes maisons de Boston en fonction du taux de criminalité, de la taxe, du nombre de pièces, etc. Il comporte 506 lignes et 14 variables différentes en colonnes. Vous pouvez utiliser ce jeu de données pour prédire les prix des maisons.

Lien de données : Jeu de données de Boston

Idée de projet : Prédire les prix des logements d’une nouvelle maison en utilisant la régression linéaire. La régression linéaire est utilisée pour prédire les valeurs d’une entrée inconnue lorsque les données présentent une certaine relation linéaire entre les variables d’entrée et de sortie.

Données sur les ramassages Uber

Le jeu de données contient des informations sur 4,5 millions de ramassages Uber dans la ville de New York d’avril 2014 à septembre 2014 et 14 millions de plus de janvier 2015 à juin 2015. Les utilisateurs peuvent effectuer des analyses de données et recueillir des informations à partir de ces données.

Lien de données : Ensemble de données sur les ramassages Uber

Idée du projet : Analyser les données des trajets des clients et visualiser les données pour trouver des insights qui peuvent aider à améliorer les affaires. L’analyse et la visualisation des données sont une partie importante de la science des données. Elles sont utilisées pour recueillir des idées à partir des données, et avec la visualisation, vous pouvez obtenir des informations rapides à partir des données.

Recommender Systems Dataset

C’est un portail vers une collection de riches ensembles de données qui ont été utilisés dans des projets de recherche en laboratoire à l’UCSD. Il contient divers ensembles de données provenant de sites Web populaires comme les critiques de livres Goodreads, les critiques de produits Amazon, les données de barman, les données des médias sociaux, etc. qui sont utilisés dans la construction d’un système de recommandation.

Lien de données : Ensemble de données sur les systèmes de recommandation

Idée du projet : Construire un système de recommandation de produits comme Amazon. Un système de recommandation peut vous suggérer vos produits, vos films, etc. en fonction de vos intérêts et des choses que vous aimez et que vous avez utilisées précédemment.

Code source : Projet de système de recommandation de films

UCI Spambase Dataset

Classifier les emails comme spam ou non-spam est une tâche très commune et utile. Le jeu de données contient 4601 emails et 57 méta-informations sur les emails. Vous pouvez construire des modèles pour filtrer le spam.

Lien des données : UCI spambase dataset

Idée du projet : Vous pouvez construire un modèle qui peut identifier vos courriels comme spam ou non-spam.

GTSRB (German traffic sign recognition benchmark) Dataset

Le dataset GTSRB contient environ 50 000 images de panneaux de signalisation appartenant à 43 classes différentes et contient des informations sur la boîte de délimitation de chaque panneau. Le jeu de données est utilisé pour la classification multiclasse.

Lien des données : Jeu de données GTSRB

Idée de projet d’intelligence artificielle : Construire un modèle utilisant un cadre d’apprentissage profond qui classifie les panneaux de signalisation et reconnaît également la boîte limitante des panneaux. La classification des panneaux de signalisation est également utile dans les véhicules autonomes pour identifier les panneaux et ensuite prendre les mesures appropriées.

Code source : Projet Python de reconnaissance des panneaux de signalisation

Donnée Cityscapes

C’est un ensemble de données open-source pour les projets de vision par ordinateur. Il contient des annotations de haute qualité au niveau des pixels de séquences vidéo prises dans 50 rues de villes différentes. Ce jeu de données est utile pour la segmentation sémantique et l’entraînement des réseaux neuronaux profonds pour comprendre la scène urbaine.

Lien de données : Cityscapes dataset

Idée du projet : Effectuer une segmentation d’image et détecter différents objets à partir d’une vidéo sur la route. La segmentation d’image est le processus de partition numérique d’une image en différentes catégories différentes comme les voitures, les bus, les personnes, les arbres, les routes, etc.

15. Jeu de données Kinetics

Il existe trois jeux de données différents pour Kinetics : Kinetics 400, Kinetics 600, et Kinetics 700 dataset. Il s’agit d’un ensemble de données à grande échelle qui contient un lien URL vers environ 6,5 millions de vidéos de haute qualité.

Lien de données : Kinetics dataset

Idée du projet : construire un modèle de reconnaissance d’action humaine et détecter l’action d’un humain. La reconnaissance d’une action humaine est reconnue par une série d’observations.

Jeu de données IMDB-Wiki

Le jeu de données IMDB-Wiki est l’un des plus grands jeux de données open-source pour les images de visage avec le sexe et l’âge étiquetés. Les images sont collectées sur IMDB et Wikipedia. Il compte plus de 5 millions d’images étiquetées.

Lien de données : Ensemble de données IMDB wiki

Idée du projet : Faites un modèle qui va détecter les visages et prédire leur sexe et leur âge. Vous pouvez avoir des catégories dans différentes gammes comme 0-10, 10-20, 30-40, 50-60, etc.

Données de détection de couleurs

Le jeu de données contient un fichier CSV qui a 865 noms de couleurs avec leurs valeurs RVB (rouge, vert et bleu) correspondantes de la couleur. Il comporte également la valeur hexadécimale de la couleur.

Lien de données : Color Detection Dataset

Idée du projet : Le jeu de données de couleur peut être utilisé pour faire une application de détection de couleur dans laquelle nous pouvons avoir une interface pour choisir une couleur à partir de l’image et l’application affichera le nom de la couleur.

Code source : Color Detection Python Project

Urban Sound 8K dataset

Le dataset de sons urbains contient 8732 sons urbains de 10 classes comme un climatiseur, un aboiement de chien, un forage, une sirène, une musique de rue, etc. Ce jeu de données est populaire pour les problèmes de classification des sons urbains.

Lien des données : Urban Sound 8K dataset

Idée du projet : Nous pouvons construire un système de classification sonore pour détecter le type de son urbain jouant en arrière-plan. Cela vous aidera à démarrer avec des données audio et à comprendre comment travailler avec des données non structurées.

Librispeech Dataset

Ce jeu de données contient un grand nombre de discours anglais qui sont dérivés du projet LibriVox. Il compte 1000 heures de discours lus en anglais dans différents accents. Il est utilisé pour des projets de reconnaissance vocale.

Lien de données : Librispeech dataset

Idée du projet : Construire un modèle de reconnaissance vocale pour détecter ce qui est dit et le convertir en texte. L’objectif de la reconnaissance vocale est d’identifier automatiquement ce qui est dit dans l’audio.

Breast Histopathology Images Dataset

Ce jeu de données contient 2,77,524 images de taille 50×50 extraites de 162 diapositives de montage de spécimens de cancer du sein scannées à 40x. Il y a 1 98 738 tests négatifs et 78 786 tests positifs avec IDC.

Lien de données : Ensemble de données d’histopathologie mammaire

Idée du projet : Construire un modèle capable de classifier le cancer du sein. Vous construisez un modèle de classification d’images avec des réseaux neuronaux convolutifs.

Code source : Breast Cancer Classification Python Project

Youtube 8M Dataset

Le youtube 8M dataset est un jeu de données vidéo étiqueté à grande échelle qui a 6,1 millions d’identifiants vidéo Youtube, 350 000 heures de vidéo, 2,6 milliards de caractéristiques audio/visuelles, 3862 classes et 3 étiquettes moyennes par vidéo. Il est utilisé à des fins de classification des vidéos.

Lien des données : Youtube 8M

Idée du projet : La classification des vidéos peut être faite en utilisant l’ensemble de données, et le modèle peut décrire ce dont parle la vidéo. Une vidéo prend une série d’entrées pour classer dans quelle catégorie la vidéo appartient.

EndNote

Dans cet article, nous avons vu plus de 20 ensembles de données d’apprentissage automatique que vous pouvez utiliser pour pratiquer l’apprentissage automatique ou la science des données. La création d’un jeu de données sur votre propre est coûteux, donc nous pouvons utiliser les jeux de données d’autres personnes pour faire notre travail. Mais nous devons lire attentivement les documents du jeu de données parce que certains jeux de données sont gratuits, tandis que pour certains jeux de données, vous devez donner du crédit au propriétaire comme indiqué par eux.

Bio : Shivashish Thaku est un analyste et un rédacteur de contenu technique. C’est un fou de technologie qui aime écrire sur les dernières technologies de pointe qui transforment le monde. Il est également un fan de sport qui aime jouer et regarder le football.

Related:

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.