20+ Machine Learning Datasets & Project Ideas

Por Shivashish Thakur, Marketing Digital, DataFlair.

Para construir un modelo perfecto, necesitas una gran cantidad de datos. Pero encontrar el conjunto de datos adecuado para su proyecto de aprendizaje automático y ciencia de datos es a veces una tarea bastante difícil. Hay muchas organizaciones, investigadores e individuos que han compartido su trabajo, y vamos a utilizar sus conjuntos de datos para construir nuestro proyecto.

Así que en este artículo, vamos a discutir 20+ Aprendizaje automático y Ciencia de Datos conjunto de datos e ideas de proyectos que puede utilizar para practicar y mejorar sus habilidades.

Enron Email Dataset

El Enron Dataset es popular en el procesamiento del lenguaje natural. Tiene más de 500K correos electrónicos de más de 150 usuarios. El tamaño de los datos es de unos 432Mb. De los 150 usuarios, la mayoría son altos directivos de Enron.

Enlace de datos: Enron email dataset

Idea del proyecto: Utilizando el clustering de k-means, se puede construir un modelo para detectar actividades fraudulentas. K-means clustering es un algoritmo de aprendizaje automático no supervisado. Separa las observaciones en un número k de clústeres basados en los patrones similares de los datos.

Conjunto de datos de intenciones de chatbot

El conjunto de datos de un chatbot es un archivo JSON que tiene etiquetas dispares como adiós, saludos, búsqueda_farmacia, búsqueda_hospital, etc. Cada etiqueta tiene una lista de patrones que un usuario puede preguntar, y el chatbot responderá según ese patrón. El conjunto de datos es perfecto para entender cómo funcionan los datos del chatbot.

Enlace de datos: Intents JSON Dataset

Idea de proyecto: Puedes construir un chatbot o entender el funcionamiento de un chatbot retorciendo y ampliando los datos con tus observaciones. Para construir un Chatbot propio, necesitas tener un buen conocimiento de los conceptos de procesamiento del lenguaje natural.

Código fuente: Chatbot Project in Python

Flickr 30k Dataset

El conjunto de datos Flickr 30k tiene más de 30.000 imágenes, y cada imagen está etiquetada con diferentes leyendas. Este conjunto de datos se utiliza para construir un generador de leyendas de imágenes. Y este conjunto de datos es una versión mejorada de Flickr 8k que se utiliza para construir modelos más precisos.

Enlace de datos: Flickr image dataset

Idea del proyecto: Se puede construir un modelo CNN que es genial para analizar y extraer características de la imagen y generar una frase en inglés que describa la imagen que se llama Caption.

Parkinson Dataset

El Parkinson es una enfermedad que puede causar un trastorno del sistema nervioso y afecta al movimiento. El conjunto de datos de Parkinson contiene mediciones biomédicas, 195 registros de personas con 23 atributos diferentes. Estos datos se utilizan para diferenciar a las personas sanas de las que padecen la enfermedad de Parkinson.

Enlace de datos: Parkinson dataset

Idea del proyecto: Se puede construir un modelo que sirva para diferenciar a las personas sanas de las que tienen la enfermedad de Parkinson. El algoritmo que es útil para este propósito es XGboost, que significa extreme gradient boosting, y está basado en árboles de decisión.

Código fuente: ML Project on Detecting Parkinson’s Disease

Iris Dataset

El conjunto de datos del iris es un conjunto de datos para principiantes que tiene información sobre el tamaño de los pétalos y los sépalos de las flores. Este conjunto de datos tiene 3 clases con 50 instancias en cada clase, por lo que sólo contiene 150 filas con 4 columnas.

Enlace de datos: Iris dataset

Idea del proyecto: La clasificación es la tarea de separar los elementos en su clase correspondiente. Puedes implementar un modelo de clasificación o regresión de aprendizaje automático en el conjunto de datos.

Conjunto de datos de ImageNet

ImageNet es una gran base de datos de imágenes que está organizada según la jerarquía de la red de palabras. Tiene más de 100.000 frases y una media de 1000 imágenes por frase. Su tamaño supera los 150 GB. Es adecuada para el reconocimiento de imágenes, el reconocimiento de caras, la detección de objetos, etc. También alberga un concurso de retos llamado ILSVRC para que la gente construya modelos cada vez más precisos.

Enlace de datos: Imagenet Dataset

Idea del proyecto: Implementar la clasificación de imágenes en esta enorme base de datos y reconocer objetos. El modelo CNN (redes neuronales convolucionales) es necesario para este proyecto para obtener resultados precisos.

7. Mall Customers Dataset

El conjunto de datos de los clientes del centro comercial contiene los detalles sobre las personas que visitan el centro comercial. El conjunto de datos tiene una edad, un identificador de cliente, un género, unos ingresos anuales y una puntuación de gasto. Obtiene información de los datos y divide a los clientes en diferentes grupos en función de sus comportamientos.

Enlace del conjunto de datos: mall customers dataset

Idea del proyecto: Segmentar a los clientes en función de su sexo, edad, intereses. Es útil en el marketing personalizado. La segmentación de clientes es una práctica importante de dividir a los clientes en base a grupos individuales que son similares.

Código fuente: Segmentación de clientes con Machine learning.

Portal de datos de Google Trends

Los datos de Google Trends se pueden utilizar para examinar y analizar los datos visualmente. También se puede descargar el conjunto de datos en archivos CSV con un simple clic. Podemos saber qué es tendencia y qué busca la gente.

Enlace de datos: Google trends datasets

The Boston Housing Dataset

Este es un popular conjunto de datos utilizado en el reconocimiento de patrones. Contiene información sobre las diferentes viviendas de Boston en función de la tasa de criminalidad, los impuestos, el número de habitaciones, etc. Tiene 506 filas y 14 variables diferentes en columnas. Puede utilizar este conjunto de datos para predecir los precios de las casas.

Enlace de datos: Boston dataset

Idea del proyecto: Predecir los precios de la vivienda de una nueva casa utilizando la regresión lineal. La regresión lineal se utiliza para predecir valores de entrada desconocidos cuando los datos tienen alguna relación lineal entre las variables de entrada y salida.

Set de datos de Uber Pickups

El conjunto de datos tiene información sobre 4,5 millones de recogidas de Uber en la ciudad de Nueva York desde abril de 2014 hasta septiembre de 2014 y 14 millones más desde enero de 2015 hasta junio de 2015. Los usuarios pueden realizar análisis de datos y obtener información de los mismos.

Enlace de datos: Uber pickups dataset

Idea del proyecto: Analizar los datos de los viajes de los clientes y visualizar los datos para encontrar insights que puedan ayudar a mejorar el negocio. El análisis y la visualización de datos es una parte importante de la ciencia de datos. Se utilizan para recoger ideas de los datos, y con la visualización, se puede obtener información rápida de los datos.

Recommender Systems Dataset

Este es un portal a una colección de conjuntos de datos ricos que se utilizaron en proyectos de investigación de laboratorio en la UCSD. Contiene varios conjuntos de datos de sitios web populares como las reseñas de libros de Goodreads, las reseñas de productos de Amazon, datos de camareros, datos de medios sociales, etc. que se utilizan en la construcción de un sistema de recomendación.

Enlace de datos: Conjunto de datos de sistemas de recomendación

Idea del proyecto: Construir un sistema de recomendación de productos como Amazon. Un sistema de recomendación puede sugerir tus productos, películas, etc. basándose en tus intereses y en las cosas que te gustan y has usado antes.

Código fuente: Movie Recommendation System Project

UCI Spambase Dataset

Clasificar los correos electrónicos como spam o no spam es una tarea muy común y útil. El conjunto de datos contiene 4601 correos electrónicos y 57 metainformación sobre los mismos. Se pueden construir modelos para filtrar el spam.

Enlace de datos: UCI spambase dataset

Idea del proyecto: Se puede construir un modelo que pueda identificar los correos electrónicos como spam o no.

GTSRB (German traffic sign recognition benchmark) Dataset

El conjunto de datos GTSRB contiene alrededor de 50.000 imágenes de señales de tráfico pertenecientes a 43 clases diferentes y contiene información sobre el cuadro delimitador de cada señal. El conjunto de datos se utiliza para la clasificación multiclase.

Enlace de datos: GTSRB dataset

Idea de proyecto de inteligencia artificial: Construir un modelo utilizando un marco de aprendizaje profundo que clasifique las señales de tráfico y también reconozca el cuadro delimitador de las señales. La clasificación de señales de tráfico también es útil en los vehículos autónomos para identificar las señales y luego tomar las acciones apropiadas.

Código fuente: Traffic Signs Recognition Python Project

Cityscapes Dataset

Este es un conjunto de datos de código abierto para proyectos de Computer Vision. Contiene anotaciones de alta calidad a nivel de píxel de secuencias de vídeo tomadas en 50 calles diferentes de la ciudad. El conjunto de datos es útil para la segmentación semántica y el entrenamiento de redes neuronales profundas para entender la escena urbana.

Enlace de datos: Cityscapes dataset

Idea del proyecto: Realizar la segmentación de la imagen y detectar los diferentes objetos de un vídeo en la calle. La segmentación de imágenes es el proceso de dividir digitalmente una imagen en varias categorías diferentes como coches, autobuses, personas, árboles, carreteras, etc.

15. Kinetics Dataset

Hay tres conjuntos de datos diferentes para Kinetics: Kinetics 400, Kinetics 600 y Kinetics 700 dataset. Se trata de un conjunto de datos a gran escala que contiene un enlace URL a unos 6,5 millones de vídeos de alta calidad.

Enlace de datos: Kinetics dataset

Idea del proyecto: Construir un modelo de reconocimiento de acciones humanas y detectar la acción de un humano. El reconocimiento de la acción humana se reconoce mediante una serie de observaciones.

Conjunto de datos IMDB-Wiki

El conjunto de datos IMDB-Wiki es uno de los mayores conjuntos de datos de código abierto para imágenes de rostros con género y edad etiquetados. Las imágenes se recogen de IMDB y Wikipedia. Tiene más de 5 millones de imágenes etiquetadas.

Enlace de datos: IMDB wiki dataset

Idea del proyecto: Hacer un modelo que detecte rostros y prediga su género y edad. Puede tener categorías en diferentes rangos como 0-10, 10-20, 30-40, 50-60, etc.

Conjunto de datos de detección de color

El conjunto de datos contiene un archivo CSV que tiene 865 nombres de colores con sus correspondientes valores RGB (rojo, verde y azul) del color. También tiene el valor hexadecimal del color.

Enlace de datos: Color Detection Dataset

Idea del proyecto: El conjunto de datos de color puede utilizar para hacer una aplicación de detección de color en el que podemos tener una interfaz para elegir un color de la imagen y la aplicación mostrará el nombre del color.

Código fuente: Color Detection Python Project

Urban Sound 8K dataset

El conjunto de datos de sonido urbano contiene 8732 sonidos urbanos de 10 clases como un acondicionador de aire, ladrido de perro, taladro, sirena, música de la calle, etc. El conjunto de datos es popular para los problemas de clasificación de sonidos urbanos.

Enlace de datos: Urban Sound 8K dataset

Idea del proyecto: Podemos construir un sistema de clasificación de sonido para detectar el tipo de sonido urbano que se reproduce en el fondo. Esto le ayudará a iniciarse en los datos de audio y a entender cómo trabajar con datos no estructurados.

Librispeech Dataset

Este conjunto de datos contiene un gran número de discursos en inglés que provienen del proyecto LibriVox. Tiene 1000 horas de discurso leído en inglés con varios acentos. Se utiliza para proyectos de reconocimiento del habla.

Enlace de datos: Librispeech dataset

Idea del proyecto: Construir un modelo de reconocimiento del habla para detectar lo que se dice y convertirlo en texto. El objetivo del reconocimiento del habla es identificar automáticamente lo que se dice en el audio.

Breast Histopathology Images Dataset

Este conjunto de datos contiene 2.77.524 imágenes de tamaño 50×50 extraídas de 162 imágenes de portaobjetos de cáncer de mama escaneadas a 40x. Hay 1.98.738 pruebas negativas y 78.786 pruebas positivas con IDC.

Enlace de datos: Conjunto de datos de histopatología mamaria

Idea del proyecto: Construir un modelo que pueda clasificar el cáncer de mama. Se construye un modelo de clasificación de imágenes con redes neuronales convolucionales.

Código fuente: Breast Cancer Classification Python Project

Youtube 8M Dataset

The youtube 8M dataset is a large scale labeled video dataset that has 6.1 million Youtube video ids, 350,000 hours of video, 2.6 billion audio/visual features, 3862 classes, and 3 avg labels per video. Se utiliza para la clasificación de vídeos.

Enlace de datos: Youtube 8M

Idea del proyecto: La clasificación de vídeos se puede hacer utilizando el conjunto de datos, y el modelo puede describir de qué trata el vídeo. Un vídeo toma una serie de entradas para clasificar en qué categoría pertenece el vídeo.

Nota final

En este artículo, vimos más de 20 conjuntos de datos de aprendizaje automático que puedes utilizar para practicar el aprendizaje automático o la ciencia de datos. Crear un conjunto de datos por tu cuenta es caro, así que podemos utilizar los conjuntos de datos de otras personas para realizar nuestro trabajo. Pero debemos leer los documentos del conjunto de datos cuidadosamente porque algunos conjuntos de datos son libres, mientras que para algunos conjuntos de datos, usted tiene que dar crédito al propietario como se indica por ellos.

Bio: Shivashish Thaku es un analista y escritor de contenido técnico. Es un fanático de la tecnología que le encanta escribir sobre las últimas tecnologías de vanguardia que están transformando el mundo. También es un fanático de los deportes que le encanta jugar y ver el fútbol.

Relacionado:

KDnuggets