20+ Datasets de Aprendizagem de Máquina & Idéias de Projeto

Por Shivashish Thakur, Digital Marketing, DataFlair.

Para Construir um modelo perfeito, você precisa de uma grande quantidade de dados. Mas encontrar o conjunto de dados certo para a aprendizagem da sua máquina e projeto de ciência de dados é às vezes uma tarefa bastante desafiadora. Há muitas organizações, pesquisadores e indivíduos que compartilharam seu trabalho, e nós usaremos seus conjuntos de dados para construir nosso projeto.

Então, neste artigo, vamos discutir 20+ Machine learning and Data Science data dataet e idéias de projeto que você pode usar para praticar e atualizar suas habilidades.

Enron Email Dataset

The Enron Dataset é popular no processamento de linguagem natural. Ele tem mais de 500K e-mails de mais de 150 usuários. O tamanho dos dados é de cerca de 432Mb. De 150 usuários, a maioria dos usuários é a gerência sênior da Enron.

Data Link: Conjunto de dados de e-mail da Enron

Project Idea: Usando o clustering k significa, você pode construir um modelo para detectar atividades fraudulentas. O K significa clustering é um algoritmo de aprendizagem não supervisionado pela máquina. Ele separa as observações em k número de clusters com base nos padrões similares nos dados.

Chatbot Intents Dataset

O conjunto de dados para um chatbot é um arquivo JSON que tem tags díspares como adeus, saudações, pharmacy_search, hospital_search, etc. Cada tag tem uma lista de padrões que um usuário pode pedir, e o chatbot responderá de acordo com esse padrão. O conjunto de dados é perfeito para entender como funcionam os dados do chatbot.

Data Link: Intents JSON Dataset

Project Idea: Você pode construir um chatbot ou entender o funcionamento de um chatbot torcendo e expandindo os dados com suas observações. Para construir um Chatbot próprio, você precisa ter um bom conhecimento dos conceitos de processamento de linguagem natural.

Código Fonte: Projeto Chatbot em Python

Dataset 30k do Flickr

O conjunto de dados do Flickr 30k tem mais de 30.000 imagens, e cada imagem é etiquetada com legendas diferentes. Este conjunto de dados é usado para construir um gerador de legendas de imagens. E este conjunto de dados é uma versão atualizada do Flickr 8k usada para construir modelos mais precisos.

Data Link: Flickr image dataet

Project Idea: Você pode construir um modelo CNN que é ótimo para analisar e extrair características da imagem e gerar uma frase em inglês que descreve a imagem que se chama Caption.

Parkinson Dataset

Parkinson é uma doença que pode causar um distúrbio do sistema nervoso e afetar o movimento. O conjunto de dados de Parkinson contém medidas biomédicas, 195 registros de pessoas com 23 atributos diferentes. Estes dados são usados para diferenciar pessoas saudáveis e pessoas com doença de Parkinson.

Data Link: Parkinson dataet

Projeto Idéia: Você pode construir um modelo que pode ser usado para diferenciar pessoas saudáveis de pessoas com doença de Parkinson. O algoritmo que é útil para este propósito é o XGboost, que representa um aumento do gradiente extremo, e é baseado em árvores de decisão.

Código da fonte: ML Project on Detecting Parkinson’s Disease

Iris Dataset

O conjunto de dados da íris é um conjunto de dados para iniciantes que tem informações sobre os tamanhos das pétalas e sépalas das flores. Este conjunto de dados tem 3 classes com 50 instâncias em cada classe, portanto contém apenas 150 linhas com 4 colunas.

Data Link: Conjunto de dados Iris

Project Idea: A classificação é a tarefa de separar os itens em sua classe correspondente. Você pode implementar uma classificação de aprendizagem de máquina ou modelo de regressão no conjunto de dados.

ImageNet dataet

ImageNet é um grande banco de dados de imagens que é organizado de acordo com a hierarquia de wordnet. Tem mais de 100.000 frases e uma média de 1000 imagens por frase. O tamanho excede 150 GB. É adequado para o reconhecimento de imagens, reconhecimento facial, detecção de objetos, etc. Também hospeda uma competição desafiadora chamada ILSVRC para que as pessoas construam modelos cada vez mais precisos.

Data Link: Imagenet Dataset

Project Idea: Para implementar a classificação de imagens nesta enorme base de dados e reconhecer objectos. O modelo CNN (Convolutional neural networks) é necessário para que este projeto obtenha resultados precisos.

7. Mall Customers Dataset

The Mall customers dataet holds the details about people visiting the mall. O conjunto de dados tem uma idade, identificação do cliente, sexo, renda anual e pontuação de gastos. Ele obtém insights a partir dos dados e divide os clientes em diferentes grupos com base em seus comportamentos.

Dataset Link: mall customerset

Project Idea: Segmentar os clientes com base no seu sexo, idade, interesse. É útil no marketing personalizado. Segmentação de clientes é uma prática importante de divisão de clientes com base em grupos individuais que são similares.

Código da fonte: Segmentação de clientes com aprendizado de máquina.

Google Trends Data Portal

Dados de tendências do Google podem ser usados para examinar e analisar os dados visualmente. Você também pode baixar o conjunto de dados em arquivos CSV com um simples clique. Nós podemos descobrir o que é tendência e o que as pessoas estão procurando.

Ligação de dados: Conjuntos de dados de tendências do Google

The Boston Housing Dataset

Este é um conjunto de dados popular usado no reconhecimento de padrões. Ele contém informações sobre as diferentes casas em Boston com base na taxa de criminalidade, impostos, número de quartos, etc. Tem 506 linhas e 14 variáveis diferentes em colunas. Você pode usar este conjunto de dados para prever os preços das casas.

Data Link: Conjunto de dados de Boston

Projecto Ideia: Prever os preços de uma nova casa usando a regressão linear. A regressão linear é usada para prever valores de entrada desconhecidos quando os dados têm alguma relação linear entre as variáveis de entrada e saída.

Uber Pickups Dataset

O conjunto de dados tem informações sobre 4,5 milhões de pickups Uber em Nova Iorque de Abril de 2014 a Setembro de 2014 e mais 14 milhões de Janeiro de 2015 a Junho de 2015. Os usuários podem realizar análises de dados e reunir insights a partir dos dados.

Data Link: Conjunto de dados das captações Uber

Projecto Ideia: Analisar os dados das viagens dos clientes e visualizar os dados para encontrar insights que possam ajudar a melhorar os negócios. A análise e visualização dos dados é uma parte importante da ciência dos dados. Eles são usados para coletar insights dos dados, e com a visualização, você pode obter informações rápidas dos dados.

Recommender Systems Dataset

Este é um portal para uma coleção de conjuntos de dados ricos que foram usados em projetos de pesquisa de laboratório na UCSD. Ele contém vários conjuntos de dados de sites populares como Goodreads revisões de livros, revisões de produtos Amazon, dados de bartending, dados de mídias sociais, etc que são usados na construção de um sistema de recomendação.

Data Link: Conjunto de dados de sistemas de recomendação

Project Idea: Construir um sistema de recomendação de produtos como o da Amazon. Um sistema de recomendação pode sugerir seus produtos, filmes, etc. baseado em seus interesses e nas coisas que você gosta e já usou antes.

Código fonte: Movie Recommendation System Project

UCI Spambase Dataset

Classificar e-mails como spam ou não-spam é uma tarefa muito comum e útil. O conjunto de dados contém 4601 e-mails e 57 meta-informações sobre os e-mails. Você pode construir modelos para filtrar o spam.

Ligação de dados: UCI spambase dataet

Project Idea: Você pode construir um modelo que possa identificar seus e-mails como spam ou não-spam.

GTSRB (German traffic sign recognition benchmark) Dataset

O conjunto de dados GTSRB contém cerca de 50.000 imagens de sinais de tráfego pertencentes a 43 classes diferentes e contém informações sobre a caixa de delimitação de cada sinal. O conjunto de dados é usado para classificação multiclasse.

Data Link: Conjunto de dados GTSRB

Artificial Intelligence Project Idea: Construa um modelo usando uma estrutura de aprendizagem profunda que classifica sinais de tráfego e também reconhece a caixa delimitadora de sinais. A classificação dos sinais de tráfego também é útil em veículos autônomos para identificar sinais e depois tomar as ações apropriadas.

Código Fonte: Projeto Python de Reconhecimento de Sinais de Tráfego

Dataset de Cityscapes

Este é um conjunto de dados de código aberto para projetos Computer Vision. Ele contém anotações de alta qualidade em nível de pixel de sequências de vídeo tiradas em 50 ruas diferentes da cidade. O conjunto de dados é útil na segmentação semântica e no treinamento de redes neurais profundas para entender a cena urbana.

Data Link: Cityscapes dataet

Project Idea: Para realizar a segmentação de imagens e detectar diferentes objetos a partir de um vídeo na estrada. A segmentação de imagem é o processo de divisão digital de uma imagem em várias categorias diferentes como carros, ônibus, pessoas, árvores, estradas, etc.

15. Kinetics Dataset

Existem três conjuntos de dados diferentes para Kinetics: Kinetics 400, Kinetics 600, e Kinetics 700. Este é um conjunto de dados em grande escala que contém um link URL para cerca de 6,5 milhões de vídeos de alta qualidade.

Data Link: Kinetics dataet

Project Idea: Construa um modelo de reconhecimento da acção humana e detecte a acção de um humano. O reconhecimento da ação humana é reconhecido por uma série de observações.

MDB-Wiki dataet

O conjunto de dados IMDB-Wiki é um dos maiores conjuntos de dados de código aberto para imagens de rosto com o rótulo de gênero e idade. As imagens são coletadas do IMDB e da Wikipedia. Tem mais de 5 milhões de imagens rotuladas.

Data Link: Conjunto de dados wiki IMDB

Project Idea: Fazer um modelo que detectará rostos e preverá o seu sexo e idade. Você pode ter categorias em diferentes faixas como 0-10, 10-20, 30-40, 50-60, etc.

Dataset de detecção de cores

O conjunto de dados contém um arquivo CSV que tem 865 nomes de cores com seus correspondentes valores RGB (vermelho, verde e azul) da cor. Também tem o valor hexadecimal da cor.

Ligação de dados: Dataset de detecção de cor

Projeto Idéia: O conjunto de dados de cor pode ser usado para fazer um aplicativo de detecção de cor no qual podemos ter uma interface para escolher uma cor da imagem e o aplicativo exibirá o nome da cor.

Source Code: Color Detection Python Project

Urban Sound 8K dataet

O conjunto de dados de som urbano contém 8732 sons urbanos de 10 classes como um ar condicionado, casca de cão, perfuração, sirene, música de rua, etc. O conjunto de dados é popular para problemas de classificação de sons urbanos.

Data Link: Conjunto de dados Urban Sound 8K

Project Idea: Podemos construir um sistema de classificação de som para detectar o tipo de som urbano a tocar em segundo plano. Isso ajudará você a começar com dados de áudio e entender como trabalhar com dados não estruturados.

Librispeech Dataset

Este conjunto de dados contém um grande número de discursos em inglês que são derivados do projeto LibriVox. Tem 1000 horas de discurso em inglês com vários sotaques. É usado para projetos de reconhecimento de fala.

Data Link: Librispeech dataet

Project Idea: Construa um modelo de reconhecimento de fala para detectar o que está sendo dito e convertê-lo em texto. O objetivo do reconhecimento de fala é identificar automaticamente o que está sendo dito no áudio.

Dataset de Imagens de Histopatologia Mamária

Este conjunto de dados contém 2.77.524 imagens de tamanho 50×50 extraídas de 162 imagens de slides de montagem de espécimes de câncer de mama digitalizadas a 40x. Há 1.98.738 testes negativos e 78.786 testes positivos com IDC.

Data Link: Conjunto de dados de histopatologia mamária

Projecto Ideia: Construir um modelo que possa classificar o cancro da mama. Você constrói um modelo de classificação de imagem com redes neurais Convolucionais.

Código da fonte: Breast Cancer Classification Python Project

Youtube 8M Dataset

O conjunto de dados youtube 8M é um conjunto de dados em vídeo rotulado em grande escala que tem 6,1 milhões de IDs de vídeo do Youtube, 350.000 horas de vídeo, 2,6 bilhões de recursos de áudio/visual, 3862 classes, e 3 etiquetas avg por vídeo. É usado para fins de classificação de vídeo.

Data Link: Youtube 8M

Project Idea: A classificação do vídeo pode ser feita usando o conjunto de dados, e o modelo pode descrever sobre o que é o vídeo. Um vídeo leva uma série de entradas para classificar em qual categoria o vídeo pertence.

EndNote

Neste artigo, vimos mais de 20 conjuntos de dados de aprendizagem de máquina que você pode usar para praticar a aprendizagem de máquina ou ciência de dados. Criar um conjunto de dados por conta própria é caro, por isso podemos usar os conjuntos de dados de outras pessoas para fazer o nosso trabalho. Mas devemos ler os documentos do conjunto de dados cuidadosamente porque alguns conjuntos de dados são gratuitos, enquanto para alguns conjuntos de dados, você tem que dar crédito ao proprietário, como declarado por eles.

Bio: Shivashish Thaku é um Analista e redactor de conteúdos técnicos. Ele é um fanático por tecnologia que gosta de escrever sobre as últimas tecnologias de ponta que estão transformando o mundo. Ele também é um fã de esportes que adora jogar e assistir futebol.

KDnuggets