20+ datových sad pro strojové učení a nápady na projekty

Od Shivashish Thakur, digitální marketing, DataFlair.

K sestavení dokonalého modelu potřebujete velké množství dat. Najít správný soubor dat pro váš projekt strojového učení a datové vědy je však někdy docela náročný úkol. Existuje mnoho organizací, výzkumníků a jednotlivců, kteří se podělili o svou práci, a my jejich datové sady využijeme k sestavení našeho projektu.

V tomto článku tedy probereme 20+ datových sad pro strojové učení a datovou vědu a nápady na projekty, které můžete využít k procvičení a vylepšení svých dovedností.

Enron Email Dataset

Datová sada Enron je populární v oblasti zpracování přirozeného jazyka. Obsahuje více než 500 tisíc e-mailů od více než 150 uživatelů. Velikost dat je přibližně 432 MB. Ze 150 uživatelů tvoří většinu vyšší management společnosti Enron.

Data Link:

Nápad projektu: Datová sada e-mailů společnosti Enron

: Pomocí shlukování k-means lze vytvořit model pro odhalování podvodných činností. K-means clustering je neřízený algoritmus strojového učení. Rozděluje pozorování do k počtu shluků na základě podobných vzorů v datech.

Datový soubor záměrů chatbota

Datový soubor pro chatbota je soubor JSON, který obsahuje nesourodé značky, jako je goodbye, greetings, pharmacy_search, hospital_search atd. Každý tag má seznam vzorů, na které se uživatel může zeptat, a chatbot podle tohoto vzoru odpoví. Tato datová sada je ideální pro pochopení toho, jak data chatbotů fungují.

Data Link: Intents JSON Dataset

Námět projektu: Můžete vytvořit chatbota nebo pochopit fungování chatbota tak, že data překroutíte a rozšíříte o své postřehy. Chcete-li vytvořit vlastního chatbota, musíte mít dobré znalosti konceptů zpracování přirozeného jazyka.

Zdrojový kód: Projekt chatbota v jazyce Python

Soubor dat Flickr 30k

Soubor dat Flickr 30k obsahuje více než 30 000 obrázků a každý obrázek je označen různými popisky. Tento dataset slouží k vytvoření generátoru popisků k obrázkům. A tento dataset je vylepšenou verzí datasetu Flickr 8k, který se používá k vytvoření přesnějších modelů.

Data Link:

Námět projektu: Můžete vytvořit model CNN, který je skvělý pro analýzu a extrakci rysů z obrázku a generování anglické věty, která popisuje obrázek, který se nazývá Caption.

Parkinson Dataset

Parkinson je nemoc, která může způsobit poruchu nervového systému a ovlivňuje pohyb. Dataset Parkinson obsahuje biomedicínská měření, 195 záznamů lidí s 23 různými atributy. Tato data slouží k rozlišení zdravých lidí a lidí s Parkinsonovou chorobou.

Propojení dat: Parkinson dataset

Námět projektu: Můžete vytvořit model, který lze použít k rozlišení zdravých lidí od lidí s Parkinsonovou chorobou. Algoritmus, který je pro tento účel užitečný, je XGboost, což je zkratka pro extreme gradient boosting, a je založen na rozhodovacích stromech.

Zdrojový kód: ML Project on Detecting Parkinson’s Disease

Datová sada o duhovce

Datová sada o duhovce je datová sada vhodná pro začátečníky, která obsahuje informace o velikosti okvětních lístků a kališních lístků. Tato datová sada má 3 třídy s 50 případy v každé třídě, takže obsahuje pouze 150 řádků se 4 sloupci.

Datový odkaz:

Nápad na projekt: Datová sada o kosatcích

Datová sada o kosatcích

: Klasifikace je úloha rozdělení položek do odpovídajících tříd. Na datové sadě můžete implementovat klasifikační nebo regresní model strojového učení.

Datová sada ImageNet

ImageNet je rozsáhlá databáze obrázků, která je uspořádána podle hierarchie wordnet. Obsahuje více než 100 000 frází a v průměru 1000 obrázků na jednu frázi. Její velikost přesahuje 150 GB. Je vhodná pro rozpoznávání obrázků, rozpoznávání obličejů, detekci objektů atd. Pořádá také náročnou soutěž s názvem ILSVRC pro lidi, kteří chtějí vytvářet stále přesnější modely.

Data Link: Imagenet Dataset

Myšlenka projektu: Zavést klasifikaci obrázků v této obrovské databázi a rozpoznávat objekty. Pro tento projekt je nezbytný model CNN (konvoluční neuronové sítě), aby bylo možné získat přesné výsledky.

7. Dataset zákazníků nákupního centra

Dataset zákazníků nákupního centra obsahuje údaje o lidech, kteří navštívili nákupní centrum. Dataset obsahuje věk, ID zákazníka, pohlaví, roční příjem a skóre výdajů. Z dat získává poznatky a rozděluje zákazníky do různých skupin na základě jejich chování.

Propojení datové sady: datová sada zákazníků nákupního centra

Námět projektu: Zákazníci nákupního centra: Segmentace zákazníků na základě jejich pohlaví, věku, zájmů. Je to užitečné při marketingu na míru. Segmentace zákazníků je důležitý postup rozdělování zákazníků na základě jednotlivých skupin, které jsou si podobné.

Kód zdroje: Segmentace zákazníků pomocí strojového učení.

Datový portál Google Trends

Data Google Trends lze použít k vizuálnímu zkoumání a analýze dat. Soubor dat můžete také jednoduchým kliknutím stáhnout do souborů CSV. Můžeme tak zjistit, co je trendy a co lidé vyhledávají.

Datový odkaz: Soubory dat Google trends

Soubor dat o bydlení v Bostonu

Jedná se o oblíbený soubor dat používaný při rozpoznávání vzorů. Obsahuje informace o různých domech v Bostonu na základě míry kriminality, daní, počtu místností atd. Má 506 řádků a 14 různých proměnných ve sloupcích. Tuto datovou sadu můžete použít k předpovídání cen domů.

Data Link: Dataset Boston

Námět projektu: Jaké jsou ceny nemovitostí v Bostonu? Předpovězte ceny nových domů pomocí lineární regrese. Lineární regrese se používá k předpovídání hodnot neznámých vstupů v případě, že data mají určitý lineární vztah mezi vstupními a výstupními proměnnými.

Datový soubor o svozu Uberem

Datový soubor obsahuje informace o 4,5 milionu svozů Uberem v New Yorku od dubna 2014 do září 2014 a dalších 14 milionů od ledna 2015 do června 2015. Uživatelé mohou provádět analýzu dat a získávat z nich poznatky.

Data Link:

Datový soubor o vyzvednutí službou Uber

Námět projektu: Analyzovat data o jízdách zákazníků a vizualizovat je s cílem najít poznatky, které mohou pomoci zlepšit podnikání. Analýza a vizualizace dat je důležitou součástí datové vědy. Slouží ke shromažďování poznatků z dat a pomocí vizualizace lze z dat získat rychlé informace.

Soubor dat o doporučovacích systémech

Toto je portál ke sbírce bohatých souborů dat, které byly použity v laboratorních výzkumných projektech na UCSD. Obsahuje různé datové sady z populárních webových stránek, jako jsou recenze knih na Goodreads, recenze produktů na Amazonu, barmanská data, data ze sociálních médií atd. které se používají při vytváření doporučovacího systému.

Data Link: Datová sada doporučovacích systémů

Námět projektu: Vytvořit systém doporučování produktů podobný systému Amazon. Doporučovací systém vám může navrhovat produkty, filmy atd. na základě vašich zájmů a věcí, které se vám líbí a které jste dříve používali.

Zdrojový kód: Projekt systému doporučování filmů

UCI Spambase Dataset

Klasifikace e-mailů jako spamu nebo nespamu je velmi častá a užitečná úloha. Dataset obsahuje 4601 e-mailů a 57 metainformací o e-mailech. Můžete sestavit modely pro odfiltrování spamu.

Datový odkaz: UCI spambase dataset

Námět projektu: Můžete vytvořit model, který dokáže identifikovat e-maily jako spam nebo nespam.

GTSRB (German traffic sign recognition benchmark) Dataset

Dataset GTSRB obsahuje přibližně 50 000 obrázků dopravních značek patřících do 43 různých tříd a obsahuje informace o ohraničení každé značky. Datová sada se používá pro klasifikaci více tříd.

Propojení s daty: GTSRB dataset

Námět projektu umělé inteligence: Sestavte model využívající rámec hlubokého učení, který klasifikuje dopravní značky a také rozpoznává ohraničující rámeček značek. Klasifikace dopravních značek je také užitečná v autonomních vozidlech pro identifikaci značek a následné provedení příslušných akcí.

Zdrojový kód: Projekt Python pro rozpoznávání dopravních značek

Cityscapes Dataset

Jedná se o datovou sadu s otevřeným zdrojovým kódem pro projekty počítačového vidění. Obsahuje vysoce kvalitní anotace na úrovni pixelů videosekvencí pořízených v 50 různých městských ulicích. Datová sada je užitečná při sémantické segmentaci a trénování hlubokých neuronových sítí pro pochopení městské scény.

Data Link: Datová sada Cityscapes

Myšlenka projektu: Provést segmentaci obrazu a detekovat různé objekty z videa na silnici. Segmentace obrazu je proces digitálního rozdělení obrazu do různých odlišných kategorií, jako jsou auta, autobusy, lidé, stromy, silnice atd.

15. Zjistěte, zda je obraz segmentován. Datová sada Kinetics

Pro Kinetics existují tři různé datové sady: Kinetika 400, Kinetika 600 a datová sada Kinetika 700. Tyto datové sady jsou tři: Kinetika 400, Kinetika 600 a Kinetika 700. Jedná se o rozsáhlou datovou sadu, která obsahuje URL odkaz na přibližně 6,5 milionu vysoce kvalitních videí.

Datový odkaz: Kinetics dataset

Záměr projektu: Vytvořit model rozpoznávání lidské činnosti a detekovat činnost člověka. Rozpoznávání lidské činnosti se provádí na základě řady pozorování.

Datová sada IMDB-Wiki

Datová sada IMDB-Wiki je jednou z největších otevřených datových sad pro obrázky obličejů s označeným pohlavím a věkem. Obrázky jsou shromažďovány z IMDB a Wikipedie. Obsahuje více než 5 milionů označených obrázků.

Datový odkaz: IMDB wiki dataset

Myšlenka projektu: Vytvořte model, který bude detekovat obličeje a předpovídat jejich pohlaví a věk. Můžete mít kategorie v různých rozmezích, například 0-10, 10-20, 30-40, 50-60 atd.

Datová sada pro detekci barev

Datová sada obsahuje soubor CSV, který obsahuje 865 názvů barev s odpovídajícími hodnotami RGB (červená, zelená a modrá) dané barvy. Obsahuje také hexadecimální hodnotu barvy.

Datový odkaz:

Datový soubor pro detekci barev

Myšlenka projektu:

Zdrojový kód: Dataset barev lze použít k vytvoření aplikace pro detekci barev, ve které můžeme mít rozhraní pro výběr barvy z obrázku a aplikace zobrazí název barvy.

Zdrojový kód: Dataset barev lze použít k vytvoření aplikace pro detekci barev: Projekt detekce barev v jazyce Python

Soubor dat městského zvuku 8K

Soubor dat městského zvuku obsahuje 8732 městských zvuků z 10 tříd, jako je klimatizace, štěkot psa, vrtání, siréna, pouliční hudba atd. Tato datová sada je oblíbená pro problémy klasifikace městských zvuků.

Data Link: Městský zvukový dataset 8K

Idea projektu: Můžeme vytvořit systém klasifikace zvuku pro detekci typu městského zvuku hrajícího na pozadí. To vám pomůže začít pracovat se zvukovými daty a pochopit, jak pracovat s nestrukturovanými daty.

Datová sada Librispeech

Tato datová sada obsahuje velké množství anglických promluv, které pocházejí z projektu LibriVox. Obsahuje 1000 hodin anglicky čtené řeči s různými přízvuky. Používá se pro projekty rozpoznávání řeči.

Data Link: Datová sada Librispeech

Námět projektu: Sestavit model rozpoznávání řeči, který rozpozná, co se říká, a převede to na text. Cílem rozpoznávání řeči je automaticky identifikovat, co je ve zvuku řečeno.

Datová sada histopatologických snímků prsu

Tato datová sada obsahuje 2 77 524 snímků o velikosti 50 × 50 extrahovaných ze 162 snímků preparátů rakoviny prsu naskenovaných při zvětšení 40x. Je zde 1 98 738 negativních vzorků a 78 786 pozitivních vzorků s IDC.

Data Link: Soubor histopatologických dat o prsu

Idea projektu: Vytvořit model, který dokáže klasifikovat rakovinu prsu. Sestavíte model pro klasifikaci obrazu pomocí konvolučních neuronových sítí.

Zdrojový kód: Projekt Python pro klasifikaci rakoviny prsu

Datová sada youtube 8M

Datová sada youtube 8M je rozsáhlá datová sada označených videí, která obsahuje 6,1 milionu id videí Youtube, 350 000 hodin videa, 2,6 miliardy zvukových/vizuálních prvků, 3862 tříd a 3 průměrné značky na video. Používá se pro účely klasifikace videa.

Data Link: Youtube 8M

Myšlenka projektu: Pomocí datové sady lze provést klasifikaci videa a model může popsat, o čem video je. Video vyžaduje řadu vstupů, aby bylo možné klasifikovat, do které kategorie video patří.

Koncová poznámka

V tomto článku jsme viděli více než 20 datových sad strojového učení, které můžete použít k procvičování strojového učení nebo datové vědy. Vytvoření vlastní datové sady je nákladné, proto můžeme pro svou práci využít cizí datové sady. Měli bychom si však pečlivě přečíst dokumenty k datové sadě, protože některé datové sady jsou zdarma, zatímco u některých datových sad je třeba poskytnout kredit vlastníkovi, jak je u nich uvedeno.

Bio: Shivashish Thaku je analytik a autor technického obsahu. Je technologický maniak, který rád píše o nejnovějších špičkových technologiích, které mění svět. Je také sportovním fanouškem, který rád hraje a sleduje fotbal.

Související informace:

KDnuggets

Enron Email Dataset

Datový soubor záměrů chatbota

Soubor dat Flickr 30k

Parkinson Dataset

Datová sada o duhovce

Datová sada ImageNet

7. Dataset zákazníků nákupního centra

Datový portál Google Trends

Soubor dat o bydlení v Bostonu

Datový soubor o svozu Uberem

Soubor dat o doporučovacích systémech

UCI Spambase Dataset

GTSRB (German traffic sign recognition benchmark) Dataset

Cityscapes Dataset

15. Zjistěte, zda je obraz segmentován. Datová sada Kinetics

Datová sada IMDB-Wiki

Datová sada pro detekci barev

Soubor dat městského zvuku 8K

Datová sada Librispeech

Datová sada histopatologických snímků prsu

Datová sada youtube 8M

Koncová poznámka

Napsat komentář Zrušit odpověď na komentář