By Shivashish Thakur, Digital Marketing, DataFlair.
To Build the perfect model, you need the large amount of data.機械学習データセットとプロジェクト アイデアは20以上。 しかし、機械学習やデータ サイエンスのプロジェクトに適したデータセットを見つけることは、時にかなり困難な作業となります。 そこで、この記事では、練習やスキルアップに使用できる、20以上の機械学習とデータサイエンスのデータセットとプロジェクトのアイデアについて説明します。
- Enron Email Dataset
- Chatbot Intents Dataset
- Flickr 30k Dataset
- Iris Dataset
- ImageNet dataset
- Google Trends Data Portal
- The Boston Housing Dataset
- Uber Pickups Dataset
- Recommender Systems Dataset
- UCI Spambase Dataset
- GTSRB (German traffic sign recognition benchmark) Dataset
- Cityscapes Dataset
- 15. Kinetics Dataset
- IMDB-Wiki dataset
- Color Detection Dataset
- Urban Sound 8K dataset
- Librispeech Dataset
- Breast Histopathology Images Dataset
- Youtube 8M Dataset
- EndNote
Enron Email Dataset
Enron Datasetは自然言語処理でよく使用されます。 150人以上のユーザーの50万通以上の電子メールを収録しています。 データのサイズは約432Mbです。 150人のユーザーのうち、ほとんどがEnronの上級管理職です。
Data Link: Enron email dataset
Project Idea: k-meansクラスタリングを使用すると、不正行為を検出するためのモデルを構築することができます。 K-meansクラスタリングは教師なし機械学習アルゴリズムである。
Chatbot Intents Dataset
チャットボットのデータセットは、さようなら、挨拶、pharmacy_search、hospital_search などの異種のタグがある JSON ファイルです。 各タグには、ユーザーが質問できるパターンのリストがあり、チャットボットはそのパターンに従って応答します。 このデータセットは、チャットボットのデータの仕組みを理解するのに最適です。
Data Link: Intents JSON Dataset
Project Idea: 自分の観察でデータをひねったり広げたりすることで、チャットボットを作ったり、チャットボットの動作を理解したりすることができる。 独自のチャットボットを構築するには、自然言語処理の概念に関する十分な知識が必要です。
ソース コード。 Python によるチャットボット プロジェクト
Flickr 30k Dataset
Flickr 30k データセットには 30,000 以上の画像があり、各画像には異なるキャプションがラベル付けされています。 このデータセットは、画像キャプションジェネレータを構築するために使用される。 そして、このデータセットは、より正確なモデルを構築するために使用されるFlickr 8kのアップグレード版です。
データリンク。 Flickr image dataset
Project Idea: CNNモデルを構築し、画像から特徴を分析・抽出し、キャプションと呼ばれる画像を説明する英語の文章を生成するのに適しています。 Parkinsonデータセットには、生物医学的な測定値、23の異なる属性を持つ人々の195の記録が含まれています。 このデータは、健康な人とパーキンソン病の人を区別するために使用されます。
Data Link: Parkinson dataset
Project Idea: あなたは、パーキンソン病を持つ人々から健康な人々を区別するために使用することができるモデルを構築することができます。 この目的のために有用なアルゴリズムはXGboostで、extreme gradient boostingの略で、決定木に基づいています。 ML Project on Detecting Parkinson’s Disease
Iris Dataset
アイリスデータセットは、花びらとがく片のサイズに関する情報を持つ、初心者向けのデータセットである。 このデータセットには3つのクラスがあり、各クラスに50のインスタンスがあるので、4列の150行しかありません。
データリンク。 Iris データセット
Project Idea: 分類は、対応するクラスにアイテムを分離するタスクです。 このデータセットに機械学習の分類または回帰モデルを実装することができます。
ImageNet dataset
ImageNet は、ワードネット階層に従って組織化されている大規模な画像データベースです。 10万以上のフレーズを持ち、1フレーズあたり平均1000枚の画像を収録しています。 サイズは150GBを超える。 画像認識、顔認識、物体検出などに適しています。 また、より精度の高いモデルを構築するために、ILSVRCというチャレンジングなコンペティションも開催されている。 Imagenet Dataset
Project Idea: この巨大なデータベースに対して画像分類を実装し、物体を認識する。 CNNモデル(畳み込みニューラルネットワーク)は、正確な結果を得るためにこのプロジェクトに必要です。 モール顧客データセット
モール顧客データセットは、モールを訪れる人々についての詳細を持っています。 このデータセットには、年齢、顧客ID、性別、年収、支出スコアがある。 データセット リンク: Mall customers dataset
Project Idea.It gains insights from the data and divides the customers into different groups based on their behaviors.
Dataset Link: Mall customers dataset
Project Idea.It gains from the data and divides the groups in their behavior: 彼らの性別、年齢、興味に基づいて、顧客をセグメント化します。 これは、カスタマイズされたマーケティングに便利です。 顧客セグメンテーションは、類似している個々のグループに基づいて顧客を分割する重要なプラクティスである。 機械学習による顧客セグメンテーション
Google Trends Data Portal
Googleのトレンドデータは、視覚的にデータを調査・分析するために使用することができます。 また、クリックするだけでデータセットをCSVファイルにダウンロードすることができます。 何がトレンドなのか、人々が何を探しているのかを知ることができます。
Data Link: Google トレンドデータセット
The Boston Housing Dataset
パターン認識でよく使用されるデータセットです。 犯罪率、税金、部屋数などから、ボストンの様々な家の情報が含まれています。 506行、14種類の変数が列になっています。 このデータセットを使って住宅価格を予測することができる。
Data Link: Boston dataset
Project Idea: 線形回帰を使用して、新しい家の住宅価格を予測する。 線形回帰は、データが入力と出力変数の間に何らかの線形関係を有する場合に、未知の入力の値を予測するために使用されます。
Uber Pickups Dataset
このデータセットは、2014年4月から2014年9月までニューヨーク市で450万のUberピックアップ、2015年1月から2015年6月までさらに1400万の情報を持っています。 ユーザーはデータ分析を行い、データから洞察を得ることができます。
Data Link: Uber pickups dataset
Project Idea: 顧客の乗り物のデータを分析し、データを視覚化して、ビジネスを改善するのに役立つ洞察を見つけること。 データ分析と可視化は、データサイエンスの重要な部分です。 それらはデータから洞察を得るために使用され、可視化により、データから素早く情報を得ることができます。
Recommender Systems Dataset
これは、UCSDでの研究室研究プロジェクトで使用された豊富なデータセットのコレクションへのポータルです。 Goodreadsのブックレビュー、Amazonの商品レビュー、バーテンダーのデータ、ソーシャルメディアからのデータなど、推薦システムを構築する際に使用される、人気ウェブサイトからの様々なデータセットが含まれています。
Data Link: 推薦システム データセット
Project Idea: Amazon のような製品推薦システムを構築する。 推薦システムは、あなたの興味や、あなたが好きで以前に使用したものに基づいて、あなたの製品や映画などを提案することができます。
Source Code: 映画推薦システムプロジェクト
UCI Spambase Dataset
メールをスパムか非スパムかに分類することは、非常に一般的かつ有用なタスクです。 このデータセットには4601通のメールと、そのメールに関する57個のメタ情報が含まれている。 スパムをフィルタリングするモデルを構築することができます。
Data Link: UCI spambase dataset
Project Idea: 自分のメールがスパムか非スパムかを識別できるモデルを構築できる。
GTSRB (German traffic sign recognition benchmark) Dataset
The GTSRB dataset contains about 50,000 images of traffic signs belong to 43 different classes and contains information on the bounding box of each sign.そのデータセットでは、43のクラスに属する標識が含まれている。 このデータセットはマルチクラス分類に使用されます。
Data Link: GTSRBデータセット
人工知能プロジェクトアイデア:交通標識を分類し、標識のバウンディングボックスも認識する深層学習フレームワークを使用したモデルを構築します。 交通標識の分類は、標識を識別してから適切な行動を取るための自律走行車にも有用です
Source Code: Traffic Signs Recognition Python Project
Cityscapes Dataset
これはComputer Visionプロジェクト用のオープンソースのデータセットです。 50の異なる街路で撮影されたビデオシーケンスの高品質なピクセルレベルのアノテーションが含まれています。 このデータセットは、セマンティックセグメンテーションや、都市シーンを理解するためのディープニューラルネットワークのトレーニングに役立ちます。
データリンク Cityscapes dataset
Project Idea: 画像セグメンテーションを実行し、道路上のビデオから異なるオブジェクトを検出すること。 画像分割は、デジタル的に画像を車、バス、人、木、道路など、さまざまな異なるカテゴリに分割するプロセスです
15. Kinetics Dataset
Kineticsには3つの異なるデータセットがあります。 Kinetics 400、Kinetics 600、Kinetics 700の3種類のデータセットがあります。 これは、約650万本の高品質ビデオのURLリンクを含む大規模なデータセットです。
Data Link: Kinetics dataset
プロジェクトのアイデア:人間の行動認識モデルを構築し、人間の行動を検出する。 2399>
IMDB-Wiki dataset
The IMDB-Wiki dataset is one of the largest open-source dataset for face images with labeled gender and age. 画像はIMDBとWikipediaから収集されています。 500万以上のラベル付き画像が収録されています。 IMDB wikiデータセット
Project Idea: 顔を検出し、その性別と年齢を予測するモデルを作る。 0-10、10-20、30-40、50-60など、異なる範囲のカテゴリを持つことができます。
Color Detection Dataset
データセットには、865色の名前とその色のRGB(赤、緑、青)値から成るCSVファイルが含まれています。 また、色の16進数値も含まれています。
Data Link: Color Detection Dataset
Project Idea: このカラー データセットを使用して、画像から色を選択するインターフェイスを持つことができ、アプリが色の名前を表示するような色検出アプリを作成できます。 Color Detection Python Project
Urban Sound 8K dataset
The urban sound dataset contains 8732 urban sounds from 10 classes like an air conditioner, dog bark, drilling, siren, street music, etc…. このデータセットは、都市の音の分類問題によく使われています。
Data Link: Urban Sound 8K dataset
Project Idea: バックグラウンドで再生されている都市音の種類を検出する音分類システムを構築することができます。 これは、オーディオデータを使い始め、非構造化データを扱う方法を理解するのに役立ちます。
Librispeech Dataset
このデータセットは、LibriVoxプロジェクトから得られた大量の英語のスピーチを含んでいます。 様々なアクセントの英語読み上げ音声が1000時間分収録されています。 音声認識プロジェクトに利用されています。
Data Link: Librispeech dataset
Project Idea: 発言内容を検出し、それをテキストに変換する音声認識モデルを構築する。
Breast Histopathology Images Dataset
このデータセットには、乳がん検体のマウントスライド画像162枚から40倍でスキャンして抽出した50×50サイズの画像2,77524枚が収録されています。 陰性が1,98,738件、陽性が78,786件、IDCあり。
Data Link: Breast histopathology dataset
Project Idea: 乳がんを分類できるモデルを構築する。 Convolutional neural networksで画像分類モデルを構築します。
Source Code: Breast Cancer Classification Python Project
Youtube 8M Dataset
The youtube 8M dataset is a large scale labeled video dataset that has 6.1 million Youtube video ID, 350,000 hours of video, 2.6 billion audio/visual features, 3862 classes and 3 avgels per video. ビデオの分類に利用されています。
Data Link: Youtube 8M
Project Idea: ビデオ分類は、データセットを使用することによって行うことができ、モデルはビデオが何についてであるかを記述することができます。 ビデオは一連の入力を受けて、どのカテゴリに属するかを分類します。
EndNote
この記事では、機械学習やデータサイエンスの練習に使用できる 20 以上の機械学習データセットについて見てきました。 自分でデータセットを作るのはお金がかかるので、他の人のデータセットを使って作業を進めることができます。 しかし、データセットのドキュメントをよく読む必要があります。無料のデータセットもあれば、所有者のクレジットを明記しなければならないデータセットもあるからです
Bio: Shivashish Thakuはアナリストであり、テクニカルコンテンツライターです。 世界を変える最新の最先端技術について書くのが好きなテクノロジーフリークです。 また、サッカーをしたり観戦したりするのが好きなスポーツファンでもあります。