KDnuggets

By Shivashish Thakur, Digital Marketing, DataFlair.

To Build the perfect model, you need the large amount of data.機械学習データセットとプロジェクト アイデアは20以上。 しかし、機械学習やデータ サイエンスのプロジェクトに適したデータセットを見つけることは、時にかなり困難な作業となります。 そこで、この記事では、練習やスキルアップに使用できる、20以上の機械学習とデータサイエンスのデータセットとプロジェクトのアイデアについて説明します。

Enron Email Dataset

Enron Datasetは自然言語処理でよく使用されます。 150人以上のユーザーの50万通以上の電子メールを収録しています。 データのサイズは約432Mbです。 150人のユーザーのうち、ほとんどがEnronの上級管理職です。

Data Link: Enron email dataset

Project Idea: k-meansクラスタリングを使用すると、不正行為を検出するためのモデルを構築することができます。 K-meansクラスタリングは教師なし機械学習アルゴリズムである。

Chatbot Intents Dataset

チャットボットのデータセットは、さようなら、挨拶、pharmacy_search、hospital_search などの異種のタグがある JSON ファイルです。 各タグには、ユーザーが質問できるパターンのリストがあり、チャットボットはそのパターンに従って応答します。 このデータセットは、チャットボットのデータの仕組みを理解するのに最適です。

Data Link: Intents JSON Dataset

Project Idea: 自分の観察でデータをひねったり広げたりすることで、チャットボットを作ったり、チャットボットの動作を理解したりすることができる。 独自のチャットボットを構築するには、自然言語処理の概念に関する十分な知識が必要です。

ソース コード。 Python によるチャットボット プロジェクト

Flickr 30k Dataset

Flickr 30k データセットには 30,000 以上の画像があり、各画像には異なるキャプションがラベル付けされています。 このデータセットは、画像キャプションジェネレータを構築するために使用される。 そして、このデータセットは、より正確なモデルを構築するために使用されるFlickr 8kのアップグレード版です。

データリンク。 Flickr image dataset

Project Idea: CNNモデルを構築し、画像から特徴を分析・抽出し、キャプションと呼ばれる画像を説明する英語の文章を生成するのに適しています。 Parkinsonデータセットには、生物医学的な測定値、23の異なる属性を持つ人々の195の記録が含まれています。 このデータは、健康な人とパーキンソン病の人を区別するために使用されます。

Data Link: Parkinson dataset

Project Idea: あなたは、パーキンソン病を持つ人々から健康な人々を区別するために使用することができるモデルを構築することができます。 この目的のために有用なアルゴリズムはXGboostで、extreme gradient boostingの略で、決定木に基づいています。 ML Project on Detecting Parkinson’s Disease

Iris Dataset

アイリスデータセットは、花びらとがく片のサイズに関する情報を持つ、初心者向けのデータセットである。 このデータセットには3つのクラスがあり、各クラスに50のインスタンスがあるので、4列の150行しかありません。

データリンク。 Iris データセット

Project Idea: 分類は、対応するクラスにアイテムを分離するタスクです。 このデータセットに機械学習の分類または回帰モデルを実装することができます。

ImageNet dataset

ImageNet は、ワードネット階層に従って組織化されている大規模な画像データベースです。 10万以上のフレーズを持ち、1フレーズあたり平均1000枚の画像を収録しています。 サイズは150GBを超える。 画像認識、顔認識、物体検出などに適しています。 また、より精度の高いモデルを構築するために、ILSVRCというチャレンジングなコンペティションも開催されている。 Imagenet Dataset

Project Idea: この巨大なデータベースに対して画像分類を実装し、物体を認識する。 CNNモデル(畳み込みニューラルネットワーク)は、正確な結果を得るためにこのプロジェクトに必要です。 モール顧客データセット

モール顧客データセットは、モールを訪れる人々についての詳細を持っています。 このデータセットには、年齢、顧客ID、性別、年収、支出スコアがある。 データセット リンク: Mall customers dataset

Project Idea.It gains insights from the data and divides the customers into different groups based on their behaviors.

Dataset Link: Mall customers dataset

Project Idea.It gains from the data and divides the groups in their behavior: 彼らの性別、年齢、興味に基づいて、顧客をセグメント化します。 これは、カスタマイズされたマーケティングに便利です。 顧客セグメンテーションは、類似している個々のグループに基づいて顧客を分割する重要なプラクティスである。 機械学習による顧客セグメンテーション

Google Trends Data Portal

Googleのトレンドデータは、視覚的にデータを調査・分析するために使用することができます。 また、クリックするだけでデータセットをCSVファイルにダウンロードすることができます。 何がトレンドなのか、人々が何を探しているのかを知ることができます。

Data Link: Google トレンドデータセット

The Boston Housing Dataset

パターン認識でよく使用されるデータセットです。 犯罪率、税金、部屋数などから、ボストンの様々な家の情報が含まれています。 506行、14種類の変数が列になっています。 このデータセットを使って住宅価格を予測することができる。

Data Link: Boston dataset

Project Idea: 線形回帰を使用して、新しい家の住宅価格を予測する。 線形回帰は、データが入力と出力変数の間に何らかの線形関係を有する場合に、未知の入力の値を予測するために使用されます。

Uber Pickups Dataset

このデータセットは、2014年4月から2014年9月までニューヨーク市で450万のUberピックアップ、2015年1月から2015年6月までさらに1400万の情報を持っています。 ユーザーはデータ分析を行い、データから洞察を得ることができます。

Data Link: Uber pickups dataset

Project Idea: 顧客の乗り物のデータを分析し、データを視覚化して、ビジネスを改善するのに役立つ洞察を見つけること。 データ分析と可視化は、データサイエンスの重要な部分です。 それらはデータから洞察を得るために使用され、可視化により、データから素早く情報を得ることができます。

Recommender Systems Dataset

これは、UCSDでの研究室研究プロジェクトで使用された豊富なデータセットのコレクションへのポータルです。 Goodreadsのブックレビュー、Amazonの商品レビュー、バーテンダーのデータ、ソーシャルメディアからのデータなど、推薦システムを構築する際に使用される、人気ウェブサイトからの様々なデータセットが含まれています。

Data Link: 推薦システム データセット

Project Idea: Amazon のような製品推薦システムを構築する。 推薦システムは、あなたの興味や、あなたが好きで以前に使用したものに基づいて、あなたの製品や映画などを提案することができます。

Source Code: 映画推薦システムプロジェクト

UCI Spambase Dataset

メールをスパムか非スパムかに分類することは、非常に一般的かつ有用なタスクです。 このデータセットには4601通のメールと、そのメールに関する57個のメタ情報が含まれている。 スパムをフィルタリングするモデルを構築することができます。

Data Link: UCI spambase dataset

Project Idea: 自分のメールがスパムか非スパムかを識別できるモデルを構築できる。

GTSRB (German traffic sign recognition benchmark) Dataset

The GTSRB dataset contains about 50,000 images of traffic signs belong to 43 different classes and contains information on the bounding box of each sign.そのデータセットでは、43のクラスに属する標識が含まれている。 このデータセットはマルチクラス分類に使用されます。

Data Link: GTSRBデータセット

人工知能プロジェクトアイデア:交通標識を分類し、標識のバウンディングボックスも認識する深層学習フレームワークを使用したモデルを構築します。 交通標識の分類は、標識を識別してから適切な行動を取るための自律走行車にも有用です

Source Code: Traffic Signs Recognition Python Project

Cityscapes Dataset

これはComputer Visionプロジェクト用のオープンソースのデータセットです。 50の異なる街路で撮影されたビデオシーケンスの高品質なピクセルレベルのアノテーションが含まれています。 このデータセットは、セマンティックセグメンテーションや、都市シーンを理解するためのディープニューラルネットワークのトレーニングに役立ちます。

データリンク Cityscapes dataset

Project Idea: 画像セグメンテーションを実行し、道路上のビデオから異なるオブジェクトを検出すること。 画像分割は、デジタル的に画像を車、バス、人、木、道路など、さまざまな異なるカテゴリに分割するプロセスです

15. Kinetics Dataset

Kineticsには3つの異なるデータセットがあります。 Kinetics 400、Kinetics 600、Kinetics 700の3種類のデータセットがあります。 これは、約650万本の高品質ビデオのURLリンクを含む大規模なデータセットです。

Data Link: Kinetics dataset

プロジェクトのアイデア:人間の行動認識モデルを構築し、人間の行動を検出する。 2399>

IMDB-Wiki dataset

The IMDB-Wiki dataset is one of the largest open-source dataset for face images with labeled gender and age. 画像はIMDBとWikipediaから収集されています。 500万以上のラベル付き画像が収録されています。 IMDB wikiデータセット

Project Idea: 顔を検出し、その性別と年齢を予測するモデルを作る。 0-10、10-20、30-40、50-60など、異なる範囲のカテゴリを持つことができます。

Color Detection Dataset

データセットには、865色の名前とその色のRGB(赤、緑、青)値から成るCSVファイルが含まれています。 また、色の16進数値も含まれています。

Data Link: Color Detection Dataset

Project Idea: このカラー データセットを使用して、画像から色を選択するインターフェイスを持つことができ、アプリが色の名前を表示するような色検出アプリを作成できます。 Color Detection Python Project

Urban Sound 8K dataset

The urban sound dataset contains 8732 urban sounds from 10 classes like an air conditioner, dog bark, drilling, siren, street music, etc…. このデータセットは、都市の音の分類問題によく使われています。

Data Link: Urban Sound 8K dataset

Project Idea: バックグラウンドで再生されている都市音の種類を検出する音分類システムを構築することができます。 これは、オーディオデータを使い始め、非構造化データを扱う方法を理解するのに役立ちます。

Librispeech Dataset

このデータセットは、LibriVoxプロジェクトから得られた大量の英語のスピーチを含んでいます。 様々なアクセントの英語読み上げ音声が1000時間分収録されています。 音声認識プロジェクトに利用されています。

Data Link: Librispeech dataset

Project Idea: 発言内容を検出し、それをテキストに変換する音声認識モデルを構築する。

Breast Histopathology Images Dataset

このデータセットには、乳がん検体のマウントスライド画像162枚から40倍でスキャンして抽出した50×50サイズの画像2,77524枚が収録されています。 陰性が1,98,738件、陽性が78,786件、IDCあり。

Data Link: Breast histopathology dataset

Project Idea: 乳がんを分類できるモデルを構築する。 Convolutional neural networksで画像分類モデルを構築します。

Source Code: Breast Cancer Classification Python Project

Youtube 8M Dataset

The youtube 8M dataset is a large scale labeled video dataset that has 6.1 million Youtube video ID, 350,000 hours of video, 2.6 billion audio/visual features, 3862 classes and 3 avgels per video. ビデオの分類に利用されています。

Data Link: Youtube 8M

Project Idea: ビデオ分類は、データセットを使用することによって行うことができ、モデルはビデオが何についてであるかを記述することができます。 ビデオは一連の入力を受けて、どのカテゴリに属するかを分類します。

EndNote

この記事では、機械学習やデータサイエンスの練習に使用できる 20 以上の機械学習データセットについて見てきました。 自分でデータセットを作るのはお金がかかるので、他の人のデータセットを使って作業を進めることができます。 しかし、データセットのドキュメントをよく読む必要があります。無料のデータセットもあれば、所有者のクレジットを明記しなければならないデータセットもあるからです

Bio: Shivashish Thakuはアナリストであり、テクニカルコンテンツライターです。 世界を変える最新の最先端技術について書くのが好きなテクノロジーフリークです。 また、サッカーをしたり観戦したりするのが好きなスポーツファンでもあります。

コメントを残す

メールアドレスが公開されることはありません。