「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
機械学習アルゴリズム チート シート(2021)の情報から。
分布を予測する(価格予測、飛行機遅延予測
イベント数を予測(イベント=飲料水の販売個数を予測などを意味する
⾼速トレーニング、線形モデル
線形モデル、⼩さなデータセット(確率的に直線が当てはまりそうな領域で予測
正確で速いトレーニング時間
正確で⾧いトレーニング時間
正確で⾼速なトレーニング時間、
⼤きなメモリフットプリント
100未満の機能、線形モデル
⾼速トレーニング、線形モデル
正確で迅速なトレーニング
⾼速トレーニング、線形モデル
正確で⾼速なトレーニング、
⼤容量のメモリフットプリン
正確で⾧いトレーニング時間
速いトレーニング時間、線形モデル
精度、⾧いトレーニング時間
正確で速いトレーニング時間
2クラス分類器に依存
2クラス分類器に依存、複雑さが⼤きく、不均衡なデータセットに対する感度が低い
ノンパラメトリック、⾼速トレーニング時間、スケーラブル
100未満の機能、積極的な境界
速いトレーニング時間
協調フィルタリング、次元削減による低コストでのパフォーマンスの向上
ハイブリッドレコメンダー(協調フィルタリングとコンテンツベースのアプローチ)
教師なしトピック・モデリング、類似したグループ・テキスト
フリーテキストの列からn-gramの辞書を作成
VowpalWabbit?ライブラリを使⽤して
テキストデータを整数エンコードされたフィーチャに変換
テキストのクリーニング操作
(ストップワードの削除、⼤⽂字と⼩⽂字の正規化など
レコメンダー、固有表現抽出、機械翻訳などの
NLPタスクで使⽤するために単語を値に変換
CNNの代表的なモデル
ResNet?より深い層の実現を目指したモデル
最適な機械学習アルゴリズムの選択は
の両方によって決定される。
クラスタリングを選択する。
分類(推論)
回帰(推論)
...
信頼できる AI を実現するには、
「モデルがその予測にデータセットのどの特徴を使用したか」
を調査することが重要。
InterpretMLと言う、機械学習の解釈を説明可能
とするためのpythonライブラリ・フレームワーク
※ コーホート:ココでは、データの集団の意味。