キノコの自省録

日々適当クリエイト

AIビジネスに騙されないために1つだけおさえておきたいポイント

昨今、AIビジネスが盛況です。猫も杓子もAIです。

そのおかげで、「ウチはAIやってます。アドバイスできます。」とか、「ウチはAIのツールを作っています。使ってください。」とか、 そういう類の営業を結構うけました。

いろいろ話を聞いているうちに、AIが、よくわかっていない老人を騙す単語になってないかと、ちょっと心配になってきました。

AI営業の持ってくる話

先方が、「1か月以内にキャンペーンを打つと、高い広告効果の見込める顧客を、顧客行動データから抽出します。そのために、1年分の顧客行動データを1000人分利用して、最適な特徴量抽出、モデルの選定・構築を行います。1年分とした理由、および1000人で十分であるとした理由は・・・」などの具体的な話を提示してくることは、稀です。

すいません、稀というか1件もありませんでした。

大体はツールかシステムの話です。

ツールを使うと簡単にAIが導入できるとか、うちのシステムを使うと、IoTデバイスからのデータを簡単に分析できるとか、そういう話ばかりです。

ツールを使うと、どれくらいAIを用いたビジネスが楽になるのでしょう?少なくとも楽になるのは確かだと思いますが、それは全体の何%を改善するものなのでしょう?

その辺のツボを押さえていないと、普通は導入の判断ができません。ところが、なぜかお金を払ってしまう人がいるのが”AI”という言葉の不思議です。

AIという単語の捉え方が、人によって解釈がてんでバラバラなことも原因ではないかと思います。

1つだけおさえておきたいポイント

さて、本題です。

話を持ってきた人に、CRISP-DMに基づいて質問をすることをお勧めします。

CRISP-DMとは、CRoss-Industry Standard Process for Data Miningの頭文字を取ったもので、その名の通り、データマイニングの標準的なプロセススキーマを定義したものです。

そう、データマイニングです。AIという10人に聞けば10人違う答えが返ってくる謎ワードではありません。

検索すればいくつかヒットすると思いますので、詳細はそちらを確認していただくのが良いと思います。ここでは概要だけ。

CRISP-DMは、データマイニングプロセスとして、6つのフェーズを定義しています。それぞれのフェーズについて、簡単で乱暴な解説 もつけておきます。

フェーズ1:ビジネスの状況の把握
 →そもそもデータ解析した結果、カネになりそうなのか

フェーズ2:データの理解
 →データ解析に必要なデータは足りてるのか、使えるのか

フェーズ3:データの準備
 →集めたデータを綺麗に(欠損値処理、正規化など)

フェーズ4:モデル作成
 →いわゆる人工知能ってここを指してる

フェーズ5:評価
 →モデルは十分な性能があるのか(=理論通りカネになりそうなのか)

フェーズ6:展開/共有
 →具体的にビジネスに利用(ダイレクトメール送るなど)

CRISP-DMの特徴は、ビジネスの視点がある点と言われることがあります。これは非常に重要だと思います。

例えば、犬画像識別器を作りましょうとぶち上げたところで、変な顔されるのがオチです。理由は「くだらないから」ではなく、大抵の企業では、その技術はお金にならない可能性が高いためでしょう。

さて、「ツール」や「システム」はこれらのフェーズのどこに含まれるでしょう?大抵はフェーズ4(の一部)、もしかするとフェーズ3も入るかも、といったところです。

全体のプロセスから考えると、ほんの一部ですよね。さらに、ほかのフェーズはサポートすら期待できないか、たぶん追加料金を取られます。

話を持ってきた人が、どのフェーズまでカバーする気なのか(できるのか)、それとなく聞いてみることをお勧めします。

そしてフェーズ4もツールやシステムを導入したからといって一筋縄にはいきません。

モデル作成は泥臭い

モデルの作成はめちゃくちゃ泥臭い作業です。

大抵の場合、ビッグデータを処理することになるのではないかとおもいますが、このビッグデータが厄介で、モデルの構築のために、大量のデータを食わせてモデルの学習をさせることになります。

簡単に言えば、めちゃくちゃ時間がかかります

おそらく、HadoopやらSparkやらの分散処理システムを組まないと、やってられなくなります。

CudaなどのGPGPUを当てにするなら、グラボも頭に入れる必要があります。

(いやいや、今ならクラウド上でやればいいですよね、と言う人がいたら、その人はきっと石油王です。)

 

そして、絶対に一発でうまくいくことはありません。

ハイパーパラメータの調整、モデル自体の変更、理論の組み換え、欠損値処理や正規化の変更、利用するデータの変更や拡大など、やることはめちゃくちゃあります。

1つ直してまた計算です。バグ入れると泣きます。バグが数値計算由来だと、バグっていることにすらしばらく気づかないことがあります。

ちなみにDeep Learningだと簡単になるとか、そんなことはないです。「特徴量抽出」という作業が不要になりますが、中間層の学習にめちゃくちゃ時間がかかります。

自作ゲーム「ウィッチクライド」の魔法認識エンジンは、特徴量抽出からの判別をしています。 作成に当たっては、やっぱり泥臭い作業はかなり発生しました。

ということで

AIという謎ワードより、CRISP-DMという単語を覚えておいた方が遥かに有用です。

別にフェーズを丸暗記する必要はないので、AI系の営業と相対するときに、メモを忍ばせておくとよいでしょう。