「マルチモーダル」って何語?画像も読めるって本当?
「文字だけじゃないAI」のすごさについて、わかりやすく解説しました。
ハラさん
おーちゃん、最近ニュースで『マルチモーダル対応』って言葉をよく聞くんだけど、あれ何語?マクドナルドの新メニュー?
おーちゃん
(笑)惜しいです。マルチ(複数)の、モーダル(感覚・様式)って意味で、簡単に言うと『目も耳も口もついたAI』のことです。
コッシー
目も耳も口も?テキストだけじゃないってこと?
おーちゃん
そうなんです。今までAIといえばチャット、つまり『文字』だけでしたよね。でも今のAIは、スマホで撮った『写真』を見せたり、『音声』を聞かせたりできるんです。これが本当に劇的な進化でして。
ハラさん
写真を見せる?それって現場でどう使えるんだ?
おーちゃん
例えば、ハラさんの工場の機械にエラーメッセージが出たとするじゃないですか。マニュアル探すの面倒ですよね。そんな時、スマホでそのエラー画面の写真をパシャっと撮って、『これ何のエラー?どうやって直すの?』って聞けば、写真を読み取って解決策を答えてくれるんです。
コッシー
ええっ!文字で『こういうエラー番号が出てて…』って打たなくていいの?それめちゃくちゃ便利じゃない!
おーちゃん
そう。手書きのメモを写真に撮って『テキストに起こして』でもいいし、冷蔵庫の中身の写真を見せて『この食材で何作れる?』でもいい。視覚や聴覚を手に入れたAI、それがマルチモーダルなんです。
ハラさん
文字を打つどころか、写真撮るだけでいいのか。それならうちのベテラン職人でも絶対使えるな。明日さっそく試させてみるわ!
💡今日のポイント
- マルチモーダルとは「テキスト以外(画像・音声・動画など)も理解できるAI」のこと
- エラー画面や手書きメモの写真を撮って、そのままAIに指示を出せる
- 文字入力が不要になるため、AI活用のハードルがさらに劇的に下ガーる
おーちゃんに相談してみない?
相談してみる