AI-Cafe #031:「マルチモーダル」って何語? 文字を打たなくていいAI活用術

AI CAFE – 経営者のためのAI対話録

「マルチモーダル」って何語?画像も読めるって本当?

「文字だけじゃないAI」のすごさについて、わかりやすく解説しました。

ハラさん
ハラさん おーちゃん、最近ニュースで『マルチモーダル対応』って言葉をよく聞くんだけど、あれ何語?マクドナルドの新メニュー?
おーちゃん
おーちゃん (笑)惜しいです。マルチ(複数)の、モーダル(感覚・様式)って意味で、簡単に言うと『目も耳も口もついたAI』のことです。
コッシー
コッシー 目も耳も口も?テキストだけじゃないってこと?
おーちゃん
おーちゃん そうなんです。今までAIといえばチャット、つまり『文字』だけでしたよね。でも今のAIは、スマホで撮った『写真』を見せたり、『音声』を聞かせたりできるんです。これが本当に劇的な進化でして。
ハラさん
ハラさん 写真を見せる?それって現場でどう使えるんだ?
おーちゃん
おーちゃん 例えば、ハラさんの工場の機械にエラーメッセージが出たとするじゃないですか。マニュアル探すの面倒ですよね。そんな時、スマホでそのエラー画面の写真をパシャっと撮って、『これ何のエラー?どうやって直すの?』って聞けば、写真を読み取って解決策を答えてくれるんです。
コッシー
コッシー ええっ!文字で『こういうエラー番号が出てて…』って打たなくていいの?それめちゃくちゃ便利じゃない!
おーちゃん
おーちゃん そう。手書きのメモを写真に撮って『テキストに起こして』でもいいし、冷蔵庫の中身の写真を見せて『この食材で何作れる?』でもいい。視覚や聴覚を手に入れたAI、それがマルチモーダルなんです。
ハラさん
ハラさん 文字を打つどころか、写真撮るだけでいいのか。それならうちのベテラン職人でも絶対使えるな。明日さっそく試させてみるわ!

💡今日のポイント

  • マルチモーダルとは「テキスト以外(画像・音声・動画など)も理解できるAI」のこと
  • エラー画面や手書きメモの写真を撮って、そのままAIに指示を出せる
  • 文字入力が不要になるため、AI活用のハードルがさらに劇的に下ガーる

おーちゃんに相談してみない?

相談してみる
大畑 祐貴

(株)インフィニティ 代表取締役。文系として、わかりやすくITを説明し、武器として活用してもらうコンサルティングを行っています。

関連記事

AI-Cafe #026:GW中にAIを「触ってみようかな」と思っている人へ 連休を最高のAIデビューにする準備

AI-Cafe #021:AIを入れたのに「半年で誰も使わなくなった」 現場で起きているリアルな失敗と対策

AI-Cafe #004:「AIに仕事を取られる」と怯えるパート社員に、何と言えばいい?

PAGE TOP