AI-Cafe #017:AIが「目」と「耳」を持った!?「マルチモーダル」の衝撃

AI CAFE – 経営者のためのAI対話録

iPhoneが急に写真を説明してくれた。「マルチモーダル」って何が起きてるの?

ハラさんが不思議に思ってた話から、AIが「目・耳・口」を持ち始めた話をした。

ハラさん
ハラさん おーちゃん、これどういうこと?スマホには写真が映っていて、iPhoneのAI機能に送ったら、勝手に説明してくれて。テキストじゃないのに答えてくれるの、なんか不思議だった。
おーちゃん
おーちゃん それがまさに”マルチモーダル”ですよ。
コッシー
コッシー マルチモーダル。また難しそうな言葉(笑)。
おーちゃん
おーちゃん 言葉は難しいですけど、意味はシンプルで。”モーダル”ってのが”感覚・入力の種類”のことで、マルチは”複数”。つまり、テキストだけじゃなくて画像・音声・動画も理解できるAIのことですよ。
ハラさん
ハラさん つまり、目と耳がついた、みたいな?
おーちゃん
おーちゃん その例えがすごくいい(笑)。最初のChatGPTは”テキストを読んでテキストを返す”だけだったんですよ。でも今は”写真を見て、声を聞いて、動画を理解して、答えを返す”ところまで来てる。
コッシー
コッシー それ、私たちの仕事でどう使えるの?
おーちゃん
おーちゃん たとえばコッシーさんが顧問先から決算書の写真を送ってもらって、それをClaudeに見せると”この財務諸表で気になる点は○○です”って言ってくれる、とか。
コッシー
コッシー え、写真でいいの?わざわざ数字を打ち込まなくていいってこと?
おーちゃん
おーちゃん 今のClaudeやGPT-4oは画像を読み込んで分析できるんですよ。領収書の写真を送ったら自動で金額と日付を抽出するとか、そういうことが普通にできる。
ハラさん
ハラさん 製造業だと、設備の不具合箇所の写真を送って”これは何が原因か”って聞けるのか?
おーちゃん
おーちゃん それ、できますよ。精度は機種と状況によりますけど、”写真を見て一次診断してくれる”として使うだけでも、現場の担当者の負担がかなり減る。
ハラさん
ハラさん うちの若い整備担当に、それ教えてみようかな。わからないことを先輩に聞く前に、まずAIに写真送ってみてって。
おーちゃん
おーちゃん いいですよ。最初の質問先がAIになるだけで、ベテランの時間が全然違ってくる。マルチモーダルは地味に見えて、現場への影響は大きいんですよ。
コッシー
コッシー なんか今日の話、一番すぐ使えそう。帰りにClaudeで決算書の写真、試してみよっと。
おーちゃん
おーちゃん ぜひ。もし”これどういう結果が返ってきた”って教えてくれたら、一緒に精度上げる方法も考えますよ。

💡今日のポイント

  • マルチモーダルAI=テキスト以外に、画像・音声・動画も理解できるAI
  • 決算書の写真から数字抽出・設備写真から不具合診断など、実務への応用が広がっている
  • 「わからないことはまずAIに写真を送る」が現場での新しい習慣になりつつある

おーちゃんに相談してみない?

相談してみる
大畑 祐貴

(株)インフィニティ 代表取締役。文系として、わかりやすくITを説明し、武器として活用してもらうコンサルティングを行っています。

関連記事

AI-Cafe #000:カフェで学ぶAI はじめます!

AI-Cafe #001:「ChatGPTどう使ってます?」って聞かれて、答えられなかった話

AI-Cafe #010:AI導入に失敗する会社の「たった1つの共通点」

PAGE TOP