iPhoneが急に写真を説明してくれた。「マルチモーダル」って何が起きてるの?
ハラさんが不思議に思ってた話から、AIが「目・耳・口」を持ち始めた話をした。
ハラさん
おーちゃん、これどういうこと?スマホには写真が映っていて、iPhoneのAI機能に送ったら、勝手に説明してくれて。テキストじゃないのに答えてくれるの、なんか不思議だった。
おーちゃん
それがまさに”マルチモーダル”ですよ。
コッシー
マルチモーダル。また難しそうな言葉(笑)。
おーちゃん
言葉は難しいですけど、意味はシンプルで。”モーダル”ってのが”感覚・入力の種類”のことで、マルチは”複数”。つまり、テキストだけじゃなくて画像・音声・動画も理解できるAIのことですよ。
ハラさん
つまり、目と耳がついた、みたいな?
おーちゃん
その例えがすごくいい(笑)。最初のChatGPTは”テキストを読んでテキストを返す”だけだったんですよ。でも今は”写真を見て、声を聞いて、動画を理解して、答えを返す”ところまで来てる。
コッシー
それ、私たちの仕事でどう使えるの?
おーちゃん
たとえばコッシーさんが顧問先から決算書の写真を送ってもらって、それをClaudeに見せると”この財務諸表で気になる点は○○です”って言ってくれる、とか。
コッシー
え、写真でいいの?わざわざ数字を打ち込まなくていいってこと?
おーちゃん
今のClaudeやGPT-4oは画像を読み込んで分析できるんですよ。領収書の写真を送ったら自動で金額と日付を抽出するとか、そういうことが普通にできる。
ハラさん
製造業だと、設備の不具合箇所の写真を送って”これは何が原因か”って聞けるのか?
おーちゃん
それ、できますよ。精度は機種と状況によりますけど、”写真を見て一次診断してくれる”として使うだけでも、現場の担当者の負担がかなり減る。
ハラさん
うちの若い整備担当に、それ教えてみようかな。わからないことを先輩に聞く前に、まずAIに写真送ってみてって。
おーちゃん
いいですよ。最初の質問先がAIになるだけで、ベテランの時間が全然違ってくる。マルチモーダルは地味に見えて、現場への影響は大きいんですよ。
コッシー
なんか今日の話、一番すぐ使えそう。帰りにClaudeで決算書の写真、試してみよっと。
おーちゃん
ぜひ。もし”これどういう結果が返ってきた”って教えてくれたら、一緒に精度上げる方法も考えますよ。
💡今日のポイント
- マルチモーダルAI=テキスト以外に、画像・音声・動画も理解できるAI
- 決算書の写真から数字抽出・設備写真から不具合診断など、実務への応用が広がっている
- 「わからないことはまずAIに写真を送る」が現場での新しい習慣になりつつある
おーちゃんに相談してみない?
相談してみる