AI-Cafe #031：「マルチモーダル」って何語？文字を打たなくていいAI活用術

2026.05.11

この投稿をInstagramで見る

大畑祐貴 | 文系社長のAI導入を「伴走」するプロ(@yukiinfinity1)がシェアした投稿

AI CAFE – 経営者のためのAI対話録

「マルチモーダル」って何語？画像も読めるって本当？

「文字だけじゃないAI」のすごさについて、わかりやすく解説しました。

ハラさんおーちゃん、最近ニュースで『マルチモーダル対応』って言葉をよく聞くんだけど、あれ何語？マクドナルドの新メニュー？

おーちゃん（笑）惜しいです。マルチ（複数）の、モーダル（感覚・様式）って意味で、簡単に言うと『目も耳も口もついたAI』のことです。

コッシー目も耳も口も？テキストだけじゃないってこと？

おーちゃんそうなんです。今までAIといえばチャット、つまり『文字』だけでしたよね。でも今のAIは、スマホで撮った『写真』を見せたり、『音声』を聞かせたりできるんです。これが本当に劇的な進化でして。

ハラさん写真を見せる？それって現場でどう使えるんだ？

おーちゃん例えば、ハラさんの工場の機械にエラーメッセージが出たとするじゃないですか。マニュアル探すの面倒ですよね。そんな時、スマホでそのエラー画面の写真をパシャっと撮って、『これ何のエラー？どうやって直すの？』って聞けば、写真を読み取って解決策を答えてくれるんです。

コッシーええっ！文字で『こういうエラー番号が出てて…』って打たなくていいの？それめちゃくちゃ便利じゃない！

おーちゃんそう。手書きのメモを写真に撮って『テキストに起こして』でもいいし、冷蔵庫の中身の写真を見せて『この食材で何作れる？』でもいい。視覚や聴覚を手に入れたAI、それがマルチモーダルなんです。

ハラさん文字を打つどころか、写真撮るだけでいいのか。それならうちのベテラン職人でも絶対使えるな。明日さっそく試させてみるわ！

おーちゃんに相談してみない？

#009：サーバー – みんなにサービスを提供するコンピューター

AI-Cafe #032：コッシーが「もっと早く教えてよ！」と嘆いた、衝撃の便利ツール

（株）インフィニティ代表取締役。文系として、わかりやすくITを説明し、武器として活用してもらうコンサルティングを行っています。