こんにちは、みのり(@minori_aimama)です。本業・育児の合間にAI×ブログ副業に挑戦中です。
今日は「AIって画像ちゃんと読めるの?」を実際に試した実験記録を書きます。楽天アフィリエイトの商品リサーチにAIを使いたくて、ChatGPT・Claude・Gemini・NotebookLMの4ツールで試してみました。
結論から言うと、自信満々だったのに全員こけました🫠
なぜ画像読み取りが必要になったのか
私が運営しているブログのひとつは、楽天・AmazonアフィリエイトをメインにしたSEOブログです。
アフィリエイト記事を書く上で重要なのが、商品のスペックや訴求ポイントの正確な把握。ここが間違っていたら話になりません。
ところが実際にリサーチしてみると、公式ページにはテキストでの説明がほとんどない商品が多い。そうなるとAIは競合サイトの記述やレビューから情報を補完してしまい、事実と異なる内容が混入するハルシネーションリスクがあります。
そこで目をつけたのが、楽天のLP画像です。私のジャンルでは、ショップが縦長の1枚画像に商品情報を丁寧にまとめていることが多い。あの画像をAIが読み取れれば、かなり精度の高いリサーチができるはず。
というわけで、ChatGPT・Claude・Gemini・NotebookLMで実験してみました。
実験条件
- Claudeのみ有料プラン、他は無料版
- すべてシークレット(一時)チャットで1回ごとにリセット
①画像URLから読み取れるか
まず「画像のURLを貼るだけで読み取れる?」を試しました。
この画像から、メーカーがユーザーに強くアピールしているポイントをまとめて
なお、この商品は2タイプあるので、そこを区別して読み取れるかもポイントです。
Gemini
「提供されたURLの画像に直接アクセスできません」とのこと。URL読み取りは非対応でした。
ChatGPT
Web検索が走り、「関連ページの内容から、画像では主に次の特徴が説明されていると考えられます」と推測回答。画像は見ていない。
Claude
「URLから直接画像を取得できませんでした。直接アップロードしていただけますか?」とのこと。
全員URL読み取りはできませんでした🫠自信満々だったのに。
②画像を直接アップロードしてみる
「直接アップしてください」と言われたのでやってみます。
対象のLP画像は縦長1枚の画像で、サイズは770×52466pxです。
この画像から、メーカーがユーザーに強くアピールしているポイントをまとめて
Gemini
ターゲット属性を読み間違え、的外れな回答を生成。画像に書いてあることもあれば書いていないことも含まれる。
ChatGPT
「この画像は縦長のサムネイル一覧のようですが、元画像の解像度が23×1536ピクセルしかなく、文字や図版の内容を判読できるレベルではありません」
Claude
一見それっぽいことを言っているが、細部は間違いだらけ。追加で「このメーカーはどこ?」と聞くと「画像からはメーカー名・ブランド名を読み取ることができませんでした」と白状。もちろん画像にはメーカー名がでかでかと書いてあります。
縦長のLP画像をそのまま貼り付けると、アップロード時に圧縮されてまともに読み取れないようです。
③画像を4分割してアップロードしてみる
1枚が重すぎるなら分割すれば読めるかも、ということで770×5000〜8000pxの4枚に分けて試しました。
メーカーがユーザーに強くアピールしているポイントをまとめてください。スペック表も作成してください。
Gemini
アピールポイント4個。それぞれに3〜4文の説明文で出力。スペック表は11行で、一つの切り口に複数情報をまとめてある。
ChatGPT
無料版では画像を2枚までしか選べず、4枚での実験は断念。
Claude
アピールポイント4個。それぞれに4〜5個の特徴をリスト形式で出力。スペック表は16行で細かい。
分割すれば読み取れました。ClaudeとGeminiで切り口がかなり異なり、個人的にはGeminiの方が分かりやすいと感じました。Claudeが書いてあることを忠実にリスト化するのに対し、Geminiはより一般的な切り口に置き換えた上で説明してくれる印象です。
ただ、どちらも「2タイプある」という点には触れられず、情報が混同して書かれていました。
④GoogleドライブのOCR機能を使う
調べているうちに、Googleドライブに保存した画像をGoogleドキュメントで開くとテキスト化されることを知りました。最初の770×52466pxの画像で試してみます。
1文字だけで改行されている箇所が多々ありますが、書いてある文字がすべてテキスト化されました。これをAIに貼り付けて読ませます。
これは画像をテキストに変換したものです。メーカーがユーザーに強くアピールしているポイントをまとめてください。スペック表も作成してください。
Gemini
文脈は整理されている。主なポイント6個を文章で説明。スペック表はClaudeとほぼ同様の精度。
ChatGPT
文脈は整理されている。主なポイント9個を文章で説明。2タイプの違いは読み取れず、スペック表は1タイプのみ。各項目も「あり」「なし」程度で具体性が低い。
Claude
文脈は整理されている。主なポイント10個を文章で説明。スペック表は1タイプのみだが、一部「〇〇タイプのみ」などの記述あり。項目と内容は具体的。
OCRはテキスト化できる反面、単語の羅列になるため「2タイプの比較」のような文脈が途切れてしまいます。どのAIも2タイプの区別は読み取れませんでした。
⑤NotebookLMはどうか
最後にNotebookLMで試してみました。
- 画像URL → 非対応
- 770×52466px → 読み取り失敗
- 分割4枚(770×5000〜8000px)→ アピールポイント4個、スペック表ともにGeminiの出力とほぼ同じ結果
NotebookLMはGeminiが搭載されているので、③とほぼ同じ結果になったのは当然といえば当然でした。
実験を振り返って
| ツール | URL読み取り | 超縦長画像 | 4分割画像 | OCR済テキスト | 2タイプ区別 |
|---|---|---|---|---|---|
| Gemini | ✗ | ✗ | ○ | ○ | ✗ |
| ChatGPT | ✗ | ✗ | ✗ | △ | ✗ |
| Claude | ✗ | ✗ | ○ | ○ | ✗ |
| NotebookLM | ✗ | ✗ | ○ | — | ✗ |
正直、どれも難しいという印象です。
そもそもLP画像は「人間の視覚に訴えるため」に作られています。色・レイアウト・フォントの強弱でメッセージを伝えるビジュアライズ重視の設計なので、テキストを読み取ることに特化しているAIとは相性が悪い。今回の実験結果は、ある意味当然だったのかもしれません。
画像単体では精度が出せず、他のテキスト情報と組み合わせないと厳しいなと感じました。
今のところ落ち着いているやり方は、公式URL+LP画像4〜5枚をNotebookLMにソースとして追加し、出力をClaudeに渡して記事を書くという流れです。
NotebookLMにした理由は、1商品1ノートで管理しやすいこと。回答の傾向もGemini系の方が好みでした。
それに加えて、NotebookLMは指定したソースしか参照しないので、余計な情報が混ざるリスクが低いというのも大きいです。公式ページのテキストと画像の単語を補完しあって出力してもらうのが、今のところ一番正確だと感じています。
もっと正確性を上げるなら、公式ページの必要な部分だけをコピペしてソースに追加するひと手間が有効だと思います。不要な情報を排除できるので、AIの補完ミスが減ります。
このリサーチ作業をもう少し自動化できないか、引き続き探っていきます🫠
