楽天LP画像をAIで読み取れるか試してみた│4ツールでアフィリエイト商品リサーチ実験

2026年6月7日2026年6月21日

こんにちは、みのり（@minori_aimama）です。本業・育児の合間にAI×ブログ副業に挑戦中です。

今日は「AIって画像ちゃんと読めるの？」を実際に試した実験記録を書きます。楽天アフィリエイトの商品リサーチにAIを使いたくて、ChatGPT・Claude・Gemini・NotebookLMの4ツールで試してみました。

結論から言うと、自信満々だったのに全員こけました🫠

なぜ画像読み取りが必要になったのか

私が運営しているブログのひとつは、楽天・AmazonアフィリエイトをメインにしたSEOブログです。

アフィリエイト記事を書く上で重要なのが、商品のスペックや訴求ポイントの正確な把握。ここが間違っていたら話になりません。

ところが実際にリサーチしてみると、公式ページにはテキストでの説明がほとんどない商品が多い。そうなるとAIは競合サイトの記述やレビューから情報を補完してしまい、事実と異なる内容が混入するハルシネーションリスクがあります。

そこで目をつけたのが、楽天のLP画像です。私のジャンルでは、ショップが縦長の1枚画像に商品情報を丁寧にまとめていることが多い。あの画像をAIが読み取れれば、かなり精度の高いリサーチができるはず。

というわけで、ChatGPT・Claude・Gemini・NotebookLMで実験してみました。

実験条件

Claudeのみ有料プラン、他は無料版
すべてシークレット（一時）チャットで1回ごとにリセット

①画像URLから読み取れるか

まず「画像のURLを貼るだけで読み取れる？」を試しました。

この画像から、メーカーがユーザーに強くアピールしているポイントをまとめて

なお、この商品は2タイプあるので、そこを区別して読み取れるかもポイントです。

Gemini
「提供されたURLの画像に直接アクセスできません」とのこと。URL読み取りは非対応でした。

ChatGPT
Web検索が走り、「関連ページの内容から、画像では主に次の特徴が説明されていると考えられます」と推測回答。画像は見ていない。

Claude
「URLから直接画像を取得できませんでした。直接アップロードしていただけますか？」とのこと。

全員URL読み取りはできませんでした🫠自信満々だったのに。

②画像を直接アップロードしてみる

「直接アップしてください」と言われたのでやってみます。

対象のLP画像は縦長1枚の画像で、サイズは770×52466pxです。

この画像から、メーカーがユーザーに強くアピールしているポイントをまとめて

Gemini
ターゲット属性を読み間違え、的外れな回答を生成。画像に書いてあることもあれば書いていないことも含まれる。

ChatGPT
「この画像は縦長のサムネイル一覧のようですが、元画像の解像度が23×1536ピクセルしかなく、文字や図版の内容を判読できるレベルではありません」

Claude
一見それっぽいことを言っているが、細部は間違いだらけ。追加で「このメーカーはどこ？」と聞くと「画像からはメーカー名・ブランド名を読み取ることができませんでした」と白状。もちろん画像にはメーカー名がでかでかと書いてあります。

どうやら縦長のLP画像をそのまま貼ると、アップロード時に圧縮されてまともに読めないようです。770×52466pxはさすがに大きすぎたみたい🫠

③画像を4分割してアップロードしてみる

1枚が重すぎるなら分割すれば読めるかも、ということで770×5000〜8000pxの4枚に分けて試しました。

メーカーがユーザーに強くアピールしているポイントをまとめてください。スペック表も作成してください。

Gemini
アピールポイント4個。それぞれに3〜4文の説明文で出力。スペック表は11行で、一つの切り口に複数情報をまとめてある。

ChatGPT
無料版では画像を2枚までしか選べず、4枚での実験は断念。

Claude
アピールポイント4個。それぞれに4〜5個の特徴をリスト形式で出力。スペック表は16行で細かい。

分割すれば読み取れました。ClaudeとGeminiで切り口がかなり異なり、個人的にはGeminiの方が分かりやすいと感じました。Claudeが書いてあることを忠実にリスト化するのに対し、Geminiはより一般的な切り口に置き換えた上で説明してくれる印象です。

ただ、どちらも「2タイプある」という点には触れられず、情報が混同して書かれていました。

④GoogleドライブのOCR機能を使う

調べているうちに、Googleドライブに保存した画像をGoogleドキュメントで開くとテキスト化されることを知りました。最初の770×52466pxの画像で試してみます。

1文字だけで改行されている箇所が多々ありますが、書いてある文字がすべてテキスト化されました。これをAIに貼り付けて読ませます。

これは画像をテキストに変換したものです。メーカーがユーザーに強くアピールしているポイントをまとめてください。スペック表も作成してください。

Gemini
文脈は整理されている。主なポイント6個を文章で説明。スペック表はClaudeとほぼ同様の精度。

ChatGPT
文脈は整理されている。主なポイント9個を文章で説明。2タイプの違いは読み取れず、スペック表は1タイプのみ。各項目も「あり」「なし」程度で具体性が低い。

Claude
文脈は整理されている。主なポイント10個を文章で説明。スペック表は1タイプのみだが、一部「〇〇タイプのみ」などの記述あり。項目と内容は具体的。

OCRはテキスト化できる反面、単語の羅列になるため「2タイプの比較」のような文脈が途切れてしまいます。どのAIも2タイプの区別は読み取れませんでした。

⑤NotebookLMはどうか

最後にNotebookLMで試してみました。

画像URL → 非対応
770×52466px → 読み取り失敗
分割4枚（770×5000〜8000px）→ アピールポイント4個、スペック表ともにGeminiの出力とほぼ同じ結果

NotebookLMはGeminiが搭載されているので、③とほぼ同じ結果になったのは当然といえば当然でした。

実験を振り返って

スクロールできます

ツール	URL読み取り	超縦長画像	4分割画像	OCR済テキスト	2タイプ区別
Gemini	✗	✗	○	○	✗
ChatGPT	✗	✗	✗	△	✗
Claude	✗	✗	○	○	✗
NotebookLM	✗	✗	○	—	✗

Claudeのみ有料

正直、どれも難しい。これが実験の結論です。

そもそもLP画像は「人間の視覚に訴えるため」に作られています。色・レイアウト・フォントの強弱でメッセージを伝えるビジュアライズ重視の設計なので、テキストを読み取ることに特化しているAIとは相性が悪い。今回の実験結果は、ある意味当然だったのかもしれません。

画像単体では精度が出せず、他のテキスト情報と組み合わせないと厳しいなと感じました。

今のところ落ち着いているやり方は、公式URL＋LP画像4〜5枚をNotebookLMにソースとして追加し、出力をClaudeに渡して記事を書くという流れです。

NotebookLMにした理由は、1商品1ノートで管理しやすいこと。回答の傾向もGemini系の方が好みでした。

それに加えて、NotebookLMは指定したソースしか参照しないので、余計な情報が混ざるリスクが低いというのも大きいです。公式ページのテキストと画像の単語を補完しあって出力してもらうのが、今のところ一番正確だと感じています。

もっと正確性を上げるなら、公式ページの必要な部分だけをコピペしてソースに追加するひと手間が有効だと思います。不要な情報を排除できるので、AIの補完ミスが減ります。

このリサーチ作業をもう少し自動化できないか、引き続き探っていきます🫠

この記事が気に入ったら
フォローしてね！

Follow @minori_aimama

よかったらシェアしてね！

URLをコピーしました！

この記事を書いた人

みのり AI×ブログ副業

本業会社員・育児中の30代ワーママ。育休復帰前の準備期間に副業を始め、迷走の末にAI×ブログという組み合わせに落ち着く。エンジニアでも専門家でもないけど、AIと手を組んでブログ3本を運営中。X（@minori_aimama）でも日々の試行錯誤を発信中🫠