: 初音ミク以外にもこんなにある、Googleイメージ検索されない単語

レビログ::初音ミク画像の件はたぶんGoogleの仕様 / MS Live Searchが意外とかしこい件

 この記事で、初音ミク以外にも、Googleイメージで検索できない単語があるよ。と紹介したところ、コメントでYahooではヒットすらしません。=初音ミクと現象が一緒。と教えてもらった・・・

 いや、プログラマからみると、YahooとGoogleのアルゴリズムがある程度読めるので、この辺の単語は、YahooやGoogleでは無理だろうという単語は沢山予想が付きます。

※イメージをキャッシュするのが作業的に大変なので・・・
水物記事ということでご容赦下さい。上記2件は過去記事にてイメージがキャッシュしてあります。
※追記。どうやら、日々改善されてはいる模様。だいぶ良くなっている物もありますねぇ

アナタヲユルサナイ

アナタヲユルサナイ – Google イメージ検索::BAD (追記 この単語は対処されたみたい)

Yahoo!検索 (画像検索) – 「アナタヲユルサナイ」の検索結果::BAD

Live Search 画像:アナタヲユルサナイ::GOOD

[アナタヲユルサナイ] 画像検索結果  – goo画像・動画・音楽検索::Very Good

Amazonで正しい商品画像を見る

読めそうで読めない漢字DS

読めそうで読めない漢字DS – Google イメージ検索::BAD (追記 この単語は対処されたみたい)


Yahoo!検索 (画像検索) – 「読めそうで読めない漢字DS」の検索結果::BAD


Live Search 画像:読めそうで読めない漢字DS::GOOD

[読めそうで読めない漢字DS] 画像検索結果  – goo画像・動画・音楽検索::Good

Amazonで正しい商品画像を見る

不気味で素朴な囲われた世界

不気味で素朴な囲われた世界 – Google イメージ検索::BAD

Yahoo!検索 (画像検索) – 「不気味で素朴な囲われた世界」の検索結果::BAD 

Live Search 画像:不気味で素朴な囲われた世界::GOOD

[不気味で素朴な囲われた世界] 画像検索結果  – goo画像・動画・音楽検索::Good

Amazonで正しい商品画像を見る::新書版

Amazonで正しい商品画像を見る::ハードカバー

いつまでもデブと思うなよ

いつまでもデブと思うなよ – Google イメージ検索::BAD (追記 この単語は対処されたみたい)

Yahoo!検索 (画像検索) – 「いつまでもデブと思うなよ」の検索結果::BAD

Live Search 画像:いつまでもデブと思うなよ::GOOD

[いつまでもデブと思うなよ] 画像検索結果  – goo画像・動画・音楽検索::Good

Amazonで正しい商品画像を見る

リボルテック ダンボー

リボルテック ダンボー – Google イメージ検索::BAD

Yahoo!検索 (画像検索) – 「リボルテック ダンボー」の検索結果::BAD

Live Search 画像:リボルテック ダンボー::GOOD

[リボルテック ダンボー] 画像検索結果  – goo画像・動画・音楽検索::Normal

Amazonで正しい商品画像を見る

ホームレス中学生

ホームレス中学生 – Google イメージ検索::BAD (追記 この単語は対処されたみたい)

Yahoo!検索 (画像検索) – 「ホームレス中学生」の検索結果::NORMAL

Live Search 画像:ホームレス中学生::GOOD

[ホームレス中学生] 画像検索結果  – goo画像・動画・音楽検索::Normal

Amazonで正しい商品画像を見る

さて、もう良いだろうか?

ごらんの通り、結論として画像検索においては

MSN LiveSearch >> Yahoo = Google というような感じになる単語は沢山ある。

個人的には初音ミクもこの仲間であって、もともとGoogleは日本語には弱く、こういう物であり、政治圧力ではない。と考える。

ではなんで、このような現象が起こるかと言えば


以上のどの単語も分解したときに一定のパターンがある。

初音ミクというのは造語であり、これを 通常の検索エンジン的に処理すると

『初』+『音』+『ミク』という単語に分解される。

ここで、『初』+『音』はコレ単体で、よく使われる語であるし『ミク』もそう。

したがって、『初音ミク』という単語単位のイメージではなく、『初』+『音』+『ミク』いずれかの、単語のが多いサイトの個別のイメージがでてきやすくなっていると僕は推測している。どうだろうか?

日本語処理が弱いGoogleとYahoo

まとめると、傾向を見るに、ようするに、GoogleとYahooは日本語の処理が甘く、うまく認識できない単語がある。MSN Live SearchとGooは日本語処理がきちんとできているのではないかと、思う。

変な話だが、これは画像検索だけではなく、普通の日本語の検索結果にも微妙に影響を与えている。ためしに『アキバ』で普通に検索して、GoogleとMSNを比較してみて欲しい。

『アキバBlog』がなんか変じゃないか?

追記

 どうやら、説明が足りなかったらしく、最初は出ていたとか、キーワードはあるよとかいうコメントがきてしまいました。いや、それも折り込んで、キーワードの絞り込みが変というツッコミだったのですが・・・

 もうすこし、まとめた物を書こうかと思っていますが、少々お時間を下さい。

追記 なんか対処が入ったように見えて違った?

なんだか、Googleがかなり対応してきたのでへーと思ったのですがむやみにAmazonの画像がピックアップされるので、試しに、Amazonになくて他にないかつマイナー商品で検索したところ・・・

g1002

l1002

商品はコレ・・・【楽天市場】           メビウスリング si08       次の商品へ:シルバーアクセサリーFIGMART

なんかこう・・・
リンクを張ってしまうと、人気の単語化して、クロールが増えるのか精度が上がる気がしてきましたので・・・リンクは張らないようにしてみました。気になる人は各自で検証して下さい。

Comment

  1. 匿名 より:

    それ以前には普通にイメージ検索でヒットしていた件についてはどう説明するんですか?

  2. チェリー より:

    Googleイメージですが「”初音ミク”」というように一単語へ認識させて検索すると、まだマシになるようです。

  3. glcs より:

    返信は期待しませんが,他の読者の方が誤解したままだといけないので書いておきます.

    現代の形態素解析技術を知っていますか?
    例えばオープンソースの形態素解析器であるMeCabを全くカスタマイズせずに使って「初音ミク」を解析した結果は次のようになります.

    初 接頭詞,名詞接続,*,*,*,*,初,ハツ,ハツ
    音 名詞,固有名詞,人名,姓,*,*,音,オト,オト
    ミク 名詞,固有名詞,人名,名,*,*,ミク,ミク,ミク

    要するに語の接続を考慮しているわけですよ.
    私はMeCabは日本でもトップレベルの形態素解析器だと思っていますが,
    それでもGoogleが使っている商用の形態素解析器に勝るとは思えません.それで商売をしているわけですから.
    むしろ勝っていなくて同じぐらいだったとしても問題は無いと言えます.

    また,テキスト検索では正常と思われる結果を出していることから,やはりこれとは別の理由である可能性が高いと思います.

    ところで,次の文を見るにテキスト検索と画像検索で同じ形態素解析器を使っていると考えていらっしゃるようですが,なぜ「変な話」なんでしょうか.

    >変な話だが、これは画像検索だけではなく、普通の日本語の検索結果にも微妙に影響を与えている。ためしに『アキバ』で普通に検索して、GoogleとMSNを比較してみて欲しい。

  4. 心は萌え@管理人 より:

    >他の読者の方が誤解したままだといけないので書いておきます

    すみません、何を何と誤解するのでしょうか?

    誤解の対象がわからないので、具体的に
    『XXX』を『YYY』のように誤解すると誤解の内容を書いて下さい。

    必要があれば、訂正、反論させていただきます。

    一度に多数の事をやりとりすると混乱しますので、インパクトが大きいと思われる誤解について、コメントさせていただきました。

  5. mmm より:

    なんか勘違いしているような…
    画像検索でも、検索キーを含むページを正常に拾えているだろ。
    検索結果からサムネイルをクリックしてみたかい?
    検索キーも画像もそこには確かにあるんだ。
    日本語処理の問題なんかじゃない。

  6. 通りすがり より:

    >専門家気取りのアホ

    >変な話だが、これは画像検索だけではなく、普通の日本語の検索結果にも微妙に影響を与えている。ためしに『アキバ』で普通に検索して、GoogleとMSNを比較してみて欲しい。

    これに関してはGoogleで検索すると古いドメインの方のアキバBlogが上位にくるけど、MSNで検索すると今のドメインのアキバBlogが上位に出るって事だろ。

  7. 北条 より:

    はじめまして。通りすがりですが気になったのでコメントさせていただきます。

    私がこの問題を知ったとき(10/18ころ)に、Googleイメージ検索で『初音ミク』で試してみたところ、

    ・検索結果として表示されたサムネイルには初音ミクが居ない
    ・しかし、画像をクリックして検索されたページに行くと、ちゃんと初音ミクという単語・画像を含むページである(サムネイルに表示されていたのは、そのページ内にある全く関係ない画像であった)

    という症状でした。
    きちんと『初音ミク』という単語を含むページにリンクされていることから、(少なくともGoogleに関しては)ご指摘のような日本語処理の問題とは考えにくいと思うのですが、いかがでしょうか?

    (そもそも、「ちゃんとした画像を含むページにリンクされているにも関わらず、サムネイルには別の画像が表示される → 何らかの意図でサムネイル画像が差し替えられているのではないか?」という推測が、今回の騒ぎを大きくした一因でもあります)

    参考<検索キーワードとしても「特殊ではない」>
    ttp://news.livedoor.com/article/detail/3355498/

  8. 心は萌え。 より:

    検索ワードを抜き出すだけでは、検索エンジンとは言えず

    絞り込まなくては意味がないわけで、
    まったく他のことについてふれられているページの
    アフィリエイトの初音ミクに反応してしまっていることから

    そのページにある他の初音ミクではない画像まで
    初音ミクにポイントされてしまい、
    その結果違うイメージを拾ってしまう。

    でその理由として、絞り込めない=検索ノイズが載る=キーワードとしての絞り込みが甘い。

    という理論展開です。

    Googleがイメージ検索で失敗する単語の特徴からして、そういうクセがあるのだと思っています。

  9.   より:

    そういえば「初音」でも「ミク」でも「はちゅね」ですらヒットしなかったよね

  10. sasa より:

    アフィリエイトが原因でも数千件すべてが同じ理由を抱えたとは思えません。
    氏名の分解が問題でも、サムネイルがすべて初音ミクをかわす理由にならないでしょう。何割かは出てくるべきです。しかし完璧なまでに空ぶっていた。
    何らかの画像認識ではじいたとしか思えません。

  11. ymikasa より:

    そもそも、その画像の「初音ミク」との関係性は、どう判定しているのでしょうか。
    画像の近くにある文章の最頻出語?
    手法が多数あると思うので、検索エンジンで違いが出るのは理解できますが。

  12. glcs より:

    > すみません、何を何と誤解するのでしょうか?

    「初音ミク」が新語であり形態素解析の結果がうまくでておらず(新語の扱いに難)、それを補うためのロジックが現実とあっていないから検索が混乱したということがを事実と誤解するということです。
    見ての通り「初音ミク」という単語は容易に固有名詞であるとわかる形で解析可能であり、その説が事実だとすると普段の検索でも大きな問題になっている筈です。
    しかし、テキスト検索の結果を見てもわかる通りそんな問題は起こっていません。

    「画像検索は米国の技術を輸入しただけであって古い技術で構築されており、導入以降改良されてこなかった」など補強する考察はできますが……。
    Googleは画像検索にあまり力を入れていないみたいですし。
    しかし、Googleって登場した時からある程度精度があった記憶があるんですよね。
    この理由でこの事態が引き起こされるとは考え辛いです。
    そもそもページ自体はそこそこ検索できていて、サムネイルの選択が壊滅的だったのが問題になっていたわけですし。

    >>専門家気取りのアホ
    >
    >>変な話だが、これは画像検索だけではなく、普通の日本語の検索結果にも微妙に影響を与えている。ためしに『アキバ』で普通に検索して、GoogleとMSNを比較してみて欲しい。
    >
    >これに関してはGoogleで検索すると古いドメインの方のアキバBlogが上位にくるけど、MSNで検索すると今のドメインのアキバBlogが上位に出るって事だろ。

    この程度の事は専門家でなくてもちょっと調べたらわかる話です。
    そもそも主題が形態素解析の結果をうまく処理しきれていない話なんですから、その流れはおかしいんじゃないですか?

  13. 心は萌え より:

    理解しました。
    よく考えて、一連のコメントをまとめて記事にしてみようと思っていますが・・・

    個別にコメントさせていただくと

    マイナーな単語を調べて頂ければわかると思いますが
    たとえば、メビウスリングとかね。

    『テキスト検索の結果』には存在するページで画像もあるが、画像検索の結果にはそのページの画像は抽出されないという現象も確認できています。そのため、おっしゃられていることに一定の正当性はあると思いますが、『テキスト検索の結果』と『イメージ検索の結果』を結びつけることは危険かと思います。

    また、形態素解析に失敗していると述べているのではなく、膨大な検索結果の中から、形態素解析でインデキシングした結果の重み付けに失敗していると述べているつもりです。
    新語としてインデキシングではなく、形態素解析された結果のインデキシングで保存して重み漬けした結果に、なんらかの画像要素の重み付けを加味した結果

    初音ミクという単語をメインに扱っているページではないページが重い重み漬けになってしまった結果、初音ミクがメイン画像ではないページから画像を抽出するために結果がおかしくなると考えています。

    事実、初音ミクがNGワードだったころは左右のアフィリエイトに強く反応している結果が出ていましたが(オタリーマンが反応するなど)現在は初音ミクの画像をあつかったサイトが正しく抽出されていると思います。

    要するに、初+音+ミク+画像でインデキシングしたデータからあらためて、初音ミクを抽出するのと、初音ミクをキーワードとして持っていて、初音ミク+画像でインデキシングしたデータから画像を抽出するのでは結果が異なっていると思っているという事です。

    まぁ、インデキシングのバグのような気もしますが、Googleが現在なんらかの対応を入れる前までは、造語に関してデータの抽出精度が悪く、キーワード的な単語に関してはデータの抽出精度がよかった事から逆算してこのように思っています。

Leave a Reply

メールアドレスが公開されることはありません。

注意(NOTICE)

コメントの投稿は反映までに時間がかかる場合があります。 Post Comments may take some minutes to publish.