この記事で、初音ミク以外にも、Googleイメージで検索できない単語があるよ。と紹介したところ、コメントでYahooではヒットすらしません。=初音ミクと現象が一緒。と教えてもらった・・・
いや、プログラマからみると、YahooとGoogleのアルゴリズムがある程度読めるので、この辺の単語は、YahooやGoogleでは無理だろうという単語は沢山予想が付きます。
Amazonで正しい商品画像を見る
Amazonで正しい商品画像を見る
Amazonで正しい商品画像を見る::新書版
Amazonで正しい商品画像を見る::ハードカバー
Amazonで正しい商品画像を見る
Amazonで正しい商品画像を見る
Amazonで正しい商品画像を見る
このエントリーのトラックバックURL:
お気軽にコメント下さい。ただし、基本的に読んではいますが、お返事はほとんどしません。お返事が必要な方はTOPページにあるメールアドレスへメールを送って下さい。
』
それ以前には普通にイメージ検索でヒットしていた件についてはどう説明するんですか?
』
Googleイメージですが「"初音ミク"」というように一単語へ認識させて検索すると、まだマシになるようです。
』
返信は期待しませんが,他の読者の方が誤解したままだといけないので書いておきます.
現代の形態素解析技術を知っていますか?
例えばオープンソースの形態素解析器であるMeCabを全くカスタマイズせずに使って「初音ミク」を解析した結果は次のようになります.
初 接頭詞,名詞接続,*,*,*,*,初,ハツ,ハツ
音 名詞,固有名詞,人名,姓,*,*,音,オト,オト
ミク 名詞,固有名詞,人名,名,*,*,ミク,ミク,ミク
要するに語の接続を考慮しているわけですよ.
私はMeCabは日本でもトップレベルの形態素解析器だと思っていますが,
それでもGoogleが使っている商用の形態素解析器に勝るとは思えません.それで商売をしているわけですから.
むしろ勝っていなくて同じぐらいだったとしても問題は無いと言えます.
また,テキスト検索では正常と思われる結果を出していることから,やはりこれとは別の理由である可能性が高いと思います.
ところで,次の文を見るにテキスト検索と画像検索で同じ形態素解析器を使っていると考えていらっしゃるようですが,なぜ「変な話」なんでしょうか.
>変な話だが、これは画像検索だけではなく、普通の日本語の検索結果にも微妙に影響を与えている。ためしに『アキバ』で普通に検索して、GoogleとMSNを比較してみて欲しい。
』
>他の読者の方が誤解したままだといけないので書いておきます
すみません、何を何と誤解するのでしょうか?
誤解の対象がわからないので、具体的に
『XXX』を『YYY』のように誤解すると誤解の内容を書いて下さい。
必要があれば、訂正、反論させていただきます。
一度に多数の事をやりとりすると混乱しますので、インパクトが大きいと思われる誤解について、コメントさせていただきました。
』
なんか勘違いしているような…
画像検索でも、検索キーを含むページを正常に拾えているだろ。
検索結果からサムネイルをクリックしてみたかい?
検索キーも画像もそこには確かにあるんだ。
日本語処理の問題なんかじゃない。
>専門家気取りのアホ
>変な話だが、これは画像検索だけではなく、普通の日本語の検索結果にも微妙に影響を与えている。ためしに『アキバ』で普通に検索して、GoogleとMSNを比較してみて欲しい。
これに関してはGoogleで検索すると古いドメインの方のアキバBlogが上位にくるけど、MSNで検索すると今のドメインのアキバBlogが上位に出るって事だろ。
』
はじめまして。通りすがりですが気になったのでコメントさせていただきます。
私がこの問題を知ったとき(10/18ころ)に、Googleイメージ検索で『初音ミク』で試してみたところ、
・検索結果として表示されたサムネイルには初音ミクが居ない
・しかし、画像をクリックして検索されたページに行くと、ちゃんと初音ミクという単語・画像を含むページである(サムネイルに表示されていたのは、そのページ内にある全く関係ない画像であった)
という症状でした。
きちんと『初音ミク』という単語を含むページにリンクされていることから、(少なくともGoogleに関しては)ご指摘のような日本語処理の問題とは考えにくいと思うのですが、いかがでしょうか?
(そもそも、「ちゃんとした画像を含むページにリンクされているにも関わらず、サムネイルには別の画像が表示される → 何らかの意図でサムネイル画像が差し替えられているのではないか?」という推測が、今回の騒ぎを大きくした一因でもあります)
参考<検索キーワードとしても「特殊ではない」>
ttp://news.livedoor.com/article/detail/3355498/
検索ワードを抜き出すだけでは、検索エンジンとは言えず
絞り込まなくては意味がないわけで、
まったく他のことについてふれられているページの
アフィリエイトの初音ミクに反応してしまっていることから
そのページにある他の初音ミクではない画像まで
初音ミクにポイントされてしまい、
その結果違うイメージを拾ってしまう。
でその理由として、絞り込めない=検索ノイズが載る=キーワードとしての絞り込みが甘い。
という理論展開です。
Googleがイメージ検索で失敗する単語の特徴からして、そういうクセがあるのだと思っています。
』
そういえば「初音」でも「ミク」でも「はちゅね」ですらヒットしなかったよね
』
アフィリエイトが原因でも数千件すべてが同じ理由を抱えたとは思えません。
氏名の分解が問題でも、サムネイルがすべて初音ミクをかわす理由にならないでしょう。何割かは出てくるべきです。しかし完璧なまでに空ぶっていた。
何らかの画像認識ではじいたとしか思えません。
そもそも、その画像の「初音ミク」との関係性は、どう判定しているのでしょうか。
画像の近くにある文章の最頻出語?
手法が多数あると思うので、検索エンジンで違いが出るのは理解できますが。
> すみません、何を何と誤解するのでしょうか?
「初音ミク」が新語であり形態素解析の結果がうまくでておらず(新語の扱いに難)、それを補うためのロジックが現実とあっていないから検索が混乱したということがを事実と誤解するということです。
見ての通り「初音ミク」という単語は容易に固有名詞であるとわかる形で解析可能であり、その説が事実だとすると普段の検索でも大きな問題になっている筈です。
しかし、テキスト検索の結果を見てもわかる通りそんな問題は起こっていません。
「画像検索は米国の技術を輸入しただけであって古い技術で構築されており、導入以降改良されてこなかった」など補強する考察はできますが……。
Googleは画像検索にあまり力を入れていないみたいですし。
しかし、Googleって登場した時からある程度精度があった記憶があるんですよね。
この理由でこの事態が引き起こされるとは考え辛いです。
そもそもページ自体はそこそこ検索できていて、サムネイルの選択が壊滅的だったのが問題になっていたわけですし。
>>専門家気取りのアホ
>
>>変な話だが、これは画像検索だけではなく、普通の日本語の検索結果にも微妙に影響を与えている。ためしに『アキバ』で普通に検索して、GoogleとMSNを比較してみて欲しい。
>
>これに関してはGoogleで検索すると古いドメインの方のアキバBlogが上位にくるけど、MSNで検索すると今のドメインのアキバBlogが上位に出るって事だろ。
この程度の事は専門家でなくてもちょっと調べたらわかる話です。
そもそも主題が形態素解析の結果をうまく処理しきれていない話なんですから、その流れはおかしいんじゃないですか?
理解しました。
よく考えて、一連のコメントをまとめて記事にしてみようと思っていますが・・・
個別にコメントさせていただくと
マイナーな単語を調べて頂ければわかると思いますが
たとえば、メビウスリングとかね。
『テキスト検索の結果』には存在するページで画像もあるが、画像検索の結果にはそのページの画像は抽出されないという現象も確認できています。そのため、おっしゃられていることに一定の正当性はあると思いますが、『テキスト検索の結果』と『イメージ検索の結果』を結びつけることは危険かと思います。
また、形態素解析に失敗していると述べているのではなく、膨大な検索結果の中から、形態素解析でインデキシングした結果の重み付けに失敗していると述べているつもりです。
新語としてインデキシングではなく、形態素解析された結果のインデキシングで保存して重み漬けした結果に、なんらかの画像要素の重み付けを加味した結果
初音ミクという単語をメインに扱っているページではないページが重い重み漬けになってしまった結果、初音ミクがメイン画像ではないページから画像を抽出するために結果がおかしくなると考えています。
事実、初音ミクがNGワードだったころは左右のアフィリエイトに強く反応している結果が出ていましたが(オタリーマンが反応するなど)現在は初音ミクの画像をあつかったサイトが正しく抽出されていると思います。
要するに、初+音+ミク+画像でインデキシングしたデータからあらためて、初音ミクを抽出するのと、初音ミクをキーワードとして持っていて、初音ミク+画像でインデキシングしたデータから画像を抽出するのでは結果が異なっていると思っているという事です。
まぁ、インデキシングのバグのような気もしますが、Googleが現在なんらかの対応を入れる前までは、造語に関してデータの抽出精度が悪く、キーワード的な単語に関してはデータの抽出精度がよかった事から逆算してこのように思っています。