

linked dataということで個人的に色々勘違いしていた部分が正されました。RDF、RDFa、RDFa Lite、microformat、microformats、JSON-LD…、個人的にはWOL含め全体がschema.orgへ統合されていく流れなのかな?と感じていたもののRDFの流れはとても古く、そう簡単な話ではないなとこの本を読んで思いました。
と同時に結局Linked Dataのコンセプトと理想のデータ活用に対する考え方としては重要なものがあると思います。人間に対するドキュメントとしてのHTMLと機械が理解するためのXML/RDF、そしてその体系化された知識のAI活用など。
一方で結局今まではwikidataである
dbpedia(
日本語)という非営利団体によって知識の体系化が試みられていたと思われますが、schema.orgの登場と検索大手が活用をしはじめHTML内に大量のデータがばらまかれ始めました。
そのデータは結局検索大手がクロールすることによって活用され、クロールするコストを考えると一般のユーザにはあまりメリットは無いという現状が生まれてしまった気がします。GoogleがKnowledge Graph APIとして一部データを公開してもGoogle優位に変化はありません。
非営利で様々なLinked Dataが発生していたときでさえ
same asとして同一の用語、例えば「東京」に対する説明が各サイトへ散らばっているという状況があったわけですが、今はそれ以上に機械向け各種説明文が散らばったのではないでしょうか。
もちろん既に大量に存在するHTMLを構造化しろという要求は分かりますが対検索エンジン以上のメリットが無さそうで学術活用もOpenデータとして公開されている部分がメインといった感じなのかもしれません。
テキストではありますがHTMLのBody内もしくは最近の流れでheadが尽く重くなる傾向は変わらなそうですがRDFの参照URIとして外部にデータを出すということも可能なのでしょうか。ざっと読む感じ名前空間の読み込み用だけでなく特定のresourceに対するリンクも可能なので可能性としてはあるのかもしれませんが…
今までの非営利によるデータ収集の流れでうまく行ったかと言われると違う気がしますが、schama.orgの流れは必要悪というか、検索エンジン側の強制により広く一般にリンクデータの存在が知れ渡るものとなり、対応するサイトが爆発的に増え、もしかするとwikipediaという非営利のナレッジデータベースを`wisdom of crowds`として検索エンジン側がうまく処理とOpen化してくれれば良いのですが…

