終わり。バックアップとったー
-
メンテナンス中…
-
ハイキュー!!
烏野高校 VS 白鳥沢学園高校。なう…
-
I’m Feeling Lucky →
Wikipediaの映画のページにランダムに遷移します。
遷移先は、映画の公開日などが今日の「mm月dd日」と一致する作品です。
備忘:
Wikipediaダンプファイル
https://dumps.wikimedia.org/jawiki/latest/Wikipediaのダウンロードできるデータファイル一覧
http://www.mwsoft.jp/programming/munou/wikipedia_data_list.htmlファイル
jawiki-latest-pages-articles.xml.bz2(3.9G)
jawiki-latest-pages-articles.xml(16.3G)ツール:WikiExtractor
https://github.com/attardi/wikiextractor- XMLファイルが大きすぎて、viでも開けません。ターミナルがフリーズします。
- Python 3.11では、ツールが実行できません。既知のバグの可能性があります。
- Python 3.10では、XMLからテキストファイルへの変換はできますが、変換するとページ右側に表示される公開日の情報などが完全に削除されることが判明しました。
- コマンド/シェルスクリプトでXMLの解析を試みましたが、行指向の処理では判定後に上の行を取得できないという問題が発生し、断念しました。AWKを頑張って使うよりも、Pythonでパースする方が良いと判断し、Pythonスクリプトを作成しました。
- ページ内のテンプレート「Template:Infobox Film」の情報をXMLファイルから抽出しました。
- 1ページに複数回テンプレートが登場する場合があります。
- テンプレートの開始「{{Infobox Film」、終了「}}」の書き方が統一されていません。終了「}}」がテンプレートの終了以外でも使用される場合があります。「|}}」「次作 =}} xxx」「}} 本文開始」など、終了の表現方法が複数存在し、単純な正規表現ではマッチングできませんでした。
- 急がば回れですが、「Infobox Film」が含まれるページのみを抽出すると、作業が容易になります。(16.3GB → 41MB)
- 「<page>」のタグ数は2,808,250です。
- 「Infobox Film」のテンプレートを含むページ数は25,173です。
- 「{{Infobox Film」と「}}」の間に[1][2]などの注釈リンクが含まれており、今日の日付がページに表示されていない可能性があります(抽出したデータの妥当性を検証できていません)。
- テンプレートには改行が含まれており、1ページを1行のCSVで管理するのは難しいため、SQLiteを使用しました。
- MySQLにデータを格納するためのツールが公開されています。最初からMySQLにデータを格納するべきだったかもしれませんが、MySQLはローカル環境で使用しているため、仕方ありません。
ChatGPTに添削してもらったら丁寧な文章になった。
-
-
-
ホモ・デウス テクノロジーとサピエンスの未来
2018年出版の書籍、貼っとく
https://ja.wikipedia.org/wiki/ホモ・デウス テクノロジーとサピエンスの未来
https://ja.wikipedia.org/wiki/ユヴァル・ノア・ハラリよげんの書
- 科学は一つの包括的な教義に収斂しつつある。それは、生き物はアルゴリズムであり、生命はデータ処理であるという教義だ。
- 知能は意識から分離しつつある。
- 意識を持たないものの高度な知能を備えたアルゴリズムが間もなく、私たちが自分自身を知るよりもよく私たちのことを知るようになるかもしれない。
この三つの動きは、次の三つの重要な問いを提起する。本書を読み終わった後もずっと、それが皆さんの頭に残り続けることを願っている。
- 生き物は本当にアルゴリズムにすぎないのか?そして、生命は本当にデータ処理にすぎないのか?
- 知能と意識のどちらのほうが価値があるのか?
- 意識は持たないものの高度な知能を備えたアルゴリズムが、私たちが自分自身を知るよりもよく私たちのことを知るようになったとき、社会や政治や日常生活はどうなるのか?