2010-01-01から1年間の記事一覧

perlで高速な類似検索エンジンを構築できるようにしてみた

すみません。タイトルはやや釣り気味です。類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi https://github.com/miki/Lu…

行列分解ライブラリredsvdで潜在的意味インデキシングを試してみたの巻

久しぶりに自然言語処理的な話です。すこし前にPFIの岡野原さんが公開されたredsvdを試してみました。 redsvd は行列分解を解くためのC++ライブラリであり、特異値分解(SVD)、主成分分析(PCA)、固有値分解などをサポートしています (中略) 例えば、行と列…

Hadoopに入門してみた - セットアップからHadoop Streaming まで -

大規模データを処理する必要が出て来たので、Hadoopを導入してみることになりました。以下、導入メモです。 セットアップ 以下のような構成で試してみます。環境はCentOSです。 マスター(host001) ━┳ スレーブ(host002) ┣ スレーブ(host003) ┣ スレーブ…

Javaで暗号化したデータをPerlで復号化しようとしたら大変だった件

JavaでRijndael(AES)で暗号化されたデータをPerlで復号化しようと思います。「暗号方式と秘密鍵だけ聞いておけば簡単にデコードできるっしょ、余裕っしょ」とタカをくくっていたら、思いっきり天罰がくだりました。久しぶりにハマったのであります。 ちゃん…

遺伝的アルゴリズムを楽しく理解できるサイトをまとめてみた

女優の菊川怜さんが学生時代に研究テーマにしていたという事で有名な「遺伝的アルゴリズム」ですが、名前の仰々しさとは裏腹に、意外と直感的に理解できる取っ付きやすいアルゴリズムだったりします。それにしても菊川怜さん、美人ですねー。こんな先生にイ…

perlでテトリス!

偶然おもしろいモノを発見しました。コンソールで遊べるperlテトリスです。スクリーンショットとってみました。 なんと、macbookのターミナル上でカラフルなテトリスが元気よく動いてます! それにしても、俺テトリス下手だな。。。ってのはおいといて、ソー…

1枚のスクリプトに全てをまとめてくれるApp::FatPacker

App::FatPackerとは、依存モジュールを全て1つのファイルに押し込んでパックしてくれるライブラリです。CPANにあります。 pack your dependencies onto your script file http://search.cpan.org/~mstrout/App-FatPacker-0.009001/ 依存モジュールを解決し…

知ってそうで意外と知られていないperlの小技 10選

意外と知られていないperlテクってのが、意外とあるもんですね。 最近身の回りでいくつか話題に上がったものがあったので、ちょっと書いてみます。どれも最新のモダパ的なモノではないけども、知っておくと地味に便利かもしれないノウハウです。中級レベル以…

perlXSでSTLのstd::mapを使ってみる

ここのところC++でコードを書いているんですが、やっぱりそいつをperlから使いたい。 ということでXSについてお勉強中です。ごく簡単なものなら書けるようになってきましたが「perlから渡したハッシュをC++側でstd::mapとして受け取りたい」といった特殊なケ…

多次元尺度法で遊んでみる(オレ流 R入門)

多次元データをクラスタリングする際に、それらのデータを2次元データに落とし込んで可視化させたいことがあります。そんな時に便利なのが「多次元尺度法」という手法です。個々のデータ間の距離/類似度が分かっている場合に、それらのデータの座標を求めて…

動的計画法とナップサック問題を学びたい人におすすめのサイト

組み合わせ最適化の手法として「動的計画法」というモノがあります。wikipediaから抜粋 動的計画法(どうてきけいかくほう、英: Dynamic Programming, DP) コンピュータ科学の分野において、ある最適化問題を複数の部分問題に分割して解く際に、そこまでに…

bayonやCLUTOが爆速な理由

クラスタリングツールbayonを使っていて、常々「どうしてこんなに高速に処理できんのかなぁ」と疑問に感じていました。repeated bisectionという手法自体がk-means法などと比べると効率がいいのですが、それにしても、それだけでは説明がつかないほど爆速な…

mysqlで複数行にまたがるカラムをCSVフォーマットで出力する方法

地味なネタですが、今日はまってしまったのでメモっておきます。とあるとmysqlのデータをselect * from xxx into outfileで外部ファイルに出力したいとします。 テーブルのスキーマは「URL、タイトル、 HTML本体」という構成だとしましょう。HTML本体の部分…