前にこんなことやってました。
コサイン類似度の計算を高速化したくなることがちょくちょくあるのですが、「ぶっちゃけどれくらいのスループットが出せるもんなの?」というのが気になったので完全に興味本位でやってみます。
続きを読む前にこんなことやってました。
コサイン類似度の計算を高速化したくなることがちょくちょくあるのですが、「ぶっちゃけどれくらいのスループットが出せるもんなの?」というのが気になったので完全に興味本位でやってみます。
続きを読むこの前こんなんをやってました。
この中でLLM sherpaを使用していましたが、こちらのgithubをよく読んでみると解析部分もOSSになってることが分かりました。 つまり、視覚的構造解析が完全にローカル環境で実装できるということになります。
せっかくやりかけたので、ローカル環境でやってみたので今回はそのメモです。
続きを読むちょっと長いテキストデータだと、テキスト自体が章や節のような構造を持っていたりします。 人間はこうした文章内部の構造は読めばなんとなく理解することができますが、自動でこれをやるのはちょっと難しかったりします。
こういった処理を行なうツールがないかと探していたところ、"LlamaParse"と"LLM Sherpa"というライブラリを見つけました。 どちらもそこまで長いコードではなく、OSSとはいえ自分でも読めそうなくらいでした。 ということで、パッとこれらのコード読んでみてどんな感じの処理を行っているのかなぞってみたので、そのメモです。
続きを読む「こんな感じのAPIサーバー立てといて」なんて言葉、開発してれば日常茶飯事です。 そんな「APIサーバーを立てる」と言ってもいろんな種類がありますね。
今回はよくあるAPIサーバーを一通りPythonで立てるだけ立ててみようと思います。
続きを読む
ただの小ネタです。
個人的にPythonを使っていてcos類似度を計算することがありました。 ただ、類似度を計算したいペアの数が多いと結構時間がかかってしまっていました。
これを高速化するにはどうしたらよいか、いろいろ調べて試してみたのでそのメモです。
続きを読む
pandasのapplyの高速化方法として、pandarallelやswifterが良さそうというのをこちらの記事を読んで知りました。
非常に高速に処理を実行することができて良さそうだったので、使ってみたメモです。
続きを読むちょっとした技術調査です。
MS Office系のデータとPDFを大量に画像に変換したいことがあったんですが、あまりに量が多くて自動化したくなりました。
「どうせ簡単に出来るやろ」とか余裕ぶっこいてたら実は結構めんどくさかったので、今回はそのやり方をメモとして残しておくものです。
続きを読む
年末年始なんで、2020年にやり残した事を勉強していこうと思います。 今日は、Djangoについて勉強していこうと思います。
事情としては、最近になってDjangoのコードを触ることがあって、その際にどうやって書くのが正解なのか、思想的なものがあんまりよくわからなくなってしまったので、初心に戻ってやり直そうというくらいの気持ちです。
今回参考にさせていただいた書籍はこちらです。
超入門と書いてあるだけあって、初学者にも非常にわかりやすい表現となっていました。 Django・Python初心者にとっては良い書籍だと感じました。
今回は、こちらの書籍を参考に色々弄ってみたので、今回はそのメモです。
続きを読む年末年始なんで、2020年にやり残した事を勉強していこうと思います。 今日は最近だんだん聞くようになってきたPoetryについて勉強していきたいと思います。
続きを読む