どこにでもいるSEの備忘録

たぶん動くと思うからリリースしようぜ

コサイン類似度のいろんな書き方

前にこんなことやってました。

www.nogawanogawa.work

コサイン類似度の計算を高速化したくなることがちょくちょくあるのですが、「ぶっちゃけどれくらいのスループットが出せるもんなの?」というのが気になったので完全に興味本位でやってみます。

続きを読む

"ローカルで"LLM sherpaを使ったPDFの視覚的構造解析をする

この前こんなんをやってました。

www.nogawanogawa.work

この中でLLM sherpaを使用していましたが、こちらのgithubをよく読んでみると解析部分もOSSになってることが分かりました。 つまり、視覚的構造解析が完全にローカル環境で実装できるということになります。

せっかくやりかけたので、ローカル環境でやってみたので今回はそのメモです。

続きを読む

PDFの構造解析をする"LlamaParse"と"LLM Sherpa"を使ってみる

ChatGPTに作ってもらったヘッダー画像です

ちょっと長いテキストデータだと、テキスト自体が章や節のような構造を持っていたりします。 人間はこうした文章内部の構造は読めばなんとなく理解することができますが、自動でこれをやるのはちょっと難しかったりします。

こういった処理を行なうツールがないかと探していたところ、"LlamaParse"と"LLM Sherpa"というライブラリを見つけました。 どちらもそこまで長いコードではなく、OSSとはいえ自分でも読めそうなくらいでした。 ということで、パッとこれらのコード読んでみてどんな感じの処理を行っているのかなぞってみたので、そのメモです。

続きを読む

Pythonでいろんなサーバーを立ててみる

「こんな感じのAPIサーバー立てといて」なんて言葉、開発してれば日常茶飯事です。 そんな「APIサーバーを立てる」と言ってもいろんな種類がありますね。

今回はよくあるAPIサーバーを一通りPythonで立てるだけ立ててみようと思います。

続きを読む

Numpyでcos類似度の計算を高速化する

ただの小ネタです。

個人的にPythonを使っていてcos類似度を計算することがありました。 ただ、類似度を計算したいペアの数が多いと結構時間がかかってしまっていました。

これを高速化するにはどうしたらよいか、いろいろ調べて試してみたのでそのメモです。

続きを読む

パワーポイントとPDFを自動で画像に変換したい

f:id:nogawanogawa:20210503084049j:plain:w500

ちょっとした技術調査です。

MS Office系のデータとPDFを大量に画像に変換したいことがあったんですが、あまりに量が多くて自動化したくなりました。

「どうせ簡単に出来るやろ」とか余裕ぶっこいてたら実は結構めんどくさかったので、今回はそのやり方をメモとして残しておくものです。

続きを読む

Djangoについて勉強したメモ

f:id:nogawanogawa:20201229165348p:plain

年末年始なんで、2020年にやり残した事を勉強していこうと思います。 今日は、Djangoについて勉強していこうと思います。

事情としては、最近になってDjangoのコードを触ることがあって、その際にどうやって書くのが正解なのか、思想的なものがあんまりよくわからなくなってしまったので、初心に戻ってやり直そうというくらいの気持ちです。

今回参考にさせていただいた書籍はこちらです。

Python Django 3超入門

Python Django 3超入門

超入門と書いてあるだけあって、初学者にも非常にわかりやすい表現となっていました。 Django・Python初心者にとっては良い書籍だと感じました。

今回は、こちらの書籍を参考に色々弄ってみたので、今回はそのメモです。

続きを読む