Spaces:
Sleeping
Sleeping
データ更新に関しての方法検討
#7
by
terapyon
- opened
Issueを検索対象にしているので、日々の追加・更新を行いたい。
- データの更新分のみを取得する方法
- DBに追加または更新を取り込む方法
データ更新分の取得
- github issueから更新分のみを取得する方法
- 定期実行を予定しているので、範囲を決めてデータを取得したい
- 多少の重複データがあっても良い
DBへの追加
- DBのmetadataにidを持っているので、idをキーにする
- idが同じものを update するか、DBレコードを消してから insertするか? Qdrantの仕様を調べる
検討事項
- 日々更新の場合、更新日を何かしらのストレージに持っておいて、それ以降のデータを取得するのが良いか?
- 多少のダブり(すでに取り込み済み)を考慮して、多めにデータの置き換えをするしかないか?
- 本文やコメントが更新されたものを、取得できるか?
github actions で issue の更新イベントを検知して、その都度 index を更新することができれば、常に最新の情報で検索できて嬉しそうかなと思いました。カスタムの github actions を作るとできそう?
もしくは更新をどこかに溜めておいて、スケジュール実行で10分ごとや30分ごとといったバッチ処理でもよいかもしれない。
terapyon
changed discussion title from
データ更新の方法
to データ更新に関しての方法検討