チャンキングとは、大量のテキストデータを小さな「チャンク」(断片)に分割する処理のこと。 AI・機械学習の文脈では、主に以下の目的で使用される:
チャンキングの方法には以下のようなものがある:
効果的なチャンキングは、大規模言語モデル(LLM)での文書処理や質問応答システムのパフォーマンスを向上させる重要な前処理ステップとなっているが、目的や分割の単位で意味合いが異なるので、注意が必要。
graph TD
A["長いテキスト"] --> B["チャンキング処理"]
B --> C["チャンク1"]
B --> D["チャンク2"]
B --> E["チャンク3"]
C --> J["LLMによる処理"]
D --> J
E --> J
この図は、チャンキングの基本的な流れを示している。長いテキストを適切な単位で分割し、それぞれのチャンクをLLMで処理することで、効率的なテキスト処理が可能になる。
ゲートウェイは、異なるネットワークやプロトコル間の通信を可能にする中継装置のこと。 主に以下のような役割を持つ: