GLM-5 - yubeleのスライド | slidict.io
slidict.io

EN | JA

GLM-5

Google Translate: Japanese English
yubele
yubele
フォロワー 0人
Last updated: 2026/06/19
読む時間: 00:44

共有

コード

通報

GLM-5は長期系・複雑なシステム工学向けに設計された大規模言語モデルシリーズで、長期的なタスク処理と推論を強化する。GLM-5.2を中心に、長期コンテキストの安定性と柔軟な思考予算制御を提供する。

  • Solid 1M Context:長期的な処理を安定して維持

  • Flexible Effort による高度なコーディング能力:複数の思考レベルでパフォーマンスと待機時間を調整

  • 改良されたアーキテクチャ:IndexShare の4層再利用、1Mコンテキスト長で1トークンあたりFLOPsを約2.9倍削減

  • MTP層の改良:推定デコードの受け入れ長を最大20%向上

  • パフォーマンス比較の一部:標準的なコーディングベンチマークでGLM-5.2はGLM-5.1より優位、Claude Opus 4.8・Gemini 3.1 Proと競合

  • 実運用・デプロイメント:複数フレームワークでのローカル提供をサポート(SGLang, vLLM, Transformers, KTransformers など)、Ascend NPU対応

  • THINKINGの制御:reasoning_effortパラメータで思考予算を max/ high で制御、デフォルトは max。highを指定するには reasoning_effort="high" を設定。enable_thinking を false にすると思考をオフ

  • ダウンロード情報:GLM-5.2 系統の各モデル(GLM-5.2, GLM-5.2-FP8, GLM-5.1, GLM-5.1-FP8, GLM-5, GLM-5-FP8)のダウンロードリンク・モデルサイズ・精度情報を表で提供

  • 研究・参照情報:技術レポート・ブログ案内、引用案内あり

@startuml
actor ユーザー
rectangle "GLM-5.x 系統" {
  rectangle "長期コンテキスト機能" as C
  rectangle "柔軟な思考予算" as T
  rectangle "IndexShare アーキテクチャ" as I
  rectangle "MTP層改良" as M
  rectangle "多Framework提供" as F
  rectangle "Ascend NPU対応" as N
}
ユーザー --> C
C --> T
T --> I
I --> M
M --> F
F --> N
@enduml
  • 複数のフレームワークでローカル提供を利用

  • reasoning_effort を設定して思考予算を制御(例: reasoning_effort="high")

  • enable_thinking を false にして思考をオフにすることも可能

  • 長期処理を前提としたタスク設計を想定したデプロイを推奨

  • ダウンロード可能なモデルを用途に応じて選択

  • 長期セッション・反復的推論・ツール呼び出しが多いエージェント運用

  • 大規模コーディング支援・長文文脈を要する分析作業

  • ローカルデプロイを前提とする企業内運用・Ascend NPU などハードウェア最適化環境

  • 技術レポート・研究参照・引用を伴う導入検討

GLM-5のサムネイル(1ページ目)
1 / 9