GLM-5

Google Translate: Japanese English

yubele

フォロワー 0人

Last updated: 2026/06/19

読む時間: 00:44

コード

通報

埋め込み用コード

通報

Last updated: 2026/06/19

読む時間: 00:44

概要

Slide content

GLM-5は長期系・複雑なシステム工学向けに設計された大規模言語モデルシリーズで、長期的なタスク処理と推論を強化する。GLM-5.2を中心に、長期コンテキストの安定性と柔軟な思考予算制御を提供する。

主な機能・特徴

Slide content

Solid 1M Context：長期的な処理を安定して維持
Flexible Effort による高度なコーディング能力：複数の思考レベルでパフォーマンスと待機時間を調整
改良されたアーキテクチャ：IndexShare の4層再利用、1Mコンテキスト長で1トークンあたりFLOPsを約2.9倍削減
MTP層の改良：推定デコードの受け入れ長を最大20%向上
パフォーマンス比較の一部：標準的なコーディングベンチマークでGLM-5.2はGLM-5.1より優位、Claude Opus 4.8・Gemini 3.1 Proと競合
実運用・デプロイメント：複数フレームワークでのローカル提供をサポート（SGLang, vLLM, Transformers, KTransformers など）、Ascend NPU対応
THINKINGの制御：reasoning_effortパラメータで思考予算を max/ high で制御、デフォルトは max。highを指定するには reasoning_effort="high" を設定。enable_thinking を false にすると思考をオフ
ダウンロード情報：GLM-5.2 系統の各モデル（GLM-5.2, GLM-5.2-FP8, GLM-5.1, GLM-5.1-FP8, GLM-5, GLM-5-FP8）のダウンロードリンク・モデルサイズ・精度情報を表で提供
研究・参照情報：技術レポート・ブログ案内、引用案内あり

アーキテクチャ・構成図

Slide content

@startuml
actor ユーザー
rectangle "GLM-5.x 系統" {
  rectangle "長期コンテキスト機能" as C
  rectangle "柔軟な思考予算" as T
  rectangle "IndexShare アーキテクチャ" as I
  rectangle "MTP層改良" as M
  rectangle "多Framework提供" as F
  rectangle "Ascend NPU対応" as N
}
ユーザー --> C
C --> T
T --> I
I --> M
M --> F
F --> N
@enduml