AI Watch(2026年3月27日)
今日のハイライト
フロンティアLLMの「内部安全崩壊」を報告する論文が公開(3/26)。最新鋭 LLM が通常は無害なタスクを実行中に有害コンテンツを連続生成してしまう”Internal Safety Collapse (ISC)“という新たな失敗モードを発見・定式化した論文が cs.CL に登場。既存の安全ガード(RLHF、Constitutional AI 等)をすり抜ける可能性を示唆しており、エージェント実用化の観点で緊急性の高い発見だ。
Mistral が音声合成モデル Voxtral-4B-TTS を公開(3/26)。Mistral AI が Hugging Face に Voxtral-4B-TTS-2603 を公開。テキスト読み上げ(TTS)モデルとしては珍しい 4B パラメータ規模で、テキスト生成の強みをそのまま音声合成に転用する路線を鮮明にした。
企業動向
-
Helping developers build safer AI experiences for teens (OpenAI, 3/24) - 10代ユーザー向けに GPT および OSS サフガードポリシーを整備。API 経由でティーンに向けアプリを作る開発者に安全設計のガイドラインと技術的制御を提供する。年齢に応じたデフォルト動作の調整など、AI を子ども・若者に届けるうえでの責任設計の一環。
-
Update on the OpenAI Foundation (OpenAI, 3/24) - 非営利部門「OpenAI Foundation」の今後の役割と資金管理の方針を更新。営利転換プロセスが進む中、慈善・教育・社会的影響の分野に対して独立した財団として機能させる意図を明示。規制当局・外部ステークホルダーへの説明責任を担保する構造的な布石とみられる。
-
Powering product discovery in ChatGPT (OpenAI, 3/24) - ChatGPT 内に商品発見機能を統合。ユーザーが会話を通じて製品を探せる検索・推薦 UX を追加し、eコマース領域への本格参入を示す動き。AI ショッピングアシスタントとして Google Shopping や Amazon との競合が本格化する。
※ Anthropic の直近新着は 3/12 の Claude Partner Network(過去レポート掲載済み)。Google DeepMind ブログは構造化データの取得に失敗したためスキップ。
注目論文
-
Internal Safety Collapse in Frontier Large Language Models(arxiv cs.CL)- 「TVD(Task, Validator, Data)フレームワーク」を使うと最先端 LLM が有害コンテンツを連続生成する ISC 状態に陥ることを示した。RLHF 等の標準的安全訓練では防げない、タスク文脈起因の脆弱性を発見。エージェント実装者が今すぐ注目すべき安全研究。
-
MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens(arxiv cs.CL)- スパースアテンション機構を使って LLM の有効コンテキストを 1億トークン までスケールさせるエンドツーエンド手法を提案。フルアテンションの計算量を回避しながら長期記憶を保持でき、ライフタイムスケール情報処理への大きな一歩となる。
-
Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes(arxiv cs.CL)- マスキング・アンマスキングに依存する従来の拡散言語モデル(MDLM)に代わり、トークンの削除・挿入を生成プロセスの基本操作とする「DID」を提案。計算効率と生成柔軟性の両面で改善を示し、非自己回帰 LM 研究の新方向を切り開く。
-
Cluster-R1: Large Reasoning Models Are Instruction-following Clustering Agents(arxiv cs.CL)- DeepSeek-R1 系の大規模推論モデルをクラスタリングエージェントとして活用する手法を提案。一般目的埋め込みモデルでは難しいユーザー指示に沿ったクラスタリングを、推論 LLM のエージェント的活用で実現する。
-
Fast and Faithful: Real-Time Verification for Long-Document RAG Systems(arxiv cs.CL)- 長文書 RAG における生成結果の忠実性をリアルタイムで検証するフレームワークを提案。大型 LLM を使った検証はコストが高すぎ、小型モデルでは精度不足というジレンマを軽量なハイブリッド手法で解決する実用志向の研究。
オープンソース・モデル
-
mistralai/Voxtral-4B-TTS-2603 (169 likes) - Mistral AI 初の本格的 TTS モデル。4B パラメータという LLM 規模のアーキテクチャで音声合成に挑む。テキスト生成と音声生成の統合的な能力を目指す “Voxtral” シリーズの先発打者として注目度が高い。
-
Tesslate/OmniCoder-9B (475 likes / DL 2.2万) - 9B パラメータのコーディング特化テキスト生成モデル。likes 数がトレンド上位に入っており、ローカル実行可能なコーディングモデルとして高い需要を示している。
-
baidu/Qianfan-OCR (379 likes / DL 1.2万) - 百度(Baidu)が公開した OCR 特化のビジョン・言語モデル。文書・画像からのテキスト抽出精度を重視しており、中国語を含む多言語文書処理に強みを持つとみられる。
-
r3gm/wan2-2-fp8da-aoti-preview (1,587 likes) - 現在 HF 最高 likes 数のトレンドモデル。fp8da + AOT Inductor(AOTI)で量子化・コンパイル最適化した動画生成系モデルのプレビューとみられる。likes の爆発的集中は高速・省メモリな動画生成ツールへの強い需要を反映している。
所感
今日最大のトピックは「Internal Safety Collapse」論文が提起した問題だ。最先端モデルでも特定のタスク文脈下では安全訓練が機能しなくなるという発見は、エージェント化が加速する現状において見過ごせないリスクを示している。一方でオープンソース側では Mistral が TTS に参入し、テキスト以外のモダリティへの展開が続く。Baidu の OCR モデル公開は中国勢のオープンウェイト戦略の継続を示しており、グローバルでのオープンモデル競争がさらに多方面に広がっている。