Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeekが再び躍進

DeepSeek は、視覚認識を圧縮媒体として使用し、従来の方法よりも 20 倍少ないトークンで大規模なドキュメントを処理する DeepSeek-OCR モデルを発表しました。

ZNewsZNews23/10/2025

DeepSeekは、従来の方法に比べて7~20分の1のトークンで文書を処理できる新しいAIモデルをリリースしました。写真: The Verge

SCMPによると、DeepSeekは、従来のテキスト処理方法に比べて7~20倍も少ないトークン数で大規模かつ複雑な文書を処理できる新しいマルチモーダル人工知能(AI)モデルをリリースしたという。

トークンは、AIが処理するテキストの最小単位です。トークンの数を減らすことで、計算コストを削減し、AIモデルの効率性を向上させることができます。

これを実現するために、DeepSeek-OCR(光学文字認識)モデルは、視覚認識を情報圧縮の手段として利用しました。このアプローチにより、大規模な言語モデルでも、計算コストの増加に比例することなく、膨大な量のテキストを処理できるようになります。

「DeepSeek-OCRを通じて、視覚認識を利用して情報を圧縮することで、さまざまな歴史的背景期間で7~20倍の大幅なトークン削減を実現できることを実証し、有望な方向性を示しました」とDeepSeekは述べています。

同社のブログ投稿によると、DeepSeek-OCRは、DeepEncoderとデコーダーとして機能するDeepSeek3B-MoE-A570Mという2つの主要コンポーネントで構成されている。

その中で、DeepEncoder はモデルのコアエンジンとして機能し、高解像度の入力下で低いアクティベーション レベルを維持しながら、強力な圧縮率を達成してトークン数を削減するのに役立ちます。

デコーダーは、5億7000万パラメータのMixture-of-Experts(MoE)モデルであり、元のテキストを再現する役割を担っています。MoEアーキテクチャは、モデルを入力データのサブセットの処理に特化したサブネットワークに分割することで、モデル全体をアクティブ化することなくパフォーマンスを最適化します。

ドキュメントの読みやすさのベンチマークである OmniDocBench では、DeepSeek-OCR は、はるかに少ないトークンを使用しながら、GOT-OCR 2.0 や MinerU 2.0 などの主要な OCR モデルよりも優れたパフォーマンスを発揮します。

出典: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html


コメント (0)

No data
No data

遺産

人物

企業

若者たちは一年で最も美しい稲作シーズンにチェックインするために北西部へ出かける

時事問題

政治体制

地方

商品