![]() |
DeepSeekは、従来の方法に比べて7~20分の1のトークンで文書を処理できる新しいAIモデルをリリースしました。写真: The Verge 。 |
SCMPによると、DeepSeekは、従来のテキスト処理方法に比べて7~20倍も少ないトークン数で大規模かつ複雑な文書を処理できる新しいマルチモーダル人工知能(AI)モデルをリリースしたという。
トークンは、AIが処理するテキストの最小単位です。トークンの数を減らすことで、計算コストを削減し、AIモデルの効率性を向上させることができます。
これを実現するために、DeepSeek-OCR(光学文字認識)モデルは、視覚認識を情報圧縮の手段として利用しました。このアプローチにより、大規模な言語モデルでも、計算コストの増加に比例することなく、膨大な量のテキストを処理できるようになります。
「DeepSeek-OCRを通じて、視覚認識を利用して情報を圧縮することで、さまざまな歴史的背景期間で7~20倍の大幅なトークン削減を実現できることを実証し、有望な方向性を示しました」とDeepSeekは述べています。
同社のブログ投稿によると、DeepSeek-OCRは、DeepEncoderとデコーダーとして機能するDeepSeek3B-MoE-A570Mという2つの主要コンポーネントで構成されている。
その中で、DeepEncoder はモデルのコアエンジンとして機能し、高解像度の入力下で低いアクティベーション レベルを維持しながら、強力な圧縮率を達成してトークン数を削減するのに役立ちます。
デコーダーは、5億7000万パラメータのMixture-of-Experts(MoE)モデルであり、元のテキストを再現する役割を担っています。MoEアーキテクチャは、モデルを入力データのサブセットの処理に特化したサブネットワークに分割することで、モデル全体をアクティブ化することなくパフォーマンスを最適化します。
ドキュメントの読みやすさのベンチマークである OmniDocBench では、DeepSeek-OCR は、はるかに少ないトークンを使用しながら、GOT-OCR 2.0 や MinerU 2.0 などの主要な OCR モデルよりも優れたパフォーマンスを発揮します。
出典: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
コメント (0)