سیستم جدید DeepSeek-OCR یک فناوری پردازش اسناد است که از دو بخش شامل یک رمزگذار بصری و یک رمزگشای مبتنی بر مدل زبانی تشکیل شده است. این سیستم قادر است متون را با نسبت فشردهسازی ۱۰ به ۱ (تبدیل ۱۰ توکن متنی به ۱ توکن بصری) با دقت تشخیص کاراکتر نوری بیش از ۹۷ درصد پردازش کند. این دقت در نسبت فشردهسازی ۲۰ به ۱ به حدود ۶۰ درصد میرسد.
این فناوری با هدف کاهش بار محاسباتی و حافظه مورد نیاز برای پردازش اسناد متنی طولانی توسط مدلهای زبان بزرگ طراحی شده است. DeepSeek-OCR با تبدیل متن به یک نمایش بصری فشرده، این امکان را فراهم میآورد تا مدلهای هوش مصنوعی بتوانند محتوای اسناد را با استفاده از توکنهای بسیار کمتری درک و تحلیل کنند. برای مثال، این سیستم در بنچمارک OmniDocBench با استفاده از تنها ۱۰۰ توکن بصری برای هر صفحه، عملکردی بهتر از سیستمهای رقیب که به صدها یا هزاران توکن نیاز دارند، به ثبت رسانده است.
معماری رمزگذار این سیستم به گونهای طراحی شده است که حتی در پردازش تصاویر با وضوح بالا، حافظه فعال پردازنده گرافیکی و تعداد توکنهای بصری را در سطح پایینی نگه میدارد. این ویژگی از طریق ترکیب فشردهسازهای کانولوشنی و مکانیزمهای توجه به دست آمده و از سرریز حافظه پردازنده گرافیکی در پردازش تصاویر بزرگ جلوگیری میکند.
کاربردها و مقیاسپذیری
این مدل از بیش از ۱۰۰ زبان زنده دنیا، از جمله فارسی، پشتیبانی میکند و ساختار اسناد پیچیده را با خروجی Markdown حفظ مینماید. یکی از برجستهترین نمونههای عملی ارائه شده توسط تیم توسعهدهنده، توانایی این مدل در خواندن دقیق دستخطهای پیچیده است. در مثالی مشخص، این مدل توانست یک نسخه پزشکی با دستخط ناخوانای یک پزشک را با موفقیت تحلیل کند. این مدل نه تنها متن دستنویس را به درستی تشخیص داد، بلکه تمام فیلدهای ساختاریافته نسخه مانند نام بیمار، آدرس، داروی تجویزی، دوز مصرفی و امضای پزشک را به درستی شناسایی و استخراج کرد.
DeepSeek-OCR به دلیل سرعت بالای پردازش، کاربردهای گستردهای در مقیاس صنعتی دارد. این سیستم میتواند با استفاده از یک پردازنده گرافیکی A۱۰۰-۴۰G، روزانه بیش از ۲۰۰ هزار صفحه سند را پردازش کند. این ظرفیت، آن را به ابزاری کارآمد برای تولید دادههای آموزشی جهت توسعه نسلهای بعدی مدلهای زبانی و بصری-زبانی تبدیل میکند. از دیگر کاربردهای بالقوه این فناوری میتوان به دیجیتالسازی و فشردهسازی اسناد تاریخی، تحلیل نمودارها و فرمولهای شیمیایی اشاره کرد.
چالشها و خطرات احتمالی
با وجود کارایی بالا، دقت این سیستم با افزایش نسبت فشردهسازی کاهش مییابد. در نسبتهای فشردهسازی بسیار بالا (مانند ۲۰ به ۱)، افت دقت به حدود ۴۰ درصد میرسد که این موضوع میتواند در کاربردهای حساس مانند تحلیل اسناد حقوقی یا پزشکی، منجر به خطاهای اطلاعاتی قابل توجه شود. همچنین، عملکرد این سیستم به کیفیت تصویر ورودی وابسته است و اسناد مخدوش یا با کیفیت پایین ممکن است به درستی پردازش نشوند. وابستگی به سختافزارهای قدرتمند نیز میتواند هزینههای پیادهسازی و دسترسی به این فناوری را برای همه کاربران محدود کند.
انتهای خبر/193882/
- اخلاق حرفهای؛ راهگشای توسعه پایدار اقتصادی
- پزشکیان: مسیر حل مشکلات اقتصادی از تولید و صادرات میگذرد / تصمیمگیری باید بر اساس شواهد علمی باشد +فیلم
- مسئولیتپذیری اجتماعی پایه پایداری مدیریت و اقتصاد است
- تجار امروز دلار را به چه قیمتی می خرند؟
- جلوگیری از خروج ارز و خلق ۹۰۰ میلیون دلار ثروت؛ سکوی اقتصادی ضد تحریم بومیسازی شد
- سیاست نسبت 20 به 80 کلید بازتعادل ارزی شد/ بانک مرکزی: بازار دوم تحت کنترل تورم اداره میشود
- دستور پزشکیان روی بسته بخش خصوصی برای شرایط پسا ماشه/ اصلاح قانون مبارزه با قاچاق جدی شد
- ترخیص سهروزه کالا در گمرک با اجرای دقیق 2 ماده قانون گمرکی
- جزئیات تعرفههای جدید برق/ افزایش تصاعدی برای پله های بالای مصرف
- هواشناسی ایران 1404/7/30؛ هشدار بارشهای سیلآسا در 3 استان
- هوای تهران در آستانه وضعیت ناسالم ماند
- میانگین معوقات پرستاران به 6 ماه رسیده است/امکان محاسبه درآمد پرستاران از تعرفهها فراهم شد
- ممنوعیت دریافت کپی مدارک هویتی در مراکز تأمین اجتماعی
- حکمرانی دیجیتال در آموزش عالی؛ از منابع به سوی اثرات اجتماعی
- بانکداری اجتماعی؛ راهکار نوین تحقق کارآفرینی اجتماعی
- افت شناختی کودکان، هزینه وقت گذرانی مداوم در شبکههای اجتماعی است
- انهدام باند بزرگ توزیع و فروش سلاح در تهران/ کشف بیش از 100 قبضه کلت کمری و سلاح گرم
- شهرداری تهران قصد دورزدن قانون را دارد؟ / واگذاری تاکسی برقی به غیرتاکسیرانان، خلاف مصوبه شورا
- شایعهسازی دوباره پیرامون یک زندانی؛ تتلو سکته مغزی نداشته است
- اختلال صبحگاهی در خطوط 4 و 5 متروی تهران/ مسافران سرگردان شدند