جمعه ۰۲ آبان ۱۴۰۴
الجمعة ٠٢ جمادی‌الاولی ١٤٤٧
Friday 24 October 2025
متن خبر

فناوری دیپ‌سیک OCR، متون را با دقت بالا فشرده می‌کند

پنجشنبه ۰۱ آبان ۱۴۰۴
فناوری دیپ‌سیک OCR، متون را با دقت بالا فشرده می‌کند
شرکت دیپ‌سیک از یک فناوری مبتنی بر هوش مصنوعی به نام DeepSeek-OCR رونمایی کرد که با استفاده از نگاشت نوری دو‌بعدی، حجم اطلاعات متنی طولانی را به میزان چشمگیری کاهش می‌دهد. این دستاورد می‌تواند شیوه پردازش اسناد حجیم توسط مدل‌های زبان بزرگ را متحول کند.

سیستم جدید DeepSeek-OCR یک فناوری پردازش اسناد است که از دو بخش شامل یک رمزگذار بصری و یک رمزگشای مبتنی بر مدل زبانی تشکیل شده است. این سیستم قادر است متون را با نسبت فشرده‌سازی ۱۰ به ۱ (تبدیل ۱۰ توکن متنی به ۱ توکن بصری) با دقت تشخیص کاراکتر نوری بیش از ۹۷ درصد پردازش کند. این دقت در نسبت فشرده‌سازی ۲۰ به ۱ به حدود ۶۰ درصد می‌رسد.

این فناوری با هدف کاهش بار محاسباتی و حافظه مورد نیاز برای پردازش اسناد متنی طولانی توسط مدل‌های زبان بزرگ طراحی شده است. DeepSeek-OCR با تبدیل متن به یک نمایش بصری فشرده، این امکان را فراهم می‌آورد تا مدل‌های هوش مصنوعی بتوانند محتوای اسناد را با استفاده از توکن‌های بسیار کمتری درک و تحلیل کنند. برای مثال، این سیستم در بنچمارک OmniDocBench با استفاده از تنها ۱۰۰ توکن بصری برای هر صفحه، عملکردی بهتر از سیستم‌های رقیب که به صد‌ها یا هزاران توکن نیاز دارند، به ثبت رسانده است.

معماری رمزگذار این سیستم به گونه‌ای طراحی شده است که حتی در پردازش تصاویر با وضوح بالا، حافظه فعال پردازنده گرافیکی و تعداد توکن‌های بصری را در سطح پایینی نگه می‌دارد. این ویژگی از طریق ترکیب فشرده‌ساز‌های کانولوشنی و مکانیزم‌های توجه به دست آمده و از سرریز حافظه پردازنده گرافیکی در پردازش تصاویر بزرگ جلوگیری می‌کند.

کاربرد‌ها و مقیاس‌پذیری

این مدل از بیش از ۱۰۰ زبان زنده دنیا، از جمله فارسی، پشتیبانی می‌کند و ساختار اسناد پیچیده را با خروجی Markdown حفظ می‌نماید. یکی از برجسته‌ترین نمونه‌های عملی ارائه شده توسط تیم توسعه‌دهنده، توانایی این مدل در خواندن دقیق دست‌خط‌های پیچیده است. در مثالی مشخص، این مدل توانست یک نسخه پزشکی با دست‌خط ناخوانای یک پزشک را با موفقیت تحلیل کند. این مدل نه تنها متن دست‌نویس را به درستی تشخیص داد، بلکه تمام فیلد‌های ساختاریافته نسخه مانند نام بیمار، آدرس، داروی تجویزی، دوز مصرفی و امضای پزشک را به درستی شناسایی و استخراج کرد.

فناوری دیپ‌سیک OCR، متون را با دقت بالا فشرده می‌کند

DeepSeek-OCR به دلیل سرعت بالای پردازش، کاربرد‌های گسترده‌ای در مقیاس صنعتی دارد. این سیستم می‌تواند با استفاده از یک پردازنده گرافیکی A۱۰۰-۴۰G، روزانه بیش از ۲۰۰ هزار صفحه سند را پردازش کند. این ظرفیت، آن را به ابزاری کارآمد برای تولید داده‌های آموزشی جهت توسعه نسل‌های بعدی مدل‌های زبانی و بصری-زبانی تبدیل می‌کند. از دیگر کاربرد‌های بالقوه این فناوری می‌توان به دیجیتال‌سازی و فشرده‌سازی اسناد تاریخی، تحلیل نمودار‌ها و فرمول‌های شیمیایی اشاره کرد.

چالش‌ها و خطرات احتمالی

با وجود کارایی بالا، دقت این سیستم با افزایش نسبت فشرده‌سازی کاهش می‌یابد. در نسبت‌های فشرده‌سازی بسیار بالا (مانند ۲۰ به ۱)، افت دقت به حدود ۴۰ درصد می‌رسد که این موضوع می‌تواند در کاربرد‌های حساس مانند تحلیل اسناد حقوقی یا پزشکی، منجر به خطا‌های اطلاعاتی قابل توجه شود. همچنین، عملکرد این سیستم به کیفیت تصویر ورودی وابسته است و اسناد مخدوش یا با کیفیت پایین ممکن است به درستی پردازش نشوند. وابستگی به سخت‌افزار‌های قدرتمند نیز می‌تواند هزینه‌های پیاده‌سازی و دسترسی به این فناوری را برای همه کاربران محدود کند.

انتهای خبر/193882/

اخبار اقتصادی
آژانس مسافرتی سلام پرواز ایرانیان
اخبار اجتماعی
فروشگاه اینترنتی سفیر