۲۰ سازمان اروپایی برای ساخت LLM‌های بومی متحد شدند_تاشکن

[ad_1]
به گزارش تاشکن

مدل‌های زبانی بزرگ (LLM) هفته قبل با اظهار برنامه‌ای تازه برای گسترش مجموعه‌ای از مدل‌های واقعاً متن‌باز که همه زبان‌های اتحادیه اروپا را پوشش دهند، به برتری‌های حاکمیت دیجیتال اروپا اضافه شدند.

به گزارش تک کرانچ، این پروژه که OpenEuroLLM نام دارد، شامل ۲۴ زبان رسمی اتحادیه اروپا و این چنین زبان‌هایی از سرزمین‌های در حال مذاکره برای ورود به بازار اتحادیه، همانند آلبانی، خواهد می بود. این مطرح حاصل همکاری ۲۰ سازمان گوناگون است و به‌صورت مشترک توسط یان هاژیک، زبان‌شناس رایانشی از دانشگاه چارلز در پراگ، و پیتر سارلین، مدیرعامل و هم‌بنیان‌گذار آزمایشگاه هوش مصنوعی Silo AI فنلاند (که سال قبل توسط AMD به قیمت ۶۶۵ میلیون دلار خریداری شد)، هدایت می‌شود.

تلاش اروپا برای استقلال دیجیتال

این پروژه در راستای استراتژی گسترده‌تر اتحادیه اروپا برای حاکمیت دیجیتال تعریف شده است؛ تلاشی برای افزایش کنترل بر زیرساخت‌های حیاتی و ابزار‌های دیجیتال. در همین جهت، غول‌های ابری در حال اندوخته‌گذاری روی زیرساخت‌های محلی می باشند تا داده‌های اتحادیه اروپا در داخل مرز‌های این قاره باقی بمانند. این چنین، OpenAI اخیراً امکان پردازش و ذخیره داده‌ها در اروپا را برای مشتریان خود فراهم کرده است.

آخرین مطالب

در سطح کلان‌تر، اتحادیه اروپا اخیراً یک قرارداد ۱۱ میلیارد دلاری برای تشکیل یک منظومه ماهواره‌ای جدا گانه به‌منظور رقابت با استارلینک ایلان ماسک امضا کرده است.

با این حال، بودجه تعلق‌یافته به OpenEuroLLM برای گسترش مدل‌ها تنها ۳۷.۴ میلیون یورو است که ۲۰ میلیون یورو آن از سوی برنامه دیجیتال اروپا فراهم می‌شود؛ رقمی ناچیز در قیاس با اندوخته‌گذاری‌های شرکت‌های بزرگ هوش مصنوعی. هرچند، هزینه‌های مهم پروژه مربوط به پردازش و رایانش است که از طریق مراکز ابررایانه EuroHPC در اسپانیا، ایتالیا، فنلاند و هلند فراهم خواهد شد. پروژه EuroHPC در کل ۷ میلیارد یورو بودجه دارد.

چالش هماهنگی بین ۲۰ سازمان

با دقت به وجود بیشتر از ۲۰ نهاد تحقیقاتی و صنعتی در این پروژه، برخی کارشناسان نسبت به امکان تحقق اهداف آن تردید دارند. آناستازیا استاسنکو، هم‌بنیان‌گذار شرکت Pleias، او گفت: ازمایش ها تازه نشان داده که پیروزی‌های اروپا در عرصه هوش مصنوعی زیاد تر از سوی تیم‌های کوچک و متمرکزی همانند Mistral AI و LightOn رقم خورده است؛ شرکت‌هایی که به‌صورت جدا گانه تصمیم‌گیری می‌کنند و مسئولیت مستقیم انتخاب‌های خود را بر مسئولیت دارند.

آیا OpenEuroLLM از صفر اغاز می‌کند؟

پر بیننده ترین سایت خبری تحلیلی فارسی زبان جهان ,اخبار سیاسی اخبار فرهنگ وهنر اخبار اجتماعی اخبار اقتصادی اخبار ورزشی و تکنولوژی را در سایت خبری تاشکن بخوانید.

پروژه OpenEuroLLM از جهاتی از صفر اغاز می‌شود، اما از جهاتی دیگر بر پایه پروژه‌های قبلی محکم است. از سال ۲۰۲۲، هاژیک پروژه‌ای موسوم به High Performance Language Technologies (HPLT) را هدایت کرده که مقصد آن گسترش مجموعه داده‌های رایگان و مدل‌های مبتنی بر پردازش ابری است. زیاد تر شرکای HPLT (به‌جز نهاد‌های بریتانیایی) در OpenEuroLLM نیز وجود دارند.

نسخه اولیه مدل‌های OpenEuroLLM تا اواسط سال ۲۰۲۶ انتشار خواهد شد و نسخه نهایی آن تا آخر پروژه در سال ۲۰۲۸ تکمیل می‌شود. با این حال، تا بحال تنها یک پروفایل اولیه در گیت‌هاب برای این پروژه به ثبت رسیده است.

تمرکز بر کیفیت و شفافیت

یکی از اهداف کلیدی این پروژه، گسترش مدل‌های زبانی پایه برای هوش مصنوعی شفاف در اروپا است. این مدل‌ها باید تنوع زبانی و فرهنگی اتحادیه اروپا را نگه داری کنند و شامل نسخه‌های سبک‌تر (Quantized) برای کاربرد‌های بهینه باشند.

در عرصه داده‌ها، پروژه HPLT تا بحال ۴.۵ پتابایت داده از وب و بیشتر از ۲۰ میلیارد سند را گردآوری کرده است. علاوه بر این، داده‌های جدیدی از Common Crawl (یک مخزن عمومی داده‌های اینترنتی) به این مجموعه اضافه خواهد شد.

با این حال، یکی از چالش‌های این پروژه، تعریف متن‌باز بودن است. بر پایه دستورالعمل حق نشر اتحادیه اروپا، این پروژه می‌تواند از همه منبع های داده‌ای در دسترس منفعت گیری کند، اما برخی از این داده‌ها امکان پذیر قابل انتشار کردن عمومی نباشند و فقط در دسترس ناظران رسمی قرار گیرند.

رقابت با پروژه‌های شبیه

یکی از مسائل نقل‌شده درمورد OpenEuroLLM، وجود پروژه‌ای شبیه به نام EuroLLM است که چند ماه پیش فعالیت خود را اغاز کرد. EuroLLM نیز با حمایتاتحادیه اروپا و شراکت ۹ شریک از جمله دانشگاه ادینبورگ و شرکت Unbabel، به جستوجو گسترش مدل‌های زبانی متن‌باز برای ۲۴ زبان رسمی اتحادیه اروپا است.

آندره مارتینز، مدیر تحقیقات Unbabel، در شبکه‌های اجتماعی از تشابه این دو پروژه انتقاد کرد و او گفت: *”امیدوارم این جوامع به‌جای تکرار کارهای یکدیگر، به همکاری و اشتراک‌گذاری تخصص بپردازند.

هاژیک نیز این حالت را “نامطلوب” خواند اما اظهار امیدواری کرد که این دو پروژه بتوانند همکاری کنند. با این حال، به علت محدودیت‌های فراهم مالی اتحادیه اروپا، OpenEuroLLM نمی‌تواند با نهادهای بریتانیا و سوئیس همکاری کند.

پیتر سارلین، هم‌بنیان‌گذار Silo AI، معتقد است که بودجه OpenEuroLLM برای گسترش مدل‌های پایه کافی است، چون این پروژه محصولی برای مصرف‌کنندگان یا شرکت‌ها اراعه نخواهد داد و فقطً زیرساختی برای گسترش هوش مصنوعی در اروپا خواهد می بود.

وی در این باره او گفت: مقصد ما گسترش یک مدل هوش مصنوعی متن‌باز است که شرکت‌های اروپایی بتوانند بر پایه آن محصولات خود را بسازند. ما نمی‌خواهیم یک چت‌بات همانند ChatGPT بسازیم، بلکه مدلی بنیادی اراعه می‌دهیم که زیرساخت آینده هوش مصنوعی در اروپا باشد.

در نهایت، مقصد نهایی این پروژه، رقابت با شرکت‌های بزرگ فناوری نیست، بلکه نگه داری حاکمیت دیجیتال اروپا و گسترش مدل‌های زبانی بومی و شفاف برای این قاره است.

هاژیک در آخر پافشاری کرد: حتی اگر در نهایت مدل ما برترین مدل جهان نباشد، اما ما مدلی خواهیم داشت که همه مؤلفه‌های آن در اروپا ساخته شده‌اند. این خود یک دستاورد مهم خواهد می بود.

انتهای مطلب/

دسته بندی مطالب

[ad_2]

منبع