هوش مصنوعی اطلاعات خود را از این سایت‌ها می‌گیرد / اینفوگرافیک

تینا مزدکی_براساس تحلیلی که توسط شرکت Semrush انجام شده است، مدل‌های زبانی بزرگ (LLM) مانند ChatGPT بیش از همه، به وب‌سایت‌هایی مانند Reddit و Wikipedia برای دریافت اطلاعات و حقایق مراجعه می‌کنند. برای داده‌های جغرافیایی نیز، این مدل‌ها معمولاً از داده‌های Mapbox و OpenStreetMap استفاده می‌کنند.

این بررسی، که در ژوئن ۲۰۲۵ و بر اساس بیش از ۱۵۰ هزار اطلاعات استفاده شده توسط مدل‌های زبانی بزرگ انجام شد، نشان می‌دهد که چت‌بات‌ها تا چه اندازه به محتوای تولید شده توسط کاربران وابسته هستند. این موضوع نگرانی‌هایی را درباره محدودیت‌های ابزارهای هوش مصنوعی امروزی ایجاد کرده است. این رتبه‌بندی، ارائه شده در قالب یک اینفوگرافیک، نمای روشنی از منابع مورد اعتماد مدل‌های هوش مصنوعی ارائه می‌دهد و به کاربران و توسعه‌دهندگان کمک می‌کند تا درک بهتری از عملکرد این فناوری‌ها پیدا کنند.

هوش مصنوعی اطلاعات خود را از کجا می‌آورد؟

داده‌های استفاده شده در این اینفوگرافیک از شرکت Semrush به دست آمده است و نشان می‌دهد که مدل‌های هوش مصنوعی تا چه اندازه به دامنه‌های مختلف وب هنگام ارائه اطلاعات مراجعه می‌کنند. این آمار مربوط به ژوئن ۲۰۲۵ است و تصویر روشنی از منابع مورد استناد مدل‌های زبانی بزرگ ارائه می‌دهد.

براساس تحلیل ژوئن ۲۰۲۵ از بیش از ۱۵۰ هزار اطلاعات استفاده شده توسط مدل‌های زبانی، وب‌سایت‌های زیر به ترتیب بیشترین مراجعه را داشته‌اند:

Reddit.com – ۴۰.۱٪
Wikipedia.org – ۲۶.۳٪
YouTube.com – ۲۳.۵٪
Google.com – ۲۳.۳٪
Yelp.com – ۲۱.۰٪
Facebook.com – ۲۰.۰٪
Amazon.com – ۱۸.۷٪
Tripadvisor.com – ۱۲.۵٪
Mapbox.com – ۱۱.۳٪
OpenStreetMap.com – ۱۱.۳٪
Instagram.com – ۱۰.۹٪
Mapquest.com – ۹.۸٪
Walmart.com – ۹.۳٪
eBay.com – ۷.۷٪
LinkedIn.com – ۵.۹٪
Quora.com – ۴.۶٪
Homedepot.com – ۴.۶٪
Yahoo.com – ۴.۴٪
Target.com – ۴.۳٪
Pinterest.com – ۴.۲٪

استفاده از محتوای تولید شده توسط کاربران!

وب‌سایت Reddit با ۴۰.۱٪ بیشترین میزان استناد و پس از آن Wikipedia با ۲۶.۳٪ در رتبه دوم قرار دارند. این آمار نشان می‌دهد که مدل‌های زبانی بزرگ (LLM) اغلب به بحث‌های آزاد در فروم‌ها و محتوای تولید شده و نگهداری شده توسط جامعه کاربران تکیه می‌کنند.

این وب‌سایت‌ها منابع گسترده‌ای از دانش تولیدشده توسط کاربران ارائه می‌دهند، اما ماهیت باز و قابل ویرایش آن‌ها نگرانی‌هایی درباره صحت و جانبداری اطلاعات ایجاد می‌کند. وابستگی بالای هوش مصنوعی به چنین منابعی می‌تواند منجر به تقویت روایت‌هایی شود که بیشترین دیده شدن یا محبوبیت را دارند اما صحت آن‌ها تایید نشده است. به عنوان مثال، کاربران گزارش داده‌اند که ChatGPT گاهی پیشنهاد کرده است که برای تصفیه آب خود از وایتکس استفاده کنند یا آن را با سرکه مخلوط کنند، اقدامی که منجر به تولید گاز سمی کلر می‌شود.

همچنین باید بدانید که سه ریسک اصلی استفاده از محتوای تولید شده توسط کاربران عبارت است از:

اشاعه اطلاعات نادرست و شایعات: از آنجا که محتوا همیشه توسط کارشناسان دامنه بررسی نمی‌شود، هوش مصنوعی ممکن است به صورت غیرعمد اطلاعات نادرست یا جانبدارانه را تکرار کند.
تقویت حباب اطلاعاتی: روایت‌های محبوب اما تایید نشده ممکن است تکرار شوند و منابع دقیق‌تر و کمتر دیده شده را تحت‌الشعاع قرار دهند.
عدم اعتبار: به ویژه در موضوعات حساس مانند سلامت، حقوق و مالیه، وب‌سایت‌های تولید محتوا توسط کاربران فاقد نظارت ویراستاری لازم برای ارائه راهنمایی معتبر هستند.

منبع: visualcapitalist

۵۸۳۲۳

منبع خبر

هوش مصنوعی اطلاعات خود را از این سایت‌ها می‌گیرد / اینفوگرافیک
مجله جادویی، اخبار اختصاصی هوش مصنوعی