با توجه به ادعای محققان و تیم دانشگاه کانزاس، نرخ شناسایی محتوای ChatGPT بیش از 99 درصد است.

Image for post
Image for post

 الگوریتم طبقه‌بندی مقالات علمی تولید شده توسط هوش مصنوعی را با دقت بسیار بالا مشخص می‌کند، و این می‌تواند برای شناسایی نوشتار علمی تولیدشده به سبک مقالات تحقیقاتی که معمولاً توسط مجلات علمی پذیرفته و منتشر می‌شوند، مفید باشد. با این حال، دقت در سطح پاراگراف‌های جداگانه کاهش یافته و به 92 درصد رسیده است. بنابراین، برای استفاده از این الگوریتم در تشخیص محتواهای تولیدشده توسط هوش مصنوعی، نیاز به مطالعات بیشتر در این زمینه وجود دارد و نتایج باید با احتیاط مورد بررسی قرار گیرند. همچنین، نرم‌افزارهای طراحی شده برای شناسایی متن تولید شده توسط هوش مصنوعی اغلب کارایی چندانی نداشته و استفاده از آن‌ها به عنوان تنها ابزار برای ارزیابی کارها توصیه نمی‌شود.

در یک بیانیه، هیزر دسیر، نویسنده مقاله‌ای که در مجله Cell Reports Physical Science منتشر شده و استاد شیمی در دانشگاه کانزاس است، به مشکلات جدی در حوزه هوش مصنوعی اشاره کرد. او بیان کرد که یکی از بزرگترین مشکلات در نوشتن الگوریتم‌های هوش مصنوعی، عدم دقت در جمع‌آوری متن از منابع مختلف است. به عبارت دقیق‌تر، در این حوزه متن‌های زیادی از منابع مختلف جمع‌آوری می‌شوند، اما هیچ نوع بررسی دقتی روی آن‌ها انجام نمی‌شود. این موضوع باعث تولید محتوای نادرست در حوزه هوش مصنوعی شده و مانند بازی دو حقیقت و یک دروغ است.

با توجه به این بیانیه، هیزر دسیر و همکارانش تلاش کردند تا با تهیه مجموعه داده‌هایی برای آموزش و آزمون الگوریتم طبقه‌بندی مقالات نوشته شده توسط دانشمندان و ChatGPT، به بهبود دقت در حوزه هوش مصنوعی کمک کنند. آن‌ها 64 مقاله "perspectives" را انتخاب کردند که موضوعات متنوعی را شامل می‌شدند و از ChatGPT خواستند تا پاراگراف‌هایی را که موضوعات مشابه با آن مقالات را توصیف می‌کردند، تولید کند.

در نتیجه، 128 مقاله جعلی تولید شد که مجموعاً 1,276 پاراگراف را شامل می‌شد و برای آموزش طبقه‌بندی استفاده شد. سپس، تیم دو مجموعه داده دیگر را تهیه کرد که هر کدام شامل 30 مقاله perspectives واقعی و 60 مقاله نوشته شده توسط ChatGPT بود. در مجموع، 1,210 پاراگراف برای آزمایش الگوریتم به کار گرفته شد. با تهیه این مجموعه‌های داده، هیزر دسیر و همکارانش بهبود قابل توجهی در دقت طبقه‌بندی مقالات حاصل کردند.

با توجه به پژوهش‌های اولیه، گزارش شده است که طبقه‌بند قادر بوده است 100 درصد از موارد تمایز بین نوشتار علمی واقعی انسان‌ها و مقالات تولید شده توسط هوش مصنوعی را داشته باشد. با این حال، دقت در سطح پاراگراف‌های جداگانه به 92 درصد کاهش یافته است.

پژوهشگران باور دارند که طبقه‌بندی آن‌ها موثر بوده است، زیرا به تفاوت‌های سبکی بین نوشتن انسان‌ها و هوش مصنوعی تمرکز می‌کند. دانشمندان احتمالاً دارای لغات غنی‌تری هستند و پاراگراف‌های بلندتری را با کلمات متنوع‌تر نسبت به ماشین‌ها می‌نویسند. همچنین، انسان‌ها از علائم نگارشی مانند علامت سوال، براکت‌ها و ویرگول‌ها بیشتر از ChatGPT استفاده می‌کنند، به جز علائم نقل قول برای نقل‌قول‌ها.

برای ChatGPT همچنین دقت بالاتری در موارد خاص نام‌های دانشمندان یا اعداد فراهم نیست. همچنین، مقالات علمی واقعی از زبان مبهم بیشتر استفاده می‌کنند، مانند "با این حال"، "اما"، "گرچه" و همچنین "این" و "به دلیل".

با این حال، نتایج باید بااحتیاط بررسی شوند. مشخص نیست که الگوریتم چقدر در برابر مطالعاتی که عمدتاً توسط ChatGPT نوشته شده‌اند و با ویرایش سبک انسان‌ کارایی دارد یا در برابر مقالات واقعی از مجلات علمی دیگر.

"از آنجا که هدف این کار مطالعه مفهوم‌سنجی بود، گستره کار محدود بود و مطعات پیگیری برای تعیین میزان قابل‌کاربرد بودن این رویکرد لازم است"، محققان در مقاله خود نوشتند. "برای مثال، اندازه مجموعه آزمون (180 سند، حدوداً 1,200 پاراگراف) کوچک است و یک مجموعه آزمون بزرگتر به تعریف روشن‌تر دقت روش در این دسته از نمونه‌های نوشتاری کمک می‌کند."

منبع