با توجه به ادعای محققان و تیم دانشگاه کانزاس، نرخ شناسایی محتوای ChatGPT بیش از 99 درصد است.


الگوریتم طبقهبندی مقالات علمی تولید شده توسط هوش مصنوعی را با دقت بسیار بالا مشخص میکند، و این میتواند برای شناسایی نوشتار علمی تولیدشده به سبک مقالات تحقیقاتی که معمولاً توسط مجلات علمی پذیرفته و منتشر میشوند، مفید باشد. با این حال، دقت در سطح پاراگرافهای جداگانه کاهش یافته و به 92 درصد رسیده است. بنابراین، برای استفاده از این الگوریتم در تشخیص محتواهای تولیدشده توسط هوش مصنوعی، نیاز به مطالعات بیشتر در این زمینه وجود دارد و نتایج باید با احتیاط مورد بررسی قرار گیرند. همچنین، نرمافزارهای طراحی شده برای شناسایی متن تولید شده توسط هوش مصنوعی اغلب کارایی چندانی نداشته و استفاده از آنها به عنوان تنها ابزار برای ارزیابی کارها توصیه نمیشود.
در یک بیانیه، هیزر دسیر، نویسنده مقالهای که در مجله Cell Reports Physical Science منتشر شده و استاد شیمی در دانشگاه کانزاس است، به مشکلات جدی در حوزه هوش مصنوعی اشاره کرد. او بیان کرد که یکی از بزرگترین مشکلات در نوشتن الگوریتمهای هوش مصنوعی، عدم دقت در جمعآوری متن از منابع مختلف است. به عبارت دقیقتر، در این حوزه متنهای زیادی از منابع مختلف جمعآوری میشوند، اما هیچ نوع بررسی دقتی روی آنها انجام نمیشود. این موضوع باعث تولید محتوای نادرست در حوزه هوش مصنوعی شده و مانند بازی دو حقیقت و یک دروغ است.
با توجه به این بیانیه، هیزر دسیر و همکارانش تلاش کردند تا با تهیه مجموعه دادههایی برای آموزش و آزمون الگوریتم طبقهبندی مقالات نوشته شده توسط دانشمندان و ChatGPT، به بهبود دقت در حوزه هوش مصنوعی کمک کنند. آنها 64 مقاله "perspectives" را انتخاب کردند که موضوعات متنوعی را شامل میشدند و از ChatGPT خواستند تا پاراگرافهایی را که موضوعات مشابه با آن مقالات را توصیف میکردند، تولید کند.
در نتیجه، 128 مقاله جعلی تولید شد که مجموعاً 1,276 پاراگراف را شامل میشد و برای آموزش طبقهبندی استفاده شد. سپس، تیم دو مجموعه داده دیگر را تهیه کرد که هر کدام شامل 30 مقاله perspectives واقعی و 60 مقاله نوشته شده توسط ChatGPT بود. در مجموع، 1,210 پاراگراف برای آزمایش الگوریتم به کار گرفته شد. با تهیه این مجموعههای داده، هیزر دسیر و همکارانش بهبود قابل توجهی در دقت طبقهبندی مقالات حاصل کردند.
با توجه به پژوهشهای اولیه، گزارش شده است که طبقهبند قادر بوده است 100 درصد از موارد تمایز بین نوشتار علمی واقعی انسانها و مقالات تولید شده توسط هوش مصنوعی را داشته باشد. با این حال، دقت در سطح پاراگرافهای جداگانه به 92 درصد کاهش یافته است.
پژوهشگران باور دارند که طبقهبندی آنها موثر بوده است، زیرا به تفاوتهای سبکی بین نوشتن انسانها و هوش مصنوعی تمرکز میکند. دانشمندان احتمالاً دارای لغات غنیتری هستند و پاراگرافهای بلندتری را با کلمات متنوعتر نسبت به ماشینها مینویسند. همچنین، انسانها از علائم نگارشی مانند علامت سوال، براکتها و ویرگولها بیشتر از ChatGPT استفاده میکنند، به جز علائم نقل قول برای نقلقولها.
برای ChatGPT همچنین دقت بالاتری در موارد خاص نامهای دانشمندان یا اعداد فراهم نیست. همچنین، مقالات علمی واقعی از زبان مبهم بیشتر استفاده میکنند، مانند "با این حال"، "اما"، "گرچه" و همچنین "این" و "به دلیل".
با این حال، نتایج باید بااحتیاط بررسی شوند. مشخص نیست که الگوریتم چقدر در برابر مطالعاتی که عمدتاً توسط ChatGPT نوشته شدهاند و با ویرایش سبک انسان کارایی دارد یا در برابر مقالات واقعی از مجلات علمی دیگر.
"از آنجا که هدف این کار مطالعه مفهومسنجی بود، گستره کار محدود بود و مطعات پیگیری برای تعیین میزان قابلکاربرد بودن این رویکرد لازم است"، محققان در مقاله خود نوشتند. "برای مثال، اندازه مجموعه آزمون (180 سند، حدوداً 1,200 پاراگراف) کوچک است و یک مجموعه آزمون بزرگتر به تعریف روشنتر دقت روش در این دسته از نمونههای نوشتاری کمک میکند."