Site icon Pingvin.Pro

70% коду на GitHub – копії інших проектів

Спільне дослідження фахівців Microsoft, University of California в Irvine і Чеського Технічний Університет показало, що понад 70 відсотків коду на GitHub є копіями проектів, які часто не зазнали жодної обробки.




Спочатку метою восьми дослідників було визначення того, як сильно відрізняється раніше скопійований код при використанні в нових проектах. В ході роботи з’ясувалося, що величезна кількість проектів використовує «неймовірну кількість копій, зроблених на рівні файлів».

З 428 млн файлів, вивчених в ході дослідження, тільки 85 млн виявилися унікальними. А при проведенні проектного аналізу з’ясували, що від 9 до 31 відсотка проектів містять принаймні 80 відсотків файлів з інших проектів. Ця знахідка спонукала дослідників змістити акценти, що призвело до створення публічного індексу дублювання коду («індекс Дежавю»).

Унікальність коду

Відповідно до розрахунків, найменш унікальною мовою програмування назвали JavaScript. У всьому масиві коду лише 6 відсотків коду виявилися оригінальними. Дослідники віднесли до дублікатів 73 відсотки коду екосистеми C ++ і 71 відсоток Python-коду. Най індивідуальнішою мовою програмування назвали Java – але і в ній обсяг дубльованого коду досягає 40 відсотків.

Очевидно, на показники “Індексу Дежавю”  впливає характер мови. За допомогою опублікованого звіту автори сподіваються допомогти іншим дослідникам врахувати особливості повторюваності при вивченні тенденцій в розробці.