6 Гру, 2017

70% коду на GitHub – копії інших проектів

Спільне дослідження фахівців Microsoft, University of California в Irvine і Чеського Технічний Університет показало, що понад 70 відсотків коду на GitHub є копіями проектів, які часто не зазнали жодної обробки.

Спочатку метою восьми дослідників було визначення того, як сильно відрізняється раніше скопійований код при використанні в нових проектах. В ході роботи з’ясувалося, що величезна кількість проектів використовує «неймовірну кількість копій, зроблених на рівні файлів».

З 428 млн файлів, вивчених в ході дослідження, тільки 85 млн виявилися унікальними. А при проведенні проектного аналізу з’ясували, що від 9 до 31 відсотка проектів містять принаймні 80 відсотків файлів з інших проектів. Ця знахідка спонукала дослідників змістити акценти, що призвело до створення публічного індексу дублювання коду («індекс Дежавю»).

Унікальність коду

Унікальність коду

Відповідно до розрахунків, найменш унікальною мовою програмування назвали JavaScript. У всьому масиві коду лише 6 відсотків коду виявилися оригінальними. Дослідники віднесли до дублікатів 73 відсотки коду екосистеми C ++ і 71 відсоток Python-коду. Най індивідуальнішою мовою програмування назвали Java – але і в ній обсяг дубльованого коду досягає 40 відсотків.

Очевидно, на показники “Індексу Дежавю”  впливає характер мови. За допомогою опублікованого звіту автори сподіваються допомогти іншим дослідникам врахувати особливості повторюваності при вивченні тенденцій в розробці.

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

  • Iaroslav T

    Якщо багато хто використовує цей ресурс у корпоративних цілях чи принаймні при роботі на певну фірму, то це не дивно. В таких місцях полюбляють переносити блок з проекта в проект й іноваціям не дуже раді.