Спільне дослідження фахівців Microsoft, University of California в Irvine і Чеського Технічний Університет показало, що понад 70 відсотків коду на GitHub є копіями проектів, які часто не зазнали жодної обробки.
Спочатку метою восьми дослідників було визначення того, як сильно відрізняється раніше скопійований код при використанні в нових проектах. В ході роботи з’ясувалося, що величезна кількість проектів використовує «неймовірну кількість копій, зроблених на рівні файлів».
З 428 млн файлів, вивчених в ході дослідження, тільки 85 млн виявилися унікальними. А при проведенні проектного аналізу з’ясували, що від 9 до 31 відсотка проектів містять принаймні 80 відсотків файлів з інших проектів. Ця знахідка спонукала дослідників змістити акценти, що призвело до створення публічного індексу дублювання коду («індекс Дежавю»).
Відповідно до розрахунків, найменш унікальною мовою програмування назвали JavaScript. У всьому масиві коду лише 6 відсотків коду виявилися оригінальними. Дослідники віднесли до дублікатів 73 відсотки коду екосистеми C ++ і 71 відсоток Python-коду. Най індивідуальнішою мовою програмування назвали Java – але і в ній обсяг дубльованого коду досягає 40 відсотків.