Зміст
Завдання
1. Призначення,описання й характеристики властивості ПЗ та метрик, які будуть досліджуватися
2. Описанняалгоритму та засобів, які будуть використовуватися
3. Первиннийстатистичний аналіз із гістограмами метрик, експертної оцінки властивості ПЗ таосновними статистичними характеристиками, та перевірками
4. Висновкипо первинному статистичному аналізу
5. Кореляційнийаналіз з кореляційними полями та розрахованими коефіцієнтами кореляції, таперевірками
6. Висновкипо кореляційномуаналізу
7. Регресійнийаналіз з побудованими лініями регресій, визначеними функціями регресій,коефіцієнтами у функціях та перевірками
8. Висновкипо регресійному аналізу
9. Загальнівисновки
Завдання
Побудуватизалежності між метриками ПЗ та експертною оцінкою властивості ПЗ. Метрикитавластивості використати згідно індивідуального варіанту.
Побудовазалежності між метриками та експертною оцінкою включає побудову залежностей міжпрямими метриками та експертною оцінкою, непрямими метриками та експертноюоцінкою.
Значенняекспертних оцінок отримати з лабораторної роботи № 5, значення метрик (прямихта непрямих) отримати з лабораторної роботи № 6. Метрики та експертні оцінкиповинні бути отримані для одних і тих самих проектів. Для достовірностіотриманих даних по кожній метриці повинно бути отримано не менше 2000 значень(з лабораторної роботи № 6), експертних оцінок – не менше 15-и. Залежностібудувати між 5-ма прямими метриками та експертною оцінкою, 5-ма непрямимиметриками та експертною оцінкою (використати метрики з лабораторної роботи №6).
Отриманірезультати по залежностях між метриками та експертними оцінками порівняти ізрезультатами побудови залежностей між прямими та непрямими метриками влабораторних роботах № 4 та 5. Визначити чи мають спільні тенденції залежностіміж тими прямими метриками та експертними оцінками, непрямими метриками таекспертними оцінками, які мають залежності між собою (прямі-непрямі метрики).Пояснити чому.
Варіант13Зрозумілість інтерфейсу, Ефективність CYC, NOP, HIT, FOUT, NOC AMW, ATFD, BovR, CC, CDISP
1. Призначення, описання й характеристикивластивості ПЗ та метрик, які будуть досліджуватися
При виконаннікурсової роботи будуть досліджуватись наступні характеристики властивостей ПЗ:
- Зрозумілість інтерфейсу — чи є призначений для користувача інтерфейс інтуїтивнозрозумілим?
- Ефективність — наскільки раціонально програма використовує ресурси(пам'ять, процесор) при виконанні своїх завдань
Значенняекспертних оцінок характеристик властивостей ПЗ по проектах приведено в таблиці1(оцінки, які були зроблені мною для трьох проектів). Всі інші оцінки, якібули зроблені підгрупою для трьох проектів подано в документі формату Excel«Метрикипрограмнихпродуктів.xclx».
Таблиця 1. Значення експертних оцінок№ п.п. Властивість Оцінка (0..10) Пояснення Talend Open Studio 3.2.1 1. Ефективність 8 При виконанні поставлених завдань, програма потребує мінімальну кількість оперативної памяті та інших ресурсів для роботи без затримки 2. Зрозумілість інтерфейсу 9 Інтерфейс користувача є інтуїтивно зрозумілим, тому не потрібно дуже часто звертатись до документації з метою отриманні допомоги у реалізації тієї чи іншої функції Openproj-1.4-src 1. Ефективність 9 Пам’ять раціонально розподілена для усієї програми, що дає змогу раціонально використовувати ресурси при виконанні завдань. Але, як вже уточнювалось раніше, у програмному коді є частина коду, яка не якісно використовує пам’ять. 2. Зрозумілість інтерфейсу 10 Інтерфейс користувача інтуїтивно зрозумілий та зручний у використанні. Тобто для користуванням даними програмним забезпеченням не треба отримувати додаткових знань plazma-source 0.1.8 1. Ефективність 8 При роботі програми не потрібне використання великої кількості оперативної памяті. 2. Зрозумілість інтерфейсу 10 Інтерфейс користувача є інтуїтивно зрозумілим. Оскільки він відповідає стандарту інтерфейсів IBM 1991.
Також будутьдосліджені наступні метрики програмного забезпечення, які подано в таблиці2(прямі метрики) та таблиці 3(непрямі метрики).
Таблиця 2. Прямі метрикиМетрика Короткий опис CYCLO Цикломатична складність програмного коду NOC Загальна кількість класів в проекті NOP Загальна кількість параметрів в програмному коді HIT Глибина дерева успадкування FOUT Кількість модулів, що звертаються до інших модулів
Таблиця 3. Непрямі метрикиМетрика Короткий опис AMW Середня вага методу ATFD Доступ до зовнішніх даних BОvR Співвідношення перевизначених базових класів CC Зміна класів CDISP Дисперсійний зв'язок
Результативимірювань метрик програмних продуктів, що були вище зазначені, подано вдокументі формату Excel«Метрикипрограмних продуктів.xclx»,що є додатком до даної курсової роботи.
При виконанніданої курсової роботи були використані наступні програмні засоби:
- iPlasma– дає можливість отримати значення 80-х об’єктно-орієнтованих метрик.Функціонально повний засіб для вимірювання, який вимірює метрики, яківідносяться як до окремих класів, методів та пакетів, так і для проекту вцілому. Крім того, метрики виводяться не тільки в числовому вигляді, а й уграфічному – у вигляді гістограми.
- Statistica – пакетдля всебічного статистичного аналізу, розроблений компанією StatSoft.У пакеті STATISTICA реалізованіпроцедури для аналізу даних (dataanalysis), управління даними (datamanagement), видобутку даних (datamining), візуалізації даних (datavisualization).
2. Описання алгоритму та засобів, якібудуть використовуватися
При виконанніданої курсової роботи буде проводитись статистичний аналіз.
Статистичний аналіз,який виконується з метою визначення залежностей між метриками, складається зтрьох етапів: первинний статистичний аналіз, кореляційний аналіз та регресійнийаналіз.
Схема побудовизалежностей між метриками представлена на рис. 1.
/>
Рис. 1 Схемапобудови залежностей
Первиннийстатистичний аналіз метрик та експертних оцінок
Метою первинногостатистичного аналізу являється визначення закону розподілу випадковоївеличини, точніше визначення відповіді на питання „Чи є даний закон розподілувипадкової величини нормальним?”. На етапі первинного статистичного аналізувідбувається дослідження вхідних статистичних даних. Спочатку аналізуються метрики,отримані в результаті вимірювання набору програм, далі експертні оцінки, щозробили експерти для цього ж набору програм.
Кінцевою метоюпервинного статистичного аналізу є визначення, чи належить побудований закон донормального. Причиною цього є те, що подальший аналіз базується на перевірці на„нормальність” закону розподілу, тобто кожний з наступних етапів починаєтьсяцією перевіркою, і в залежності від відповіді застосовуються різні методиобчислень.
Кореляційнийаналіз пар „метрика – експертна оцінка”
На етапікореляційного аналізу визначається, чи існує залежність між певними метрикамита експертними оцінками, чи її немає. Якщо залежність існує, то проводитьсяпервинна обробка даних для визначення довірчої ймовірності та виду залежності.В іншому випадку робиться висновок про відсутність залежності.
Отже,результатом даного етапу є відсіювання незалежних між собою пар „метрика –експертна оцінка” та визначення за можливістю виду залежності для інших пар.
Регресійнийаналіз залежних величин
Регресійнийаналіз – останній етап в дослідженні на залежність метрик та експертних оцінок.Він проводиться тільки при виконанні умови, що дисперсія залежної змінної(експертної оцінки) повинна залишатися постійною при зміні значення аргументу(метрики), тобто, спочатку визначається дисперсія експертної оцінки для кожногоприйнятого значення метрики.
Якщо пара„метрика – експертна оцінка” пройшла всі етапи і не була відсіяною, робитьсявисновок, що експертна оцінка залежить певним чином від значення метрики зсилою, що показує коефіцієнт детермінації, а вигляд залежності визначає лініярегресії.
3. Первинний статистичний аналіз ізгістограмами метрик, експертної оцінки властивості ПЗ та основнимистатистичними характеристиками, та перевірками
Первиннийстатистичний аналіз проводиться за допомогою програми Statistica,що набагато спрощує обчислення.
Важливимспособом «опису» змінної є форма її розподілу, яка показує, з якоючастотою значення змінної потрапляють в певні інтервали. Ці інтервали, щоназиваються інтервалами угруповання, обираються дослідником. Зазвичайдослідника цікавить, наскільки точно розподіл можна апроксимувати нормальним(див. нижче картинку з прикладом такого розподілу) (див. також Елементарніпоняття статистики). Прості описові статистики дають про це деяку інформацію.Наприклад, якщо асиметрія (показує відхилення розподілу від симетричного)істотно відрізняється від 0, то розподіл несиметрично, у той час як нормальнийрозподіл абсолютно симетрично. Отже, у симетричного розподілу асиметріядорівнює 0. Асиметрія розподілу з довгим правим хвостом позитивна. Якщорозподіл має довгий лівий хвіст, то його асиметрія негативна. Далі, якщо ексцес(показує «гостроту піку» розподілу) істотно відрізняється від 0, торозподіл має або більше закруглений пік, ніж нормальне, або, навпаки, має більшгострий пік (можливо, є декілька піків). Зазвичай, якщо ексцес позитивний, топік загострений, якщо негативний, то пік закруглений. Ексцес нормальногорозподілу дорівнює 0.
Більш точнуінформацію про форму розподілу можна отримати за допомогою критеріївнормальності (наприклад, критерію Колмогорова-Смирнова або W критеріюШапіро-Уїлки). Однак жоден із цих критеріїв не може замінити візуальнуперевірку за допомогою гістограми (графіка, що показує частоту влучень значеньзмінної в окремі інтервали).
Гістограмадозволяє «на око» оцінити нормальність емпіричного розподілу. Нагістограму також накладається крива нормального розподілу. Гістограма дозволяєякісно оцінити різні характеристики розподілу. Наприклад, на ній можнапобачити, що розподіл бімодальному (має 2 піку). Це може бути викликано,наприклад, тим, що вибірка неоднорідна, можливо, витягли з двох різнихпопуляцій, кожна з яких більш-менш нормальна. У таких ситуаціях, щоб зрозумітиприроду спостережуваних змінних, можна спробувати знайти якісний спосіб поділувибірки на дві частини.
Кінцевою метоюпервинного статистичного аналізу є визначення, чи належить побудований закон донормального. Причиною цього є те, що подальший аналіз базується на перевірці на„нормальність” закону розподілу, тобто кожний з наступних етапів починаєтьсяцією перевіркою, і в залежності від відповіді застосовуються різні методиобчислень.
Статистичнідані, які були виміряні за допомогою програмного забезпечення Statisticaподанов таблиці 4.
Таблиця 4. Статистичні дані
/>
Нижчена малюнках подано побудовані гістограми по кожній метриці
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
4. Висновки по первинному статистичномуаналізі
При проведенніпервинного статистичного аналізу було обчислено статичні характеристики такі,як математичне сподівання, середнє квадратичне відхилення, коефіцієнт ексцесута асиметрії, довірчі інтервали та визначено закони розподілу.
У відповідностідо отриманих даних можна зробити наступні висновки:
Метрики з нормальним розподілом
- CYCLO
- NOP
- FOUT
- AMW
- Ефективність(експертна оцінка)
Метрики з ненормальним розподілом
- HIT
- BOvR
- CC
- CDISP
- ATFD
- Зрозумілість інтерфейсу(експертнаоцінка)
Ці дані будуть вподальшому використовуватись для кореляційного та регресійного аналізу.
5. Кореляційний аналіз з кореляційнимиполями та розрахованими коефіцієнтами кореляції, та перевірками
Визначеннякореляції. Кореляція являє собою міру залежності змінних. Найбільш відомакореляція Пірсона. При обчисленні кореляції Пірсона передбачається, що зміннівиміряні, як мінімум, у інтервального шкалою. Деякі інші коефіцієнти кореляціїможуть бути обчислені для менш інформативних шкал. Коефіцієнти кореляції змінюютьсяв межах від -1.00 до +1.00. Зверніть увагу на крайні значення коефіцієнтакореляції. Значення -1.00 означає, що змінні мають строгу негативну кореляцію.Значення +1.00 означає, що змінні мають строгу позитивну кореляцію. Відзначимо,що значення 0.00 означає відсутність кореляції.
Негативнакореляція. Дві змінні можуть бути пов'язані таким чином, що при зростаннізначень однієї з них значення іншої зменшуються. Це і показує негативнийкоефіцієнт кореляції. Про такі змінні говорять, що вони негативно корельовані.
Позитивнакореляція. Зв'язок між двома змінними може бути такою — коли значення однієїзмінної зростають, значення іншої змінної також зростають. Це і показуєпозитивний коефіцієнт кореляції. Про такі змінні говорять, що вони позитивнокорельовані.
Найбільш частовикористовуваний коефіцієнт кореляції Пірсона r називається також лінійноїкореляцією, тому що вимірює ступінь лінійних зв'язків між змінними.
Проста лінійнакореляція (Пірсона r). Кореляція Пірсона (далі називана просто кореляцією)припускає, що дві розглянуті перемінні виміряні в інтервальній шкалі. Вонавизначає ступінь, з якою значення двох змінних «пропорційні» одинодному. Важливо, що значення коефіцієнта кореляції не залежить від масштабувиміру. Наприклад, кореляція між ростом і вагою буде однієї і тієї ж, незалежновід того, проводилися виміри в дюймах і чи фунтах у сантиметрах і кілограмах.Пропорційність означає просто лінійну залежність. Кореляція висока, якщо награфіку залежність «можна представити» прямою лінією (з позитивним чинегативним кутом нахилу).
Помилковікореляції. Грунтуючись на коефіцієнтах кореляції, ви не можете строго довестипричинного залежності між змінними, однак можете визначити помилковікореляції, тобто кореляції, які обумовлені впливами "інших", що залишаютьсяза межами вашого поля зору змінних. Найкраще зрозуміти помилкові кореляції напростому прикладі. Відомо, що існує кореляція між шкодою, завданою пожежею, ікількістю пожежних, почали гасити пожежу. Однак ця кореляція нічого не говоритьпро те, наскільки зменшаться втрати, якщо буде викликано менше число пожежних.Причина в тому, що є третя змінна яка впливає як на заподіяний збиток, так і начисло викликаних пожежників. Якщо ви будете «контролювати» цю змінну,то вихідна кореляція або зникне, або, можливо, навіть змінить свій знак.Основна проблема хибної кореляції полягає в тому, що ви не знаєте, хто є їїагентом. Тим не менше, якщо ви знаєте, де шукати, то можна скористатисяприватні кореляції, щоб контролювати (частково виключена) вплив певних змінних.
Кореляційнийаналіз проводився за допомогою пакету Statistica.Отриманірезультати по кореляційному аналізу подано в таблиці 4.
Таблиця 5. Результати кореляційного аналізу для пар пряміметрики-експертні оцінки, непрямі метрики-експертні оцінки
/>
6. Висновки по кореліційному аналізу
При проведеннікореляційного аналізу було за допомогою пакету Statisticaобчисленокоефіцієнти для пар метрика-експертна оцінка.
На основіотриманих даних, які подані в таблиці 4, можна зробити наступні висновки:
- Значення коефіцієнтів кореляції для пар«метрика-експертна оцінка», що зображені червоним кольором вказують назалежність між метриками та експертною оцінкою
- Значення коефіцієнтів кореляції для пар«метрика-експертна оцінка», що зображені чорним кольором не залежні між собою
- Коефіцієнти кореляції не є дуже великим,що дає змогу сказати, що залежність між метриками та експертними оцінками, якідосліджуються в данії курсовій роботі, не є значною.
Дані, що булиотримані при проведені кореляційного аналізу, будуть використані з метоюпроведення регресійного аналізу.
7. Регресійний аналіз з побудованимилініями регресій, визначеними функціями регресій, коефіцієнтами у функціях таперевірками
Загальнепризначення множинної регресії (цей термін був вперше використаний в роботіПірсона — Pearson, 1908) полягає в аналізі зв'язку між кількома незалежнимизмінними (званими також регрессорамі або предикторами) і залежною змінною.Наприклад, агент з продажу нерухомості міг би вносити в кожен елемент реєструрозмір будинку (у квадратних футів), кількість спалень, середній дохід населенняв цьому районі відповідно до даних перепису і суб'єктивну оцінку привабливостібудинку. Як тільки ця інформація зібрана для різних будинків, було б цікавоподивитися, чи пов'язані і яким чином ці характеристики будинку з ціною, заякою він був проданий. Наприклад, могло б виявитися, що кількість спальнихкімнат є кращим пророкує фактором (предиктором) для ціни продажу будинку вдеякому специфічному районі, ніж «привабливість» будинку (суб'єктивнаоцінка). Могли б також виявитися і «викиди», тобто будинки, які моглиб бути продані дорожче, з огляду на їхнє розташування і характеристики.
Фахівціз кадрів звичайно використовують процедури множинної регресії для визначеннявинагороди за адекватно виконану роботу. Можна визначити деяку кількістьфакторів або параметрів, таких, як «розмір відповідальності» (Resp)або «число підлеглих» (No_Super), які, як очікується, впливають навартість роботи. Кадровий аналітик потім проводить дослідження розмірів окладів(Salary) серед порівнянних компаній на ринку, записуючи розмір платні тавідповідні характеристики (тобто значення параметрів) по різних позиціях.
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
8. Висновки по регресійному аналізу
Дляпроведення регресійного аналізу був використаний пакет Statistica.За його допомогою було автоматично побудовано лінії регресії для парметрика-експертна оцінка, визначено функції регресії.
Наоснові отриманих даних можна зробити наступні висновки:
- В основному присутня лінійна регресія
- З побудованих графіків можна зробитивисновок, що переважна більшість пар «метрика-експертна» дуже слабо повязані.
9. Загальні висновки
Привиконанні даної курсової роботи було засвоєно теоретичні та практичні навички.На основі отриманих даних по первинному статичному, кореляційному тарегресійному аналізі можна зробити наступні висновки:
Було визначено:
· Метрики з нормальним розподілом
- CYCLO
- NOP
- FOUT
- AMW
- Ефективність(експертна оцінка)
· Метрики з ненормальним розподілом
- HIT
- BOvR
- CC
- CDISP
- ATFD
- Зрозумілість інтерфейсу(експертнаоцінка)
Було оцінено значення отриманихкоефіцієнтів кореляції
- Коефіцієнти кореляції не є дуже великим,що дає змогу сказати, що залежність між метриками та експертними оцінками, якідосліджуються в даній курсовій роботі, не є значними.
На основі регресійного аналізу можназробити висновок, що :
- В основному присутня лінійна регресія
- Переважна більшість пар«метрика-експертна» дуже слабо повязані.