Аналіз колоса пшениці за допомогою методів комп’ютерного зору

14 серпня закінчився перший семінар математичного центру «Академгородок». Я виконував обов'язки куратора проекту з аналізу колоса пшениці за допомогою методів комп'ютерного зору. У цій статті я хочу розповісти вам, що з нею сталося.

Для генетики пшениці важливим завданням є визначення плоїдності (кількості однакових наборів хромосом у клітинному ядрі). Класичний підхід до вирішення цієї проблеми базується на використанні молекулярно-генетичних методів, які є дорогими та трудомісткими. Визначення типів рослин можливе лише в лабораторних умовах. Тому в цій роботі ми перевіряємо гіпотезу: чи можна визначити плоїдність пшениці за допомогою методів комп’ютерного зору, лише на основі зображення колоса.

Опис даних

Для вирішення проблеми ще до початку семінару був підготовлений набір даних, в якому плоїдність була відома для кожного виду рослин. Загалом у нашому розпорядженні було 2344 фотографії гексаплоїдів та 1259 тетрапроїдів.

Більшість рослин сфотографували за двома протоколами. Перший корпус - на столі в одній проекції, другий - на прищіпці в 4 проекціях. Фотографії завжди мали кольорову схему перевірки кольорів, необхідно нормалізувати кольори та визначити масштаб.

Всього 3603 фотографії з 644 унікальними номерами насіння. Набір даних містить 20 видів пшениці: 10 гексаплоїдів, 10 тетраплоїдів; 496 унікальних генотипів; 10 унікальних рослинних рослин. Рослини вирощували між 2015 і 2018 роками в теплицях ICG SB RAS. Біологічний матеріал надав академік Микола Петрович Гончаров .

Перевірка

Рослина в нашому наборі даних може відповідати до 5 фотографій, зроблених за різними протоколами та в різних проекціях. Ми розділили дані на 3 стратифіковані набори: поїзд (навчальний зразок), дійсний (валідаційний зразок) та очікування (відсталий зразок) у співвідношенні 60%, 20% та 20% відповідно. При розподілі ми врахували, що всі фотографії певного генотипу завжди відображаються в підвиборі. Ця схема перевірки була використана для всіх навчених моделей.

Спробуйте класичні методи CV та ML

Перший підхід, який ми застосували для вирішення проблеми, базується на існуючому алгоритмі, який ми розробили раніше. Алгоритм дає можливість виділити фіксований набір різних кількісних характеристик з кожного зображення. Наприклад, довжина вуха, площа хребтів тощо. Детальний опис алгоритму див. У Genaev et al., Morphometry of the Whee Spike by Analysing 2D Images, 2019. Використовуючи цей алгоритм та методи машинного навчання, ми навчили декілька моделей для прогнозування типів плоїдії.

Ми використовували методи логістичної регресії, випадкові ліси та посилення градієнта. Дані були попередньо нормалізовані. Ми обрали AUC як міру точності .

Метод	Поїзд	Дійсний	Стійкий
Логістична регресія	0,77	0,70	0,72
Випадковий ліс	1.00	0,83	0,82
Підсилювач	0,99	0,83	0,85

Найкраща точність відкладеної вибірки була показана методом підсилення градієнта; ми використовували реалізацію CatBoost.

Інтерпретувати результати

Для кожної моделі ми отримали оцінку "важливості" кожної ознаки. В результаті ми отримали список усіх наших функцій, відсортованих за важливістю та вибрали 10 найкращих особливостей: площа леза, індекс округлості, округлість, периметр, довжина стебла, xu2, L, xb2, yu2, ybm. (опис кожної функції можна знайти тут).

Прикладом важливих рис є довжина та периметр вух. Розподіл значень цих ознак у тетраплоїдах та гексаплоїдах показано на гістограмах. Видно, що розподіл гексаплоїдів зміщений до вищих значень.

Ми згрупували 10 найкращих функціональних можливостей, використовуючи метод t-SNE

Загалом, більша плоїдність призводить до більш змінних значень символів. Для гексаплоїдів характерна більша дисперсія/дисперсія значень ознак. Дійсно, кількість копій генів у гексаплоїдах більша і тому кількість варіантів «роботи» цих генів збільшується.

Щоб підтвердити нашу гіпотезу про більшу фенотипову мінливість у гексаплоїдах, ми застосували статистику F. Статистика F дає значення різниці у дисперсіях двох розподілів. Ми розглянули випадки, коли р-значення менше 0,05, щоб спростувати нульову гіпотезу про відсутність відмінностей між двома розподілами. Ми провели цей тест незалежно для кожної ознаки. Умови тестування: має бути зразок незалежних спостережень (у випадку кількох зображень це не так) та нормального розподілу. Щоб задовольнити ці умови, ми протестували зображення кожного вуха. Вони фотографували лише в одній проекції згідно з протоколом “на столі”. Результати наведені в таблиці. Видно, що дисперсія для гексаплоїдів та тетраплоїдів демонструє значні відмінності для 7 символів. Крім того, у всіх випадках величина дисперсії вища у гексаплоїдів.Що більша фенотипова мінливість гексаплоїдів можна пояснити великою кількістю копій гена.

Ім'я	F-статистика	р-значення	Дісп Гексаплоїд	Дисп Тетраплоїд
Площа остюків	0,376	1000	1.415	3763
Індекс круговості	1,188	0,065	0,959	0,807
Округлість	1,828	0,000	1.312	0,718
Периметр	1570	0,000	1080	0,688
Довжина стебла	3500	0,000	1.320	0,377
xu2	3.928	0,000	1.336	0,340
L	3500	0,000	1.320	0,377
xb2	4.437	0,000	1.331	0,300
yu2	4.275	0,000	2.491	0,583
ybm	1,081	0,248	0,695	0,643

Наші дані включають 20 видів рослин. 10 гексаплоїдів пшениці та 10 тетраплоїдів.

Ми пофарбували результати групування так, щоб колір + форма кожної точки відповідала певному виду.

Більшість видів займають на карті досить компактні ділянки. Однак ці області можуть багато в чому перекриватися з іншими. З іншого боку, в межах одного виду можуть бути чітко визначені групи, наприклад для T compactum, T petropavlovskyi.

Ми усереднили значення кожного виду для 10 характеристик, отримавши масив 20 на 10. Де кожен з 20 видів відповідає вектору з 10 характеристик. Для цих даних була побудована кореляційна матриця та проведений ієрархічний кластерний аналіз. Сині квадрати на графіку відповідають тетраплоїдам.

На побудованому дереві загалом види пшениці поділяли на тетраплоїдні та гексаплоїдні. Гексаплоїдні види були чітко розділені на дві групи: середньошерсті - T. macha, T. aestivum, T. yunnanense і довгошерсті - T. vavilovii, T. petropavlovskyi, T. spelta. Єдиним винятком є те, що єдиний поліплоїдний (тетраплоїдний) дикий вид T. dicoccoides класифікується як гексаплоїдний.

У той же час до тетраплоїдних видів належали компактно колосові гексаплоїдні пшениці - T. compactum, T. antiquorum і T. sphaerococcum та штучна ізогенна лінія ANK-23 м’якої пшениці.

Спробуйте CNN

Щоб вирішити проблему визначення плоїдності пшениці за зображенням колоса, ми навчили згорткову нейронну мережу архітектури EfficientNet B0 із попередньо підготовленими вагами на ImageNet. CrossEntropyLoss використовувався як функція втрат; Оптимізатор Адам; розмір партії - 16; зображення зменшено до 224x224; швидкість навчання була змінена відповідно до стратегії fit_one_cycle з початковим lr = 1e-4. Ми створили мережу протягом 10 епох, застосовуючи випадкові збільшення: -20 + 20 градусів, обертання, зміна яскравості, контрастності, насиченості, дзеркального відображення. Найкраща модель була обрана на основі метрики AUC, значення якої розраховувалося в кінці кожної епохи.

Отже, точність AUC для відстроченого зразка = 0,995, що відповідає точності_оцінки = 0,987 та похибці 1,3%. Що є дуже хорошим результатом.

Висновок

Ця робота є хорошим прикладом того, як команда з 5 студентів та 2 кураторів може вирішити нагальну біологічну проблему та досягти нових наукових результатів за лічені тижні.

Хочу висловити подяку всім учасникам нашого проекту: Микиті Прохошину, Олексію Приходьку, Євгену Заварзіну, Артему Пронозіну, Анні Поліш, Євгенію Комишеву, Михайлу Генаєву .

Коваль Василь Сергійович та Кручиніна Юлія Володимирівна за натягування кукурудзи на качан.

Миколі Петровичу Гончарову та Афонникову Дмитру Аркадійовичу за наданий біологічний матеріал та допомогу в інтерпретації результатів.

PS Ми плануємо підготувати другу частину статті, де ми поговоримо про сегментацію вуха та вибір окремих колосків.