دسته‌بندي و پيش‌بيني كلاله سه‌شاخه و چند‌‌شاخه زعفران با استفاده از ابزار‌هاي آماري يادگيري ماشيني بدون‌نظارت

زراعت و فناوری زعفران

دوره 2 - شماره 3

نوع مقاله: Original Article
چكيده: زعفران يك گياه تريپلوئيد و عقيم است كه در همه كشورها به‌عنوان يك ادويه و گياه دارويي مورد استفاده قرار مي‌گيرد. كلاله مهم‌ترين قسمت گياه زعفران مي‌باشد. تاكنون هيچ روش مطمئن مولكولي براي شناسايي و پيش‌بيني گونه‌هاي داراي كلاله سه و چند‌شاخه ارائه نشده است. در‌ اين بررسي بر ‌اساس نشانگر‌هاي مولكولي چندشكلي توالي مربوط تكثير يافته و با استفاده از الگوريتم‌هاي بيوانفورماتيكي مختلف،روش‌هاي جديدي براي پيش‌بيني كلاله زعفران ارائه شده است. پنج آلل M131400، M151200، M151100، M10850 و G6500 به‌عنوان مهم‌ترين دسته‌بندي كننده با دقت پيش‌بيني بالا بر اساس مدل‌هاي Attribute Weighting انتخاب شدند كه داراي پتانسيل بالايي براي ‌خوشه‌بندي و تشخيص كلاله سه‌شاخه ازچند‌‌شاخه هستند. دسته‌بندي بدون يادگيري بر اساس الگوريتم‌هاي K-Means و K-Medoids قادر به ‌خوشه‌بندي صحيح كلاله زعفران هستند. نتايج نشان مي‌دهد كه براي اولين بار، روش‌هاي داده‌كاوي مي‌توانند شيوه‌اي بسيار مؤثر، با دقت و صحت بالاي 90 درصد براي تمايز ژنتيكي كلاله سه‌شاخه از چند‌‌شاخه مورد استفاده قرار گيرد. اين روش‌ها مي‌توانند در مكان‌يابي ژني و انتخاب به كمك بيوماركرها مورد استفاده قرار گيرند.
Classification and prediction of three and multi stigma in saffron by statistical, unsupervised machine learning tools
Article Type: Original Article
Abstract: Saffron is a triploid, sterile plant, used as a spice and medicinalplant in all countries. Stigma is the most important part of saffron. So far no reliable molecular methods were provided to identify and prediction of the three/multi branches species. In this study, using different bioinformatics algorithms, new tools for prediction based on Sequence-Related Amplified Polymorphismmolecular markers is presented. Five alleles M1311400, M151200, M12100 and M10850 selected as the most important classifier by Attribute Weighting models which has the potential to cluster and recognize the three from multi branches stigma. K-Means and K-Medoids unsupervised clustering algorithms were fully able to cluster each genotype to the right classes. Our results showed that for the first time, data mining techniques can be effectively used to genetic differentiation between three and multi stigma with above 90 percent the accuracy andprecision. These methods can use in gene mapping and selection by biomarker.