هر موجود زنده از تعدادی سلول تشکیل شده که در یک هسته و در یک باکس حفاظت شده قرار داد. در این باکس یک گنجینه دیتا به نام دی ان ای وجود دارد. در هر دی ان ای دو کوروموزوم وجود دارد که از پدر و مادر به ارث میرسند که هر کدام از این کروموزمها توانمندی ذاتی ما را در خود ذخیره کردهاند. کل این کروموزوم دی ان ای ما را تشکیل میدهند. برای یک انسان طول دی ان ای که در آن اطلاعات وجود دارد حدود 3 گیگ است. آلفابت اصلی آن از چهار بخش ای تی سی تی تشکیل شده است. که بخشهای مربوط به اطلاعات اصلی دی ان ای را تشکیل میدهند. مسئله این است که بتوانیم این اطلاعات موجود را بخوانیم و چالش اصلی که با آن مواجه هستیم در واقع از همین جنیس ایت
میخواهم بگویم ما در حال حاضر با مسئله پیچیده ای از لحاظ ذخیره اطلاعات و هزینه مواجه هستیم. مسئله توالییابی اینطور است که شما میخواهید رشته دی ان ای را به دست آورم. مولکولهای شیمیایی در این بخش برای ما اهمیت ندارد، آلفابت چهارتایی ای تی سی تی است که برای ما اهمیت دارد. چرا که اگر از این طریق بتوانیم یک رشته را بخوانیم شاید در آینده بتوانیم دوباره فرد را با آن خصوصیات ژنتیکی دوباره بسازیم
در دنیا هنوز این امکان وجود ندارد و تکنولوژی انقدر پیشرفت نکرده که بتوانند یک سلول بدون بررسی و تماما از صفر تا صد خوانده شود. برای استخراج دی ان ای، باید آن را استخراج کرده، بشکانند و از دل آن مثل یک پازل خوانش را شروع کنند. این فرآیند به پیچیدگی موضوع اضافه میکند و درصد خطا و هزینههای جانبی را بالا میبرد.
پروسه کاری هومن ژن پارس برای مطالعه این دادهها ازین قرار است که در ابتدا ناچار به بررسی یک بافت دارای سلول هستیم که باید دی ان ای آن را که در هسته قرار گرفته بیرون کشیده و اطلاعات موجود در این هسته را قابل خواندن کنیم.
برای اینکار، به یک دستگاه توالییابی نیاز داریم تا به آلفابت اصلی دست پیدا کنیم. به واسطه تشدید تحریمها، این دستگاهها و کیتهای مربوط به آن، در ایران بسیار نادر است و چالش اصلی ما این است که قیمت این دستگاه حدود یک میلیون دلار است که هم خود دستگاه و هم سوخت مورد نیاز آن در حال حاضر تحریم است. این دستگاه شبیه به یک هواپیما عمل میکند. هزینه سوخت این دستگاه در هر فعالیت بالاست، اما در هر فعالیت ممکن است هزار مورد را بررسی کند و سرعت قابل توجهی به کار ببخشد.
ما در هومن ژن پارس سعی کردیم به دادههایی که اغلب دورریزهای سیستمهایی بودند که مطالعات روی دی ان ای را انجام میدادند، دسترسی پیدا کنیم.
این موضوع برای بیماران ژنتیکی بسیار اهمیت دارد که تغییرات داخل نقاط مورد مطالعه در بررسیهای ژنتیکی به درستی تحلیل شود. این روند کمک میکند که علت بیماری ژنتیکی هم کشف و استخراج شود.
مسئله دیگری که وجود دارد این است که بتوانیم دیتاها و نقاط ژنتیکی را با دقت و شفافیت بالایی بخوانیم. خروجی هر نمونه مورد مطالعه ما 8 گیگ دیتا است و هزینه میانگین این کار برای کسی که میخواهد این تست را انجام دهد حدود 300 دلار است. در حال حاضر دیتابیس ما تقریبا ده هزار نمونه دارد و تقریبا سه میلیون دیتا در مجموعه گردآوری کردهایم. برای بهرهگیری از این دیتا نیاز به سرورهای ویژه داریم.
در حال حاضر در دنیا فرایند تایید و به نتیجه رسیدن مطالعه روی یک دیتا 2-3 ساعت است. این زمان در ایران به واسطه فقر امکانات، به 10-12 ساعت میرسد.
شکل دیگر دیتاهایی که در اختیار ماست، هولد ژنوم است. اگر قرار باشد تمام ژنوم یک انسان با دقت خوبی خوانده شود، تقریبا 100 گیگ دیتا در اختیار خواهد بود. مطالعه هر هولد ژنوم ممکن است حدود 3 روز در سیستمهای ایرانی زمان بگیرد اما این میانگین در دنیا حدود ده ساعت است. اگرچه در کشور توانمندی گرفتن این دیتاها وجود ندارد با این حال ما با ترفندهایی توانستهایم حدود 7500 دیتا گردآوری کنیم.
استخراج اطلاعات از چهره امری بسیار پیچیده است و حتی در دنیا نمونههای موفق کمی در این باره طراحی شده است. ما برای رسیدن به مدلی برای استخراج داده از چهره مجبور بودیم بر مدلهای دو بعدی تمرکز کنیم چرا که مدلهای سه بعدی برای شرکت هزینه بسیاری به همراه داشت .
برای اینکه بتوانیم دیتای تصاویر را استخراج کنیم، یک فینوتایپ در اختیار مشتری قرار دادیم و بنا شد مشتری برای ما عکس بفرستد. بر این أساس از هر هزار دیتایی که داشتیم حدود 202 تصویر استخراج شد. روی این تعداد تصویر مطالعاتی انجام و آزمایشهایی انجام شد که به پاسخ این پرسش برسیم که آیا میتوانیم ساختار صورت نژادهای مختلف را به دست آوریم یا نه؟
هر چند بخش کوچکی از این کار به دلیل کمبود دانش و دیتا به نتیجه رسید اما این مسئله هنوز هم در دنیا باز است و مطالعاتی روی ان انجام میشود به طور مثال برای حوزه بررسیهای جنایی هنوز مطالعات و بررسیهایی در دنیا در حال انجام است.