سفر یک ذهن کنجکاو در میان دادهها
سفر و جستوجوی ذهن هر پژوهشگر، شبکهای از سوالها، تجربهها و آزمونهاست که مسیر علم را شکل میدهد. وهاب میررکنی این مسیر را از دفترچهای پر از مسایل در دوران کودکی آغاز کرد و سپس از کلاسهای مدرسه و مسابقات روباتیک به دانشگاههای معتبر جهان و آزمایشگاههای تحقیقاتی بزرگ رسید.
تجربههای متعدد او نشان میدهد که پیشرفت علمی نه یک مسیر خطی، بلکه شبکهای از کشفها، آزمونها و تجارب متنوع است که همواره در تعامل با مسایل واقعی زندگی شکل میگیرد.
مسیر علمی او از کلاسهای مدرسه تا دانشگاه و تحقیقات صنعتی، همواره با کشف و چالش همراه بوده است.
او در کلاسهای دبیرستان استعدادهای درخشان کرج ساعتها با دشوارترین پرسشها دست و پنجه نرم میکرد. مسابقات المپیاد و رقابتهای جهانی RoboCup، نخستین میدانهای رشد او بودند؛ جایی که آموخت اعتمادبهنفس و کار تیمی، زیربنای هر موفقیت بزرگ است. هنوز هم روزی را به یاد دارد که گروهشان در اروپا مقام اول را کسب کرد. برای او، ارزشمندتر از مدالها، تجربه عمیق همکاری و خودباوری بود.
ورود به دانشگاه مسیر او را از آموزشهای معمولی جدا کرد و به دانشگاه صنعتی شریف راه یافت؛ جایی که پروژهها، مسابقات برنامهنویسی و رباتیک، عشقش به الگوریتمها را عمق بیشتری بخشید. این تجربیات، او را با راهحلهای خلاقانه برای مسایل پیچیده آشنا کرد. این عادت بعدها در پژوهشهایش به الگویی ثابت تبدیل شد: خرد کردن مسایل به بخشهای کوچک، تحلیل دقیق و بازسازی آنها در ابعادی نو. در همین دانشگاه بود که فهمید باید آیندهاش را در علوم نظری رایانه بسازد؛ انتخابی که او را در سال ۲۰۰۵، به دانشگاه MIT در بوستون رساند. در میان ذهنهای درخشان، غرق در دنیای علوم نظری رایانه شد؛ محیطی که نهتنها به او آموخت چگونه عمیقتر بیندیشد، بلکه به او یاد داد علم زمانی ارزشمند است که با زندگی واقعی پیوند بخورد.
راهی بهسوی نوآوری در جهان
پس از فارغالتحصیلی ازMIT، کار در آمازون و مایکروسافت ریسرچ برای میررکنی بهعنوان یک آزمایشگاه زنده عمل کرد؛ جایی که باید الگوریتمهای نظری را به راهحلهایی تبدیل میکرد که میلیونها کاربر روزانه با آنها سروکار دارند اما مقصد اصلیاش گوگل ریسرچ بود؛ جایی که بیش از یک دهه در پروژههای بزرگ و در مقیاسهای عظیم فعال است. در اینجا با دادههایی کار میکند که گاهی به اندازه کل جمعیت زمین به هم مرتبط هستند. این تجربه مدام به او یادآوری میکند که علم زمانی معنا دارد که بتواند از دل نظریه، راهحلی برای واقعیت بیرون بکشد. او اکنون ریاست گروههای تحقیقاتی الگوریتمها در نیویورک را نیز بر عهده دارد. پروژههای او از الگوریتمهای بازار و بهینهسازی در مقیاس بزرگ تا گرافکاوی و پروژههای نسل جدید AI مانند Gemini AIگسترده است. دنیای هوش مصنوعی برای او همواره یک ماجراجویی تازه است. هر ماه مدلها و روشهای جدیدی معرفی میشوند که مرزهای تخیل دیروز را پشت سر میگذارند. آنچه بیش از همه او را شگفتزده میکند، توانایی سیستمها برای یادگیری و بهبود خودشان است.
علم، محصول تلاش جمعی
دکتر میررکنی همواره بر این نکته تاکید دارد که هیچ موفقیتی واقعی نیست، مگر آنکه با دیگران به اشتراک گذاشته شود. او معتقد است که دستاوردها نهتنها حاصل تلاش فردی، بلکه نتیجه همکاری، اعتماد و همفکری گروههای پژوهشی است. این فلسفه در مسیر علمی او نمود یافته و جایزه مصطفی(ص) در سال ۲۰۲۵ به پاس دستاوردش در طرح هشینگ حساس به محل براساس توزیعهای p-پایدار ، نمونهای برجسته از این دیدگاه است.
از دیگر جوایز دریافتی او میتوان به بهترین مقاله کنفرانس ACM در تجارت الکترونیک در سال ۲۰۰۸، بهترین مقاله دانشجویی سمپوزیوم ACM-SIAM در سال ۲۰۰۵ و مدال طلای المپیاد انفورماتیک ایران در سال ۱۹۹۶ اشاره کرد.
او بسیاری از الگوریتمها و کتابخانههای مرتبط با شبکههای عصبی گراف و دادهکاوی را بهصورت متن بازمنتشر کرده است تا دیگران نیز بتوانند از آن استفاده کنند و مسیر پیشرفت علمی ادامه یابد. برای او، علم همیشه محصول تلاش جمعی است و هیچ دستاوردی بدون همراهی دیگران کامل نمیشود.
زندگی ورای الگوریتمها
در کنار فعالیتهایش در گوگل ریسرچ، میررکنی بهعنوان استاد مدعو در دانشگاه نیویورک در موسسه کورانت، الگوریتمها و اقتصاد اینترنت را تدریس میکند و به نسل جوان گوشزد میکند: «اکنون بهترین زمان برای ورود به عرصه تحقیق است. سرعت پیشرفتها در هوش مصنوعی فرصتی منحصربهفرد ایجاد کرده تا رویاهایتان سریعتر از همیشه به واقعیت تبدیل شوند؛ اما فراموش نکنید، اگر همه کارها را به هوش مصنوعی بسپارید، مغزتان فرصت رشد و تکامل را از دست خواهد داد.» او آیندهای را میبیند که در آن انسان و هوش مصنوعی در کنار هم مسایل پیچیده ریاضی را حل میکنند و الگوریتمها زندگی روزمره را در حوزههایی مانند پزشکی، علوم اجتماعی و فراتر از آن بهبود میبخشند.
داستان میررکنی نشان میدهد که کنجکاوی و تلاش فردی وقتی با همکاری و نوآوری پیوند میخورد، میتواند جهان را به حرکت درآورد. تلاشهای او در توسعه الگوریتمها و روشهای علمی، علاوه بر تاثیر در پیشرفت دانش، امکان استفاده کاربردی در پروژهها و پژوهشهای آینده را فراهم میکند و مسیر توسعه علمی را برای نسلهای بعدی هموار میسازد.
معرفی اثر: در جستوجوی شباهت
تا بهحال کتابی خواندهای که تمام شدنش حس پایان یک دوستی را داشته باشد؟ کتابی که نه فقط محتوایش، بلکه حالوهوایش، نثرش و چیزی ناپیدا در میان سطرهایش با تو حرف زده باشد. حالا تصور کن در جستوجو کتاب دیگری باشی که همان احساس را زنده کند. پا به کتابخانهای بزرگ با قفسههایی نامنظم میگذاری. رمان، فلسفه، علم، تاریخ، همه و همه بدون دستهبندی مشخص در قفسهها قرار دارند. شروع به ورق زدن کتابها میکنی تا شاید حسی آشنا پیدا شود. با گذر زمان، خستگی توانت را میگیرد. کتابها زیادند و آنچه دنبالش هستی، بهراحتی با چشم و دست پیدا نمیشود. در نهایت، پشت یکی از رایانههای کتابخانه مینشینی. توضیحی از آن کتاب محبوب را مینویسی و حالا این خواسته انسانی، به مسالهای ماشینی تبدیل میشود. در جهان رایانهها، چالش کمی پیچیدهتر میشود. این موتور جستوجو، باید بین میلیاردها کتاب، دنبال کتابی مشابه خواستهات بگردد. چطور یک رایانه از میان این دریای داده، چیزهایی را پیدا میکند که از نظر معنا یا ساختار، به هم نزدیکاند؟ مهمتر از آن، چگونه میتواند این کار را سریع و دقیق انجام دهد، بیآنکه نیاز باشد همه دادهها را یکییکی بررسی کند؟ جواب این سوال در راهی است که بهجای احساسات، از زبان اعداد و فرمولها برای فهمیدن شباهتها استفاده میکند؛ الگوریتمی مبتنی بر توزیعهای p-پایدار، که ازسوی پژوهشگرانی مانند دکتر وهاب میررکنی طراحی شده است تا رایانهها بتوانند بدون زیرورو کردن کل فضای دیجیتال، دادههایی مشابه را هوشمندانه و با سرعتی بالا شناسایی کنند.
شباهت به سبک عددها
شاید در نگاه اول، شباهت مفهومی ساده بهنظر برسد اما زمانی که وارد دنیای دادهها میشویم، همین مفهوم ساده، شکلی دقیقتر و متفاوتتر به خود میگیرد. برای رایانهها، همهچیز صرفا دنبالهای از عددهاست. یک عکس بهشکل فهرستی از عددهایی است که پیکسلها را نشان میدهند یا حتی یک صدای ضبطشده، نوسانات فرکانس در قالب ارقامی پشت هم هستند. وقتی پا در جهانی میگذاریم که همهچیز عدد است، شباهت هم باید بر مبنای این عددها تعریف شود. در چنین فضایی، اگر بخواهیم بدانیم دو چیز چقدر به هم شبیهاند، باید بفهمیم که چقدر از هم فاصله دارند، چون در منطق ماشین، هرچه فاصله بین دو مجموعه کمتر باشد، تفاوت آنها نیز کمتر میشود. بههمین دلیل است که مفهوم فاصله به ابزار اصلی ما برای سنجش شباهت تبدیل میشود؛ البته اندازهگیری این فاصله، خود مسالهای مهم است، زیرا راههای مختلفی برای محاسبه آن وجود دارد. برای اندازهگیری این نزدیکی از روشی موسوم به LPnorm استفاده میشود. این روش یک فرمول کلی دارد که با تغییر عددی به نامP، زاویه دید ما به مفهوم فاصله تغییر میکند؛ مثلا فرض کنید روی کاغذ دو نقطه رسم کردهاید و میخواهید فاصلهشان را اندازه بگیرید. اگر خطکش را طوری بگذارید که خطی صاف و مستقیم میان آنها رسم شود، درواقع کوتاهترین مسیر ممکن را اندازه گرفتهاید. این همان حالتی است که p برابر ۲ درنظر گرفته میشود و در ریاضیات به آن فاصله اقلیدسی میگویند. حالا تصور کنید که برای رسیدن از یک نقطه به نقطه دیگر، فقط اجازه داشته باشید حرکتهای عمودی و افقی انجام دهید. در این حالت فاصله بین دو نقطه، با جمع کردن مقدار حرکت در هر مسیر افقی و عمودی بهدست میآید. این نوع محاسبه برای زمانی است که p برابر با ۱ است و به آن فاصله منهتنی گفته میشود. در اصل عدد p مشخص میکند که سیستم به چه نوع تفاوتی بین دادهها بیشتر توجه کند.
تفاوتها را ببینند.
میانبُر در شهر دادهها
هرچقخطکش رایانهای
حالا این مفهوم فاصله را به جهان دیجیتال وارد میکنیم، جایی که دادهها دیگر تصویر و صدا و جمله نیستند، بلکه بردارهایی از اعداد شدهاند. همانطور که پیشتر ذکر شد، در رایانه نیز برای سنجش شباهت بین دو تصویر یا متن، فاصله میان بردارها اندازهگیری میشود. مثلا وقتی یک موتور جستوجو باید تشخیص دهد که دو عبارت به یک موضوع اشاره دارند، یا وقتی برنامهای موسیقیمحور، آهنگهای مشابه را پیشنهاد میدهد، آنچه پشت صحنه اتفاق میافتد همین مقایسه بردارهاست. در این مسیر، بسته به اینکه هدف الگوریتم دقت بالا باشد یا سرعت بیشتر، میتوان از مقادیر مختلف p استفاده کرد. درصورتیکه بخواهیم به تفاوتهای جزیی و دقیق توجه کنیم، مقدار ۱=p انتخاب خوبی است، چون همه اختلافها با وزن مساوی وارد محاسبه میشوند؛ اما اگر بخواهیم یک دید کلیتر داشته باشیم، مقدار ۲=p مناسبتر است. این مقدار به رایانه اجازه میدهد تا با سرعت بیشتری، فاصله میان بردارها را تخمین بزند. نکته مهم این است که برای تمام مقادیر p≥۱، فاصله LP یک متریک معتبر است و ویژگیهای ریاضیاتی مانند قانون مثلث را حفظ میکند اما اگر p<1 در نظر گرفته شود، هرچند میتوان همان فرمول را نوشت، نتیجه دیگر یک متریک واقعی نیست و قانون مثلث برقرار نمیماند؛ به همین دلیل چنین حالتی بیشتر در مباحث نظری یا کاربردهای خاص استفاده میشود. در علوم داده و یادگیری ماشین، بهطور معمول با p≥۱ کار میشود چون هم شهود آن سادهتر است و هم از نظر ریاضی خواص خوبی مانند قانون مثلث را دارد. با اینحال پژوهشهای نوآورانهای مانند پژوهشهای دکتر وهاب میررکنی، امکان بهرهبرداری موثری از p<1 را فراهم کردهاند و حالا رایانهها، بهتر و سریعتر از همیشه میتواننددر هم روش خوبی برای سنجش شباهت بین دادهها داشته باشیم، باز هم با یک چالش بزرگ روبهرو هستیم. سرزمین دادهها بیانتهاست. میلیونها تصویر، متن، صدا و ویدیو در رایانه ذخیره شدهاند و اگر بخواهیم برای پیداکردن یک فایل خاص، همه این موارد را تکتک با هم مقایسه کنیم، زمان بسیار زیادی لازم خواهد بود. اینجاست که الگوریتمی هوشمندانه، حاصل تلاشهای افرادی ازجمله دکتر میررکنی وارد ماجرا میشود Locality-Sensitive Hashing یا بهاختصار LSH، روشی برای دستهبندی سریع دادههاست. در این الگوریتم، دادههایی که به هم شبیهاند، به راحتی در یک گروه قرار میگیرند؛ اما باوجود حجم بالای اطلاعات چطور چنین چیزی ممکن است؟
LSH از ترفند جالبی استفاده میکند. این روش بهجای مقایسه مستقیم بردارهای طولانی، آنها را با کمک الگوریتمهای ریاضی خاصی به نام توابع هش مخصوص، به بردارهایی کوتاه و خلاصهشده تبدیل میکند که هنوز اطلاعات مهم را حفظ میکنند.
این مانند زمانی است که بهجای خواندن تمام یک کتاب، چکیدهای هوشمند از آن را دراختیار داشته باشیم که هنوز هم حالوهوای متن اصلی را منتقل میکند. LSH برای حفظ فاصله تقریبی بردارهای خلاصهشده، از ابزاری به نام توزیع Pپایدار استفاده میکند. این نوع توزیع، برداری تصادفی از عددها دراختیار ما قرار میدهد که با اعمال یکسری عملیات جبری با بردار اصلی، برداری خلاصهشده از داده ما حاصل شود. خاصیت جادویی این توزیع در این است که فاصله بین خروجیها، تقریب خوبی از فاصله میان دادههای اصلی میشود. یعنی ما میتوانیم بدون دست زدن به کل اطلاعات، با برداری کوتاه از هر داده، بفهمیم کدامیک به هم نزدیکترند.
نکته دیگر در این است که بسته به اینکه چه نوع فاصلهای اندازهگیری خواهد شد، از توزیع Pپایدار خاصی استفاده میشود؛ برای مثال، اگر فاصله اقلیدسی مدنظر باشد، باید بردارهای تصادفیمان را از توزیع Pپایداری به نام گاوسی انتخاب کنیم؛ چون این توزیع، برای محاسبه در زمان p=2 است.
برای مقادیر دیگر p، توزیعهای مخصوص خودشان وجود دارند. به این ترتیب، میتوان با سرعت بالا دادههای شبیه را بدون نیاز به جستوجوی طاقتفرسا دستهبندی کرد.
در این روش نو، دیگر نیازی نیست قالب دادهها را بهکلی عوض کنیم یا آنها را در چارچوبهای پیچیده جا بدهیم. همین سادگی عمل است که به سرعتی حیرتانگیز منجر شده است. LSH در برخی آزمایشها تا ۴۰ برابر از روشهای سنتی مثل kd-tree سریعتر عمل کرده و حتی در شرایط دشوارتر، مانند زمانی که p کمتر از ۱ است، جستوجو را ممکن کرده است. خلاصهسازی هوشمند، این روش را به دستیاری باتجربه در مسیر شناخت تفاوتها تبدیل کرده است. در دنیای عددها و بردارها، شاید احساسی در کار نباشد اما میتوان شباهت را با سرعتی چندبرابر تشخیص داد.









دیدگاهتان را بنویسید