المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
@EurekaLabsAI المباني. سابقا مدير الذكاء الاصطناعي @ Tesla ، الفريق المؤسس @ OpenAI ، CS231n / PhD @ ستانفورد. أحب تدريب الشبكات العصبية العميقة الكبيرة.
أعتقد أن تهانينا مرة أخرى ل OpenAI للطهي باستخدام GPT-5 Pro. هذه هي المرة الثالثة التي أعاني فيها من شيء معقد / شائك لمدة ساعة متقطعة مع CC ، ثم ينفجر 5 Pro لمدة 10 دقائق ويعود برمز يعمل خارج الصندوق. لقد قرأت CC إصدار 5 Pro وكتبت فقرتين معجبة بها (مفيدة للغاية). إذا كنت لا تواجهه أصعب مشاكلك ، فمن المحتمل أنك تفوتك.
1.22M
في عصر التدريب المسبق ، كان ما يهم هو نص الإنترنت. ستحتاج في المقام الأول إلى مجموعة كبيرة ومتنوعة وعالية الجودة من مستندات الإنترنت للتعلم منها.
في عصر الضبط الدقيق الخاضع للإشراف ، كانت المحادثات. يتم تعيين العمال المتعاقدين لإنشاء إجابات للأسئلة ، تشبه إلى حد ما ما تراه في Stack Overflow / Quora ، أو إلخ ، ولكنها موجهة نحو حالات استخدام LLM.
لن يختفي أي من الاثنين أعلاه (imo) ، ولكن في عصر التعلم المعزز هذا ، أصبح الآن بيئات. على عكس ما سبق ، فإنها تمنح LLM فرصة للتفاعل الفعلي - اتخاذ الإجراءات ، ورؤية النتائج ، وما إلى ذلك. هذا يعني أنه يمكنك أن تأمل في القيام بعمل أفضل بكثير من تقليد الخبراء الإحصائيين. ويمكن استخدامها للتدريب والتقييم على حد سواء. ولكن تماما كما كان من قبل ، فإن المشكلة الأساسية الآن هي الحاجة إلى مجموعة كبيرة ومتنوعة وعالية الجودة من البيئات ، كتمارين لماجستير القانون للتدرب عليها.
في بعض النواحي ، أتذكر أول مشروع ل OpenAI (صالة الألعاب الرياضية) ، والذي كان بالضبط إطارا يأمل في بناء مجموعة كبيرة من البيئات في نفس المخطط ، ولكن هذا كان قبل LLMs. لذلك كانت البيئات عبارة عن مهام تحكم أكاديمية بسيطة في ذلك الوقت ، مثل عربة العربة ، ATARI ، إلخ. يقوم مركز البيئات @PrimeIntellect (ومستودع "المدققين" على GitHub) ببناء الإصدار الحديث الذي يستهدف على وجه التحديد LLMs ، وهو جهد / فكرة رائعة. لقد عرضت أن شخصا ما يبني شيئا كهذا في وقت سابق من هذا العام:
تتمتع البيئات بخاصية أنه بمجرد وضع الهيكل العظمي للإطار ، يمكن من حيث المبدأ للمجتمع / الصناعة أن يتوازى عبر العديد من المجالات المختلفة ، وهو أمر مثير.
الفكرة النهائية - شخصيا وعلى المدى الطويل ، أنا متفائل بشأن البيئات والتفاعلات الوكيلة ولكني متفائل بشأن التعلم المعزز على وجه التحديد. أعتقد أن وظائف المكافأة هي سوس فائق ، وأعتقد أن البشر لا يستخدمون RL للتعلم (ربما يفعلون ذلك لبعض المهام الحركية وما إلى ذلك ، ولكن ليس مهام حل المشكلات الفكرية). يستخدم البشر نماذج تعليمية مختلفة أكثر قوة بشكل ملحوظ وكفاءة في العينة ولم يتم اختراعها وقياسها بشكل صحيح حتى الآن ، على الرغم من وجود الرسومات والأفكار المبكرة (كمثال واحد فقط ، فكرة "التعلم الفوري للنظام" ، ونقل التحديث إلى الرموز / السياقات وليس الأوزان والتقطير اختياريا إلى الأوزان كعملية منفصلة مثل النوم).

Prime Intellect28 أغسطس 2025
تقديم مركز البيئات
تعد بيئات RL هي عنق الزجاجة الرئيسي للموجة التالية من تقدم الذكاء الاصطناعي ، لكن المختبرات الكبيرة تغلقها
لقد أنشأنا منصة مجتمعية للتعهيد الجماعي للبيئات المفتوحة، بحيث يمكن لأي شخص المساهمة في الذكاء الاصطناعي العام مفتوح المصدر
798.35K
مواصلة رحلة تجربة الترميز المثلى بمساعدة LLM. على وجه الخصوص ، أجد أنه بدلا من تضييق نطاق شيء واحد مثالي ، فإن استخدامي يتنوع بشكل متزايد عبر عدد قليل من مهام سير العمل التي "أقوم بخياطتها" إيجابيات / سلبيات:
شخصيا ، لا يزال الخبز والزبدة (~ 75٪؟) من مساعدة LLM الخاصة بي مجرد علامة تبويب (المؤشر) كاملة. هذا لأنني أجد أن كتابة أجزاء ملموسة من التعليمات البرمجية / التعليقات وفي الجزء الأيمن من الكود هي طريقة ذات نطاق ترددي عال لتوصيل "مواصفات المهمة" إلى LLM ، أي أنها تتعلق في المقام الأول بتات مواصفات المهمة - يتطلب الأمر الكثير من البتات وزمن انتقال كبير جدا لتوصيل ما أريده في النص ، ومن الأسرع إظهاره في الكود وفي المكان المناسب. في بعض الأحيان يكون نموذج علامة التبويب الكامل مزعجا ، لذا أقوم بتشغيله / إيقاف تشغيله كثيرا.
الطبقة التالية هي تسليط الضوء على جزء ملموس من التعليمات البرمجية وطلب نوع من التعديل.
الطبقة التالية هي Claude Code / Codex / etc ، التي تعمل على جانب المؤشر ، والتي أذهب إليها للحصول على أجزاء أكبر من الوظائف التي يسهل تحديدها أيضا في مطالبة. هذه مفيدة للغاية ، لكنها لا تزال مختلطة بشكل عام ومحبطة بعض الشيء في بعض الأحيان. لا أركض في وضع YOLO لأنهم يستطيعون الخروج عن المسار الصحيح والقيام بأشياء غبية لم تكن تريدها / تحتاجها وأنا ESC في كثير من الأحيان. كما أنني لم أتعلم أن أكون منتجا باستخدام أكثر من مثيل واحد بالتوازي - يشعر المرء بالفعل بصعوبة كافية. لم أكتشف طريقة جيدة للحفاظ على كلود [.]دكتوراه في الطب جيد أو محدث. غالبا ما أضطر إلى القيام بتمرير "عمليات التنظيف" لأسلوب الترميز ، أو مسائل ذوق الكود. على سبيل المثال ، فهي دفاعية للغاية وغالبا ما تفرط في استخدام عبارات المحاولة / الإمساك ، وغالبا ما تبالغ في تعقيد التجريدات ، وتبالغ في تضخيم التعليمات البرمجية (على سبيل المثال ، يتم إنشاء إذا كان آخر متداخلا عندما يعمل فهم القائمة أو سطر واحد إذا كان ذلك عندئذ) ، أو يقومون بتكرار أجزاء التعليمات البرمجية بدلا من إنشاء وظيفة مساعدة لطيفة ، أشياء من هذا القبيل ... ليس لديهم في الأساس حاسة التذوق. لا غنى عنها في الحالات التي أدخلها في منطقة أكثر ترميز حيث أكون أقل دراية (على سبيل المثال ، كتابة بعض الصدأ مؤخرا ، أو أوامر sql ، أو أي شيء آخر قمت به أقل من قبل). لقد حاولت أيضا أن يعلمني CC أشياء جنبا إلى جنب مع الكود الذي كان يكتبه ولكن هذا لم ينجح على الإطلاق - فهو يريد حقا كتابة التعليمات البرمجية أكثر بكثير مما يريد شرح أي شيء على طول الطريق. حاولت الحصول على CC للقيام بضبط المعلمات الفائقة ، وهو أمر ممتع للغاية. كما أنها مفيدة للغاية في جميع أنواع التصور المخصص أو الأدوات المساعدة لمرة واحدة ذات المخاطر المنخفضة أو التعليمات البرمجية التي لن أكتبها أبدا لأنها كانت ستستغرق وقتا طويلا. على سبيل المثال ، يمكن ل CC إنشاء 1,000 سطر من التصور / التعليمات البرمجية الشاملة لمرة واحدة فقط لتحديد خطأ معين ، والذي يتم حذفه جميعا مباشرة بعد العثور عليه. إنه عصر ما بعد الندرة - يمكنك فقط إنشاء ثم حذف آلاف الأسطر من التعليمات البرمجية فائقة الطلب وسريعة الزوال الآن ، لا بأس ، لم يعد هذا الشيء الثمين المكلف بعد الآن.
الطبقة الأخيرة من الدفاع هي GPT5 Pro ، والتي أذهب إليها لأصعب الأشياء. على سبيل المثال ، لقد حدث لي عدة مرات الآن بعد أن أصبحت / المؤشر / CC عالقا في خطأ لمدة 10 دقائق ، ولكن عندما أقوم بنسخ لصق كل شيء إلى 5 Pro ، فإنه ينفجر لمدة 10 دقائق ولكن بعد ذلك يجد خطأ دقيقا حقا. إنه قوي جدا. يمكنه البحث عن جميع أنواع المستندات والأوراق الباطنية وما شابه. لقد استخدمته أيضا في مهام أخرى أكثر لحوما ، على سبيل المثال اقتراحات حول كيفية تنظيف التجريدات (نتائج مختلطة ، وأحيانا أفكار جيدة ولكن ليس كلها) ، أو مراجعة أدبيات كاملة حول كيفية قيام الناس بهذا أو ذاك وتعود بموارد / مؤشرات جيدة ذات صلة.
على أي حال ، يبدو الترميز مفتوحا تماما مع إمكانية عبر عدد من "أنواع" الترميز ثم عدد من الأدوات مع مزاياها / سلبياتها. من الصعب تجنب الشعور بالقلق حول عدم التواجد على حدود ما هو ممكن بشكل جماعي ، وبالتالي وابل عشوائي من الأفكار يوم الأحد وقدر كبير من الفضول حول ما يجده الآخرون.
615.79K
الأفضل
المُتصدِّرة
التطبيقات المفضلة