网站免费进入窗口软件2023,北京老熟女HD,特级毛片a片久久久久久,星空无限传媒在线观看电视剧4k

當前位置: 首頁 > 培訓動態 > 編程資訊 > 新聞內容

語言模型擅長預測嗎?

童程童美少兒編程教育是一所注重經濟實惠、透明宣傳、師資專業、環境創新和多地校區設置的學府。學費靈活,一年10000-25000元,平均每堂課200-300元,為家庭提供經濟實惠的編程教育。通過網上公示機構信息,透明化宣傳,構建了學校與家長之間的信任基礎。師資團隊經驗豐富,致力培養學生的創新思維和問題解決能力。學校教室設計充滿創意,提供積極向上的學習氛圍,激發學生的無限創意。多地校區設置,方便學生就近學習,貼近家庭生活。提供多樣化教學項目,適應不同學生的需求,以學生成績和學習效果為導向,不斷優化教學模式。積極收集學員家長的反饋,確保學費調整靈活應對不同家庭的需求。這些努力讓童程童美少兒編程教育贏得了學員家長的高度評價和信賴。

為了獲得這個問題的粗略答案,我們從 Manifold 市場收集了 5000 個問題,這些問題在 GPT-4 當前的知識截止日期(2022 年 1 月 1 日)后得到解決。我們將每個問題的文本以及以下說明提供給 GPT-4:

您是一位超級預測,熟悉泰洛克和其他人的工作。對于以下 json 塊中的每個問題,預測該問題得到解決的概率。

您還必須確定問題的類別。一些例子包括:體育、美國政治、科學等。使用 make_predictions 函數來記錄您的決定。在所有情況下,您必須給出 0 到 1 之間的概率估計。如果由于某種原因您無法回答,請選擇基本費率,但返回 0 到 1 之間的數字。

回想起來,也許我們已經過濾了這些。許多問題對于我們的目的來說有點愚蠢,盡管它們通常被分類為“測試”、“未分類”或“個人”。

這個好嗎?

衡量你是否擅長預測事物的一種方法是檢查你的校準:當你說某件事有 30% 的概率時,它實際上有 30% 的時間發生嗎?

要檢查這一點,您需要做出大量預測。然后你將所有 30% 的預測放在一起,看看其中有多少發生了。

從較高層面來看,這意味著 GPT-4 過于自信。當它說某件事發生的可能性只有 20% 時,實際上發生的概率約為 35-40%。當它說某件事有 80% 的可能性發生時,它只發生大約 60-75% 的時間。

這取決于地區嗎?

我們可以為 16 個類別中的每一個類別繪制相同的圖。(請記住,這些類別是由 GPT-4 決定的,盡管從抽查來看,它們看起來很準確。)由于不清楚的原因,GPT-4 對于體育問題進行了良好的校準,但對于“個人”問題進行了可怕的校準:

所有線條看起來都有點嘈雜,因為總共有 20 × 4 × 4 = 320 個 bin,而總共只有 5000 個觀測值。

生活中還有比校準更重要的事情嗎?

假設你和我正在預測一枚公平的硬幣翻轉時正面朝上的結果。我總是預測 50%,而你總是預測 0% 或 100%,而且你總是對的。然后我們就都完美地校準了。但顯然你的預測更好,因為你的預測更有信心。

處理這個問題的典型方法是平方誤差,或“Brier 分數”。為了計算這個結果,如果事情發生了,則實際結果為 1,如果沒有發生,則實際結果為 0。然后取概率與實際結果之間的平均平方差。例如:

  • GPT-4 給出了“SBF 會在美國東部時間 2022 年 12 月 31 日晚上 11:59 之前發布推文嗎?” 是的概率為 0.9。由于這確實發生了,因此對應的分數為 (0.9-1)² = 0.01。
  • GPT-4 給出了“Manifold 會顯示 9 月底市場傾斜的金額嗎?” 是的概率為 0.6。由于這種情況沒有發生,因此對應的分數為 (0.6-0)² = 0.36。

以下是每個類別的平均分數(越低越好):

或者,如果您愿意,您可以分解 Brier 分數。有多種方法可以做到這一點,但我較喜歡的是Brier = Calibration + Refinement。非正式地說,校準是上面的綠線與黑色虛線的接近程度,而細化是您的自信程度。(兩者越小越好。)

生活還有比精致更重要的嗎?

政治問題的布賴爾分數比科學問題的分數更高。但這是因為它不擅長科學,還是僅僅因為科學問題很難?

有一種方法可以進一步分解 Brier 分數。您可以將分辨率分解為細化 = 不確定性 - 分辨率。粗略地說, 不確定性是“問題有多難”,而分辨率是“考慮到校準和不確定性后,你的信心有多大”。

以下是不同類別的不確定性:

這是每個類別的校準和分辨率的散點圖:(由于分辨率越高越好,所以現在左上角包含更好的預測。)

總體而言,這種進一步分解并沒有太大變化。這表明 GPT-4 確實更擅長對政治進行預測,而不是對科學或技術進行預測,即使考慮到問題的難度也是如此。

PS:不同Brier 分數分解的相對優點在這篇文章的制作過程中引起了驚人的內部沖突。我不知道我會對平凡的技術選擇有如此強烈的感受。我想我現在有了一個令人興奮的新敵人類別。

本頁面由主體*哈爾濱童程童美少兒編程培訓南崗校區*自行上傳,本網不對該頁面內容(包括但不限于文字、圖片)真實性和知識產權負責,如有侵權請聯系處理刪除qq:16720809  。
微信咨詢

微信掃碼,享更多好課
?2010-2019 培訓通 , 蜀ICP備07505283號
主站蜘蛛池模板: 桃园县| 英山县| 顺义区| 旅游| 姜堰市| 钦州市| 兰西县| 大足县| 顺义区| 金乡县| 宁阳县| 英德市| 莆田市| 拉萨市| 白河县| 西宁市| 望都县| 通榆县| 怀来县| 吉木萨尔县| 嵊泗县| 南安市| 武安市| 吉木萨尔县| 长治县| 贡嘎县| 孟津县| 鄂尔多斯市| 东阳市| 志丹县| 南昌市| 台湾省| 鹿邑县| 临洮县| 原平市| 翼城县| 海城市| 镶黄旗| 吉林省| 喀喇沁旗| 兰西县|