Google 給搜索引擎加入了一個有「常識」的算法

產品

10-31 18:10

在閱讀英語文章時,最讓你撓頭的是什么?

遇到一詞多意時不知道該選哪個解釋?還是長句里難以梳理的信息結構?

Google 搜索引擎其實也跟你一樣撓頭。

為了「照顧」Google 搜索引擎,很多人在搜索時會用「關鍵詞搜索法(keyword-ese)」—— 只輸入關鍵詞,不使用完整的句子。

譬如,有人會在搜索欄里輸入 「痣」「臀部」「癌癥」,其實他想問的是「我屁股上的痣是不是癌癥的征兆?」

▲ 圖自 Neringa ?idlauskait? via Unsplash

最近,Google 為搜索引擎引入了一個名為 「BERT(Bidirectional Encoder Representations from Transformers)」的機器學習算法,幫助前者更好地理解用戶在搜索欄提出的問題。

引擎更新后有什么改變?

簡單來說,加入 BERT 后的 Google 搜索引擎,能夠更好地理解接近自然對話的長句子,因為它能更好地分析了解句子中單詞間的關系。

▲ 圖片來自 Unsplash

和傳統算法不同的是,BERT 在分析詞語時,并不是依次從左到右或從右到左地逐詞分析,而是借助 Google 研發的 Transformer 模型并行分析詞語在整個句子中的關系。

譬如,如果搜索「math practice books for adults(給成年人的數學練習冊)」,更新前的搜索返回結果會將「adults(成年人)」變為「young adults(年輕人)」,更新后則不會這樣。

此外,在介詞對整個句子意思影響較大的情況下,加入 BERT 后的理解能力也明顯優于從前。

搜索「2019 Brazil traveler to usa need a visa(2019 巴西旅客到美國需要簽證)」,在更新前,搜索引擎沒有將「to」考慮在內,更多返回了美國旅客到巴西旅行的信息。加入 BERT 后,「to」則沒有被忽略。

對于這次更新,Google 副總裁 Pandu Nayak 在官方博文中稱之為「代表了五年里最大的跨越,也是搜索歷史上其中一個最大的改進」。

目前,BERT 已經應用到 Google 搜索的英文版中,未來還將擴展到更多不同語言版本。

BERT 或能讓算法更會「聊天」

據《Fastcompany》報道,為了訓練 BERT,Google 向其輸入了 11038 本未經標注的書籍文本和合計 25 億字來自維基百科英文版的內容。

而且,研究人員還隨機「掩蓋」了文本里的單詞,讓算法模型自行想法子「填空」。

學習完所有文本后,算法開始找到一些在同一文本中經常出現的句子和詞語規律,建立了對詞語的基本理解,而且還似乎開始「明白」詞語背后所代表的事物之間存在的關系,這就像一種「常識」。

舉個例子,從前如果在 Google 里搜「do estheticians stand a lot at work(美容師在工作中需要站很久嗎)」,搜索引擎會將「stand(站)」這個詞語套入「stand-alone(獨立)」的意思,因此無法返回搜索者想要的信息。

加入 BERT 后,搜索引擎則能理解,用戶所指的是「站立」的動作,再進一步,也可擴大理解為「美容師這個職業的體力勞動量」。

在處理過程中,系統需要表述它所理解的詞語意思,還有句子的結構以及整體內容。結果就是,從某個程度來說,它對語言有一定了解。

這挺奇怪的,因為它對現實世界一無所知。它看不到,聽不到,什么都沒有。

人工智能科學家 Yann LeCun 說道。作為 Facebook 的副總裁,LeCun 帶領著團隊,通過對 BERT 進行優化,并輸入更大批量的學習資料,研發出了他們的自有模型「RoBERTa」。Google 原有的 BERT 準確率為 80.5%,而 RoBERTa 則可做到 88.5%。

但為什么 Facebook 也要研究這個?

如果說當搜索引擎能夠更好地理解用戶輸入的自然語言,反饋更有幫助的內容,那這個改進移植到智能語音助手上也是可預見的。

和很多科技巨頭公司一樣,Facebook 也在研發智能語音助手,提升算法對自然語言的處理能力也是必須。

▲ Facebook 今年宣布將為 Portal 研發語音助手,圖自 Digital Trends

但在語音助手之前,他們先從相對簡單的文本對話入手,做了聊天機器人,而且準備在 RoBERTa 的基礎上擴展更多功能,讓算法和人聊起天來更自然。

據 LeCun 介紹,很多聊天機器人都會 「把天聊死」

譬如,很多機器人講話會自相矛盾。

前一分鐘可能和你說「XXX 的新單太棒了,趕緊一起去打榜」,下一分鐘就說「追星的人都是傻的」。這主要是因為它們背后是一個固定的數據庫,收到特定的關鍵詞就會調出對應回答。而那些真的是自己生成答案的機器人,又會為了規避自相矛盾而用模糊的答案來回應人,顯得冷冰冰。

此外,現有聊天機器人大多知識領域很局限。一旦聊天的人改了話題,聊到它不認識的,機器人就接不下話了。

為此,Facebook 現在正向自己的算法輸入來自各種領域的大批量信息,并嘗試將這些信息以更自然的方式加入對話中。

未來,他們還計劃教導機器人「引導話題」—— 當聊天者將話題扯到比較泛的領域時,將內容拉回到特定任務上。

我們相信,我們已經很接近創造出一個能和人們聊得下去的機器人。

Facebook 研究人員 Jason Weston 告訴《Fastcompany》。在那天到來之前,希望我能練就出不被聊天機器帶跑的技能。

題圖來自 Engadget

登錄,參與討論前請先登錄

評論在審核通過后將對所有人可見

正在加載中
黑龙江‖选5开奖结果