當前位置:聚美館>智慧生活>數碼>

微軟不願意提及的軟肋|Win10的語音識別

數碼 閱讀(3.19W)

由於仍然使用10年前的技術,語音識別準確率相對較低,用戶需要大量訓練時間,語音輸入成爲Windows的軟肋。

微軟不願意提及的軟肋:Win10的語音識別

據PCWorld 網站報道,Windows有一項微軟不願意提及的功能。雖然Windows可以讓用戶使用觸控筆“寫寫畫畫”,藉助Windows Hello利用臉部登入系統(或保護Web安全),甚至命令小娜設定提醒事項,但它明顯不想讓用戶使用的一項功能是,利用其語音識別引擎對系統發號施令或讓用戶利用語音輸入編輯文檔。

微軟不大力宣揚Windows語音識別功能的原因可以追溯到10年前,當時微軟產品經理謝恩·博切(Shanen Boettcher)在演示Windows Vista的語音輸入功能時搞砸了。之後Windows的語音輸入技術一直相當“低調”,目前幾乎沒有用戶知道Windows有語音輸入功能。

如果說Windows有機會再戰語音輸入領域,目前似乎是個時機——計算機和人工智能的進展爲語音輸入提供了好得多的基礎。

在被問及語音輸入技術在Office中的未來時,微軟負責語音識別研究以及小娜和必應的執行副總裁哈里·舒姆(Harry Shum)表示,“這是一個重大問題。語音輸入沒有扮演更重要的角色是不可理解的。”

語音識別不完美的原因

微軟不願意提及的軟肋:Win10的語音識別 第2張

部分用戶仍然認爲語音輸入還是《杜恩斯比利》(Doonesbury)系列漫畫中蘋果牛頓 PDA的水平,把用戶說的“I am writing a test sentence”,聽爲“Siam fighting atomic sentry”。用戶有這種想法是可以原諒的:Windows語音識別功能仍然採用微軟Speech Recognizer 8.0技術,自Vista以來,這一技術就基本上沒有什麼變化。舒姆稱之爲“祖父”級技術。

PCWorld表示,但硬件已經發生了很大變化:聽和解釋語音要求的處理能力遠低於10年前。Surface Book等PC產品中的集成式麥克風陣列的質量,意味着無需使用專用麥克風語音識別就可以達到很高的準確率。只是,語音輸入技術的發展已經適合大衆使用了嗎?

在使用語音輸入軟件輸入長度爲1028個單詞的文章時,95%的準確率意味着用戶必須修正逾15個錯誤。在測試中,Windows語音輸入準確率爲93.6%,從理論上說這一數值並不高,低於測試的其他專用語音輸入軟件。Windows有個奇怪的習慣,在輸入逗號時,它會在文檔中插入“comma”(逗號)這個詞彙。語音輸入社區似乎對這類相對較小的失誤是否有重要影響有不同看法。

當然,這還不是全部。使用過語音輸入軟件的人都知道,準確率的關鍵是訓練。隨着時間推移,語音輸入軟件會了解用戶口音,“apricot”中“a”的發音與“bad”還是“ape”中的“a”相同,和如何過濾無意識的痙攣性語言障礙。微軟員工曾聲稱,經過適當訓練,Windows語音識別技術的準確率可以達到99%.。1000個單詞出現10個錯誤還不算太壞。

很少有用戶願意花時間訓練使用語音識別軟件。Windows語音識別軟件,要求用戶用10分鐘時間訓練數個句子,會讓用戶有度日如年的感覺。小娜和Siri不要求用戶進行訓練,那是因爲它們已經被訓練了數以百萬計的語音樣本。

小娜(可以在PC和手機上使用)在語音識別方面表現遠優於Windows語音輸入系統的原因是,它利用了微軟雲服務的計算能力。微軟會對用戶的語音進行分析,使用戶語音與其其他數據相關聯,生成作爲小娜靈魂的智能。

微軟重視語音識別

微軟不願意提及的軟肋:Win10的語音識別 第3張

鑑於小娜的出色表現,用戶會認爲語音應當成爲上週微軟Ignite會議的中心。但Ignite期間沒有任何與語音輸入有關的會議,只有一次會議與語音識別有關。微軟首席執行官薩蒂亞·納德拉(Satya Nadella)在主旨演講中把語音識別稱作是微軟未來的關鍵元素。

以Skype Translator爲例。據納德拉稱,Skype Translator依賴三個方面的研究:語音識別、語音合成和機器翻譯。在演講中,納德拉稱微軟語音識別算法的誤字率爲6.9%,這是一個糟糕的成績:準確率僅爲93.1%.

PCWorld稱,如果微軟真正看好辦公軟件,語音識別在PC中的未來不僅僅是利用Skype在孟加拉國訂賓館,而是撰寫體驗,不過是透過語音而非手指。