Microsoft Copilot und seine Vorgänger: Die „natural language search“ in Windows 7

Der Microsoft Copilot ist eigentlich nur die neuste Stufe eines von Microsoft schon lange gehegten Traums – mit Computern in natürlicher Sprache zu kommunizieren.

Die Versuche in diese Richtung gehen schon lange zurück, so zeigt das Bild oben die Ordneroptionen in Windows 7 und die Option „Use natural Language search“.

Brandon Paddock von Microsoft berichtet auf twitter darüber – und in welche Richtung die KI-Entwicklung bei Microsoft geht. Ich habe den Thread hier zusammengefasst und mit Deepl übersetzt:

Als ich 2005 bei Microsoft anfing, hatte sich mein ursprüngliches Team von einem „NUI“-Team (Natural User Interface) abgespalten. Wir arbeiteten u. a. an einer natürlichsprachlichen Suche. Unser Ziel war es, Abfragen wie „Zeige mir alle aktuellen E-Mails von Paul mit Excel-Anhängen“ zu ermöglichen.

Wir haben sogar viele Jahre lang eine Basisversion in Windows ausgeliefert! Aber sie war standardmäßig ausgeschaltet, und fast niemand wusste davon.

[Mehr dazu gibt es hier zu lesen]

Das lag zum Teil daran, dass wir die Kluft zwischen den Erwartungen der Benutzer an die Abfragen (und deren Funktionen) und den tatsächlich unterstützten Funktionen nicht wirklich überbrücken konnten.

Das Team entwarf sogar eine UX, um dieses Problem anzugehen, die leider nie das Licht der Welt erblickte.

Damals erforderte die Unterstützung natürlicher Sprache im Grunde eine Menge hart kodierter Regeln. Aber es gibt unzählige Möglichkeiten, dieselbe Idee mit natürlicher Sprache auszudrücken. Es gab immer eine Lücke, und unsere Bemühungen, sie zu schließen, waren nicht sehr erfolgreich.

Dank jahrelanger Forschung und Entwicklung sowohl bei Microsoft als auch im akademischen Bereich und in der Industrie sind die Dinge jetzt anders. „Große Sprachmodelle“ haben das Spiel verändert, und obwohl es immer noch Lücken zwischen den Erwartungen und der Realität geben kann, ist es viel einfacher, diese zu überbrücken (durch UX, Erdung, etc.).

Meiner Meinung nach liegt das größte Versprechen von LLMs nicht in ihrer Fähigkeit, Fakten und anderes Wissen zu lernen, sondern vielmehr in ihrer Fähigkeit, natürliche Sprache zu verstehen und zu verwenden. Dies ist ein entscheidender Faktor für die Interaktion zwischen Mensch und Computer.
Ich beschreibe Sprache als die Art und Weise, wie wir den menschlichen Verstand programmieren. Auf diese Weise geben wir Wissen von einer Generation zur nächsten weiter. Auf diese Weise kodieren Menschen Ideen, geben sie an andere weiter und entschlüsseln sie auf der anderen Seite.

Jetzt fangen wir an, Maschinen mit der gleichen Fähigkeit auszustatten.
Es wird einige Zeit dauern, bis wir die wertvollsten Möglichkeiten und Orte gefunden haben, um diese Fähigkeit zu nutzen, sowie die Erfahrung zu verfeinern und Fallstricke zu beseitigen, wo wir sie finden. Einiges davon kann man letztlich nur durch Ausprobieren lernen. Eine wachstumsorientierte Denkweise ist der Schlüssel.

Ich habe noch nie erlebt, dass bei Microsoft oder anderswo so schnell so viele Innovationen entstanden sind. Es ist wirklich beeindruckend.

Es erinnert mich an die Anfänge des iPhones, als eine neue Technologie plötzlich fast unendliche Möglichkeiten eröffnete – mit erstaunlichen neuen Apps, die jeden Tag auftauchten.

Ich glaube wirklich, dass UX in natürlicher Sprache die Art und Weise, wie wir mit Technologie arbeiten, verändern wird.

Ich kann es kaum erwarten, dass Sie alle unsere ersten Bemühungen hier selbst erleben können.


Hier noch der Thread im Original zusammengefasst:

When I first joined Microsoft in 2005, my original team had splintered off from a “NUI” (Natural User Interface) team. One of the things we worked on was natural language search. Our goal was to enable queries like “show me all the recent emails from Paul with Excel attachments”.

We even shipped a basic version in Windows for many years! But off by default, and almost no one knew about it.

It was off by default partly because we hadn’t really bridged the gap between user expectations of what queries should work (and what they should do) versus what was actually supported.

The team even designed a UX to address this, which sadly never got to see the light of day.

Back then, natural language support basically required tons of hard-coded rules. But there are countless ways to express the same idea using natural language. There was always going to be a gap, and our efforts to close it hit diminishing returns.

Things are different now, thanks to many years of R&D both at Microsoft and across academia and the industry. “Large Language Models” have changed the game, and while there can still be gaps between expectations and reality, it’s MUCH easier to bridge (via UX, grounding, etc).

In my opinion, the greatest promise from LLMs comes not from their ability to learn facts and other knowledge, but rather from their ability to understand and use natural language. This is a game changer for human-computer interaction.

I describe language as the way we program the human mind. It’s how we pass down knowledge from one generation to another. It’s how people encode ideas, transmit them to others, and decode them on the other side.

Now, we’re beginning to endow machines with that same ability.
It’s going to take time to find the most valuable ways and places to use this capability, as well as to refine the experience and address pitfalls where we find them. Some of this ultimately can only be learned by trying things out. A growth mindset is key.

I’ve never seen so much innovation happen so quickly at Microsoft, or really anywhere. It’s truly awe-inspiring.

It reminds me of the early days of the iPhone, when we saw a new technology suddenly unlock nearly endless opportunities – with amazing new apps popping up each day.

I really believe natural language UX is going to be transformational to the way we work with technology.

I can’t wait for all of you to experience our first efforts here for yourselves.

 

 

Kommentar verfassen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.