Construire My Own Siri

Précédent ◈ Suivant

Je crois avoir accès à toutes les ressources nécessaires pour créer cette AI.
Il se décompose en trois grandes parties:
1) convertir la parole en texte
2) Base de données de requête rempli avec q-a
3) convertir le texte à la parole

La parole au texte

La plupart des discours au texte moteurs sucent. Les œuvres de Siri exceptionnellement bien parce que le moteur est pas sur votre téléphone ... il est à distance. Je croyais que nous pouvons pirater Siri en exécutant une attaque MITM sur un iPhone et le trucage cert SSL et d'intercepter l'ID de pomme .... OU nous pouvons faire quelque chose de beaucoup plus simple. Le navigateur Chrome 11 de Google inclut une fonction d'entrée vocale (qui est pas encore partie de la norme HTML5) et peut convertir votre parole en texte. Ce gars a découvert qu'il se passait à distance via un appel API sans papier à Google. Tout ce que nous avons à faire est accéder à cette même API et nous nous sommes retrouvés sans un moteur Speech-to-Text!

Si vous ne comprenez pas Perl, c'est la façon dont vous utilisez l'API:

params POST. Contenu (qui devrait inclure le contenu d'un codage de .flac de votre voix enregistrée en 16000Hz mono ou 8000Hz)
Content_Type (qui devrait se lire « audio / x-flac, taux = 16000 ».. Ou 8000 en fonction de votre enregistrement vocal Cela devrait aussi se refléter dans la section Content-type de votre tête)

Réponse. texte JSON

Alors j'ai enregistré ma voix sur mon iphone 3gs demandant « quel jour est-il aujourd'hui? » Et converti au format flac approprié et affiché à l'API de Google et c'est ce que je suis en réponse:

Base de données remplie avec Q-A

Texte pour parler

Cette partie est facile ... et Google rend encore plus facile avec une autre API non documentée! Il est simple. Une simple demande GET à:

Entrée vocale

Je peux soit faire mes programmes sur un navigateur Web ou une application autonome. Son exécution sur le navigateur Web est cool parce que je serais alors en mesure de l'exécuter à partir de presque toutes les machines. Malheureusement, HTML 5 ne dispose pas d'un moyen de voix d'enregistrement. Mes options sont: a) utiliser uniquement Google Chrome, b) faire une application flash, c) faire une applet Java.

Anywho ... pas grand-chose.

Mettre tous ensemble

Il répond par cette réponse. Bonne fille.
Il lui manque encore la partie d'entrée vocale du code. À l'heure actuelle, il accepte juste un fichier flac. J'écrit 3 morceaux de code que je mets ensemble comme une canalisation d'un processus AI. L'avantage de ce sur Siri est que je peux intervenir à tout moment. Je peux l'avoir écouter des questions particulières telles que « qui est votre maître? » Et répondre de façon appropriée .... mais plus important encore, je peux l'avoir écouter « Allumez mes lumières » ou « allumer le téléviseur » ou « ouvrir la porte du garage » ou « se tourner vers le canal 618 ». Certaines questions auront mon bot envoyer un signal au commutateur d'éclairage approprié contrôlé Arduino ou d'un commutateur de garage ou blaster IR et répondre par « oui, maître ». Je vais poster des vidéos quand il est fait.

Cliquez sur le petit micro et essayer de lui poser une question comme « combien de pattes d'araignée ont? » Ou « ce qui est 15 + 11? » Ou « éteindre les lumières ». # 128578;

Mise à jour: Il y a un suivi à ce poste ici.

Les codes sources sont disponibles sur GitHub.

Impressionnant, que je suis vraiment intéressé par l'automatisation de la maison grâce à cette méthode, mais j'allais utiliser AppleScript, - automatiser l'ordinateur, à la maison, et je espère que je vais trouver comment utiliser les API avec elle! J'aimerais regarder votre code arduino aussi!

J'ai eu la même chose pour l'automatisation de la maison. Mais, d'abord, je suis en train de refaire mon ordinateur. Je vais essayer et le port Skyvie à mon ordinateur.

hey man c'est tellement cool. Je voulais toujours un peu à faire que je peux mettre cela sur mon blog tech. à votre santé

Articles Liés

Précédent ◈ Suivant