FUJILOG

見た、聴いた、触れたこと。 動かしたもの、書いたもの。 ウェブとリアルの備忘録です。

Product Hunt で 告知をしてみた件(「スケッチ練習&配信サービス」KAOREN)

2026年、あけましておめでとうございます。

冬休みにCloudflareに興味をもったことから技術検証をしていました。

そのなかで、個人プロダクトとして、KAORENという「スケッチ練習&配信サービス」をリリースしました。

デモ動画

youtu.be

サービスURL

kaoren.me

リリースしたあとに、そういえば「ProductHunt」というアプリ紹介サービスがあったのを思い出し、 サービス仕様を書いたReadme.mdから、以下フォーマットで提出しました。

Product Hunt 投稿フォーム(日本語版 ※提出は英語です)

Product Name(プロダクト名)

KAOREN(顔練)

Tagline(60文字以内)

リアルタイムで一緒に描ける、協調型3D顔ドローイング練習

Description(500文字以内)

KAORENは、VRM対応の3D頭部モデルを使って顔のスケッチ練習ができる、ブラウザ完結のリアルタイム共同ドローイングアプリです。
カメラの回転やランダム切り替え、表情変更、無制限 or 15〜90秒のクロッキーセッションに対応。
同じルームに参加すると、3Dビュー・レイヤー・描画ストロークがWebSocketで同期され、全員がまったく同じ視点を共有できます。
インストール不要・サインアップ不要で、VRMファイルはローカル処理(アップロードされません)。

Launch Tags / Topics(最大3つ)

  • デザインツール
  • ドローイング
  • 教育

Pricing(価格)

無料

Platform(対応プラットフォーム)

Web(ブラウザベース)

追加リンク(任意)

Tech Stack(技術スタック)

  • Three.js + @pixiv/three-vrm
  • Cloudflare Workers + Durable Objects
  • WebSocket(リアルタイム同期)

First Comment(Makerコメント)

こんにちは、Product Hunt!👋
こちらからすぐ試せます 👉 https://kaoren.me

KAORENを作った理由は、次の2つの課題を解決したかったからです。

1️⃣ 静止画像の参考資料では、角度が固定されてしまう
2️⃣ 「完成結果」ではなく「描いている過程」へのフィードバックが、オンラインではほぼ不可能

🎨 ひとり練習の場合 - 3Dキャラクターを選択、またはVRMをローカル読み込み
- 無制限/15 / 30 / 60 / 90秒のクロッキー練習
- カメラは常に顔をフレームイン
- 3Dビュー+スケッチを1枚のPNGとして保存

👥 一緒に学ぶ場合(リアルタイム共同作業) - ワンクリックでルーム作成、招待リンクを共有
- 全員が同じ3D視点を見ながら、共有レイヤーに描画
- 講師は筆運びをリアルタイムで見せながら指導可能

技術的なポイント - Cloudflare Durable Objects + WebSocket によるリアルタイム同期
- VRMファイルは端末外に出ません
- ブラウザだけで動作、登録不要
- 8言語対応

完全無料です。
**美術教育に携わる方からのフィードバックを特に歓迎します。

--

生成AIの恩恵で個人プロダクトが作りやすくなりました。

KAOREN - Collaborative 3D face drawing - sketch together in real time | Product Hunt

利用中のAIサービスが増えてきたので記録する(2025年5月)

OpenAI、Microsoft、Meta、Google、Anthropic…とビッグニュースが連発され、落ち着かない月だったので現時点の備忘録。年末にはまた入れ替わっている可能性もありそう。

仕事用

ChatGPT

調査、システム仕様検討、コーディング

ざっとした調査、相談は年初からは4oを使用。 コーディングについては一時期はo1を併用しており、その性能に感動していた。 とはいえコスト面で、最近は推論が必要なタスクについては、o3を使用している。 WebサービスAPIを組み込むなどもしていた。

Claude

調査、文書清書

Sonnet3.7の頃から、草稿を貼りつけて清書してもらう。案だけ渡して書いてもらうのでも成果物の質が良かった。AI楽曲の歌詞の手直しにも向いている。

システム仕様検討、コーディング

4.0系になると「ClaudeCode」がnodeパッケージとして提供されるようになり、VibeCoding勢がそのパフォーマンスにざわついた。 Github Actionsにアプリ連携しておくと、Githubアプリから実装指示できるようになったのは衝撃だった。

Gemini

システム仕様検討、コーディング

2.0系ではイマイチだったのが、2.5系になってからは信頼度が増した。メインはClaude4.0で、回答に納得できない場合にGeminiにも投げるような併用。

エコシステム

Google I/Oのイベントが圧倒的だった。AIのパフォーマンスだけでなく、GoogleCloudとの連携を活かしたプロダクト発表や、動画生成サービスの提供拡大、XR領域へのサービスデモなど。 いままでは静観していたけど、急にアクセルを踏んできた印象を受けたし、インフラ/OS/ハードウェア/ソフトウェアの領域横断で、GoogleのAIサービスが一気に広がるような予感もした。

エディタ

年初からCursorを使っていた。AIエージェントのモード切替やMCPなど、先進的な機能が搭載されていたため。

ClaudeCodeを触ってみるとGithub Actions連携が良かった。@claude のようにエージェント指示することでIssueが立てられる、順に実装を進めてくれるといったことも実現できるようになった(スマホアプリから実装依頼出せる)ので、開発環境については柔軟判断していきたい。

趣味用

Midjourney(兼にじじゃーにー)

画像生成

後続のSUNOと併せて使っている。 画像生成した画像をCanvaに取り込んで、KindleのKDPで出版もしてみた。

2025年4月にバージョンv7となった。v7の画像は、v6のそれよりリアル感が増した。 動画生成サービスがスタート地点の描写画像をインプットできるので、観測範囲ではMidjourneyで出力した画像を起点に動画生成するような用途が多い。

SUNO AI

音楽生成

類似サービスにUdio、GoogleのMusicFXがあるが、もっぱらSUNOを使っている。

Hedra

音楽生成

画像をもとに、音楽動画用にリップシンクさせるのに相性が良かった。 生成時間を30秒くらいにして、YouTube ショートにアップするような使い方をした。

深堀りたい

Google AI Studio

アプリ生成からデプロイ

CloudRunデプロイまで自動化されているようでサービス提供のハードルが下がるのはVibeCodingするにもメリット大。

Google A2A

エージェント間の連携

作成したAIエージェントどうしを連携させたいといったニーズは出てきそう。

様子見

Kling、Veo…その他動画生成

どのサービスも、5~10秒ほどを生成できる。出力内容もより高品質になったし、継ぎはぎしてアニメやCMを制作するひとも現れてきている。 Kling2.1が頭一つ突出しているが、GoogleのVeo3が怒涛の追いかけをしてきている。Klingも生成料金減を計ってきたので、先行きは読めないけど。年内目途でどちらかが長時間生成を実現すると、状況が変わるのでなかろうか。

ローカルLLM

また動画生成であれば、今年はWanやFramePackなるOSSが出てきて、商用サービスに引けを取らない状況。 Qwen、GemmaのようなローカルPCで動作する(要GPU)LLMも性能が伸びてきているのでエッジコンピューティング領域もよりAIの恩恵が受けれそう。

と、ざっと上げたのでも追跡する情報量が多く、Xのタイムラインを眺めているとAI疲れをつぶやくひとも散見されている。

トレンドが加速しているので、モデル変化で変わらないもののを選定してから触るようにする。

Google Cloud のサービスアカウントに「ドライブ ファイル作成者」と「ドライブ閲覧者」のロールを付与する手順

要約

Google Cloud のサービスアカウントに「ドライブ ファイル作成者」と「ドライブ閲覧者」のロールを付与する手順を説明します。

※DifyからGoogleドライブプラグインを呼び出す際などに参照ください

Google Drive APIの有効化とサービスアカウントの作成

Google Cloud Console (https://console.cloud.google.com/) にアクセスします。

プロジェクトを選択または新規作成します。 ナビゲーションメニューから「APIとサービス」>「ライブラリ」を選択します。 「Google Drive API」を検索して有効化します。

サービスアカウントの作成(まだ作成していない場合)

ナビゲーションメニューから「IAM と管理」>「サービスアカウント」に移動します。 「サービスアカウントを作成」をクリックします。 名前、説明を入力し、「作成して続行」をクリックします。 必要に応じてプロジェクトロールを付与し、「完了」をクリックします。

Google Workspace 側での設定

Google Workspace 管理コンソール (https://admin.google.com) にアクセスします。 メニューから「セキュリティ」>「アクセスと管理」>「API コントロール」を選択します。 「ドメイン全体の委任」セクションで「新しい追加」をクリックします。

以下の情報を入力します。

クライアント ID:

  • サービスアカウントのクライアント ID

OAuth スコープ:

Google Drive 側での権限設定

Google Drive にアクセスします。 共有するフォルダまたはファイルを右クリックして「共有」を選択します。

サービスアカウントのメールアドレス (通常は サービスアカウント名@プロジェクトID.iam.gserviceaccount.com 形式) を入力します。

権限レベルを「閲覧者」または「編集者」に設定します(「編集者」が「ドライブ ファイル作成者」に相当)。 「送信」をクリックします。

以上

これでサービスアカウントに指定した権限が付与され、APIを通じてGoogle Driveのファイルにアクセスできるようになります。

サービスアカウントからこれらの権限を使用するには、サービスアカウントの認証情報(JSONキー)を使用してAPIリクエストを行う必要があります。

2024年 年末状況

- 12月下旬まるまる体調不良でした

- 悪寒発熱から始まり、鼻水、咳と痰詰まり

- 喉の不快感は長引き、味覚が鈍って食事の旨味が分からない

- 回復傾向でも頭痛発生

- 全国でインフルエンザ、コロナが猛威をふるってるとニュースから。こればかりはやむなし。

- 皆さまにおかれましては良き年をお迎えください

LongWriter は本当に2万字を生成できるのか

3万字ほどの文書を1-2分で生成すると噂さを耳にしたので動かしてみる。

まずは環境セットアップ。venvで実行。

python3 -m venv longwriter cd $_ source bin/activate

モジュールインストール。

pip install wheel pip install torch transformers gradio peft tiktoken einops flash_attn

プログラムのインストール。

git clone https://github.com/THUDM/LongWriter cd LongWriter

pythonコマンド起動して、以下入力実行。

from huggingface_hub import snapshot_download

local_dir = "THUDM/LongWriter-glm4-9b"
snapshot_download(repo_id="THUDM/LongWriter-glm4-9b", local_dir=local_dir)

Viコマンドで "trans_web_demo.py" ファイルの「share=False」にする。

いざ、LongWriter プログラムを実行…するもエラー。

CUDA_VISIBLE_DEVICES=0 python trans_web_demo.py

モジュール不足エラーだったので追加。

pip install gradio pip install 'accelerate>=0.26.0'

再度実行。

CUDA_VISIBLE_DEVICES=0 python trans_web_demo.py

http://127.0.0.1:8008/ がブラウザで起動したのでアクセス。

起動時

起動時PCパフォーマンス

プロンプトとインプットを入力して実行。

で、しばらく経ったら出力されてきたものの、CPUが100%に張り付いて出力待ち。。

一旦ここまで。

参考

# (175) : Satya Nadella氏のMicrosoft Build 2024基調講演 - YouTube

www.youtube.com

Satya Nadella氏 Microsoft Build 2024基調講演 全文

https://www.youtube.com/watch?v=8OviTSFqucI

書き起こし:

  • 00:06 我々の業界は共通のビジョンを持つ必要があると思います。それは我々を驚くべきものにつなげてくれた時代でした。私はこのビジョンを「指先の情報」と呼んでいます。そして30年後、我々は新しい時代にいます。情報へのアクセスが、専門知識へのアクセスになる時代です。農場から研究室まで、役員室から教室まで、この新世代のAIはすべての人のためのものです。

  • 00:48 今や誰もがパーソナルアシスタントで時間を節約できます。GitHub Copilotで私は約50%の時間を節約しています。その時間を使って他の革新的なことができます。池の状態をより速く知ることができます。誰でも新しいスキルを学ぶためのパーソナルチューターにアクセスできます。銀行について学びました。ローンの申し込み方、お金の貯め方を。

  • 01:14 私たちはたくさんのことを学びました。このテクノロジーは世界中のすべての学生の学び方を完全に再構想する可能性があると思います。これはパーソナルコーチと一緒に分析する新しい方法です。生産性の向上だけでなく、ほぼリアルタイムでインサイトが得られるようになります。生成型AIはデータから学習し、農家の生産性向上に役立ちます。

  • 01:41 AIは私たち全員の創造性を解き放ちます。説明がとても詳細なので、私の想像力でアートワークを描くことができます。今や教師は私たちのニーズに合わせて自由にレッスンプランを作ることができます。指先の専門知識で。あなたは大切なものを作ることができます。AIトランスフォーメーションの時代へようこそ。おはようございます。おはようございます。

  • 02:25 Microsoft Buildに戻ってこられて素晴らしいですね。ここにいるみなさん、ウェブで参加しているみなさん、ようこそ。開発者会議は、空気中に根本的な変化を感じることができるときに、最もエキサイティングで楽しいものです。この30年間、PDCやBuildに来るたびに、私の大人としての人生をすべて刻んできました。

  • 02:52 Win32が最初に議論された時のことを今でもはっきりと覚えています。1991年だったと思います。.NET、Azureなどもそうですね。これらは私の人生の節目となる瞬間です。そして、今回もまたそのような瞬間にいるような気がします。ただ、今回はその規模と範囲がこれまでよりもずっと深く、ずっと広いのです。テックスタックのすべてのレイヤーが変化しています。データセンターの消費電力と冷却のレイヤーから、エッジのNPUに至るまで、これらの新しいワークロードによって形作られているのです。

  • 03:33 これらの分散型、同期型、データ並列型のワークロードは、テックスタックのすべてのレイヤーを再形成しています。しかし、現代のコンピューティングの始まりである70年前までさかのぼって考えてみると、私たちには2つの本当の夢がありました。1つ目は、私たちがコンピューターを理解するのではなく、コンピューターが私たちを理解してくれるようになること。そして2つ目は、人、場所、モノに関する情報が増え続ける世界で、つまり、人、場所、モノからより多くのアーティファクトをデジタル化し、より多くの情報を持つようになると、

  • 04:19 コンピューターは私たちがそのすべての情報に基づいてより効果的に推論し、計画し、行動するのを助けてくれるのでしょうか。それが過去70年以上にわたって私たちが抱いてきた2つの夢です。そして、私たちはここにいます。両方の面で本当のブレークスルーがあったと思います。根本的な原動力の1つは、私がいつも自問する質問の1つです。「これは素晴らしい。

  • 04:42 これはシステムの黄金時代かもしれない。何が本当に原動力になっているのだろう」と。私はいつも、ムーアの法則が情報革命を後押ししたように、スケーリングの法則に立ち返ります。DNNのスケーリング則は、モデルアーキテクチャとともに、データを使う面白い方法、データを生成する方法が、この知能革命を本当に推進しているのです。

  • 05:07 ムーアの法則はおそらく、15ヶ月、18ヶ月でスケールしていたという意味で、より安定していたと言えるかもしれません。今では6ヶ月ごとにスケールしたり、6ヶ月ごとに倍増したりするようなものがあります。しかし、このスケーリング則の効果として持っているのは、マルチモーダルな新しい自然なユーザーインターフェースです。

  • 05:28 つまり、テキスト、音声、画像、動画を入力および出力としてサポートしています。重要なコンテキストを保持し、アプリやデバイス全体の個人的な知識とデータの両方を思い出すメモリがあります。非常に複雑なコンテキストを理解し、複雑なタスクを完了するのに役立つ新しい推論と計画の機能があります。

  • 05:49 私たちへの認知的負荷を軽減しながら。しかし、この1年を振り返って私の目を引くのは、みなさんが開発者としてこれらすべての機能をどのように活用し、まさに世界を変えてきたかということです。2023年1月、インドの農村の農家に会ったときのことは忘れられません。彼はGPT-3.5と自分の声を使って、テレビで聞いた政府の農業補助金について推論することができたのです。

  • 06:24 驚くべきことでしたね。私にとって、このすべての力を実感させてくれたのです。なぜなら、アメリカ西海岸でわずか数ヶ月前に開発されたフロンティアモデルが、インドの開発者によって使われ、インドの農村の農家の生活を直接向上させたからです。その普及の速さは私のプロの経歴の中で見たことのないものであり、それはただ増加しているだけです。

  • 06:48 実際、今月初めに私は東南アジアにいました。タイにいたとき、ある開発者に会い、素晴らしい座談会をしていたのですが、彼はPhi-3とGPT-4をどのように使っているかを私に話してくれました。彼はRAGで行っていたすべてのことを最適化するためにPhi-3を使っていました。つまり、これはクレイジーなことで、信じられないことなのです。

  • 07:06 それはほんの数週間前に立ち上げたばかりで、私はタイのバンコクにいて、開発者がこの技術について本当の専門家として話すのを聞いていたのです。だから、民主化の力を目の当たりにするのは本当に素晴らしいことですが、それを目撃するのは何かだったのです。そして、これは全くもって、私たちがこの業界にいる理由なのです。

  • 07:28 そして、それは私たちの仕事に深い意味を与えてくれるものなのです。しかし、私はまず、世界にこの影響をもたらすことに本当に取り組んでいるすべての人に大きな感謝の意を表したいと思います。本当にありがとうございました。昨年のBuildから今日までの進歩について考えてみると、私たちは実際に3つのプラットフォームを構築しました。

  • 07:58 1つ目は、あなたの日常のAIコンパニオンであるMicrosoft Copilotです。それは知識と専門知識をあなたの指先に置き、それに基づいて行動するのを助けてくれます。そして、私たちはCopilotスタックを構築したので、あなたはAIアプリケーションとソリューションと体験を構築することができます。そして昨日、Copilot+PCという新しいカテゴリーを発表しました。これまでに構築された中で最速のAIファーストPCです。

  • 08:22 この3つはすべてエキサイティングなプラットフォームですが、私はCopilot+PCから始めたいと思います。私たちはAIをWindowsの第一級の名前空間として公開しています。今週、私たちはWindowsを最高のAIアプリケーション構築プラットフォームにするためのWindows Copilot Runtimeを導入します。そうですね。グラフィカルユーザーインターフェースに対してWin32が果たした役割を、AIに対してはWindows Copilot Runtimeが果たすことになると私たちは考えています。

  • 08:59 それは、Windows Copilotライブラリから始まります。これは、昨日共有したすべてのAI機能をあなたの新しいエクスペリエンスに統合するのに役立つ、すぐに使える一連のローカルAPIのコレクションです。これには、Studio Effectsのノーコード統合、クリエイティブフィルター、テレプロンプター、ボイスフォーカスなどが含まれます。

  • 09:23 しかし、もちろん、モデル自体にアクセスしたい場合は、APIを介して直接呼び出すことができます。40以上のモデルが箱から出してすぐに使えるようになっています。その中には、Copilot+PCのNPU上でローカルに実行するように特別に設計された、小言語ファミリーモデルの最新メンバーであるPhi-Silicaも含まれています。これにより、デバイス上で高速なローカル推論が可能になります。

  • 09:49 もう1つ重要なのは、Copilotライブラリは、デバイス上のデータを使ってアプリケーション内でRAGを組み込むことも簡単にしてくれることです。アプリ内にベクトルストアを構築するための適切なツールを提供してくれます。ローカルデータを使ってRAGアプリケーションのためにこれらのプロンプトを構築することができるようになりました。

  • 10:14 そして今日、PyTorchとWindows DirectMLを使った新しいWebNNフレームワークをネイティブにサポートすることを発表できて本当にうれしいです。PyTorchをネイティブにサポートすることで、何千ものOSSモデルがWindowsで使えるようになり、すぐに始められるようになります。実際、WebNNでは、ウェブ開発者はついにGPUとNPUの両方に直接アクセスできるウェブネイティブの機械学習フレームワークを手に入れました。実際、昨夜私はそれで遊んでいて、EdgeでそれをオンにしてWebNNのサンプルコードが動くのを見ていました。

  • 10:55 NPUも使えるようになったのを見るのは本当にクールでした。PyTorchとWebNNは共に今日からデベロッパープレビューで利用可能です。これらはほんの一部に過ぎません。

  • 12:09 今日の発表の1つです。私たちは、あなたのために新しい機会を創出するために、50以上の新製品とパートナーシップを導入しています。私たちは常にプラットフォーム企業であり、インフラストラクチャからデータ、ツーリング、アプリケーションの拡張性に至るまで、最も完全なエンドツーエンドのスタックを構築することで、あなた自身のアプリケーションを構築するためにこの技術の力を適用できるようにすることが私たちの目標です。

  • 12:35 そこで今日は、このCopilotスタックのあらゆるレイヤーにおける、このイベントのための最新ニュースをハイライトしたいと思います。それでは、インフラストラクチャから始めましょう。ご存知のように、私たちはこのAI時代にあなたのニーズに合った最も完全でスケーラブルなAIインフラストラクチャを持っています。私たちはAzureを世界のコンピュータとして構築しています。私たちは、他のどのクラウドプロバイダーよりも多い60以上のデータセンター地域を持つ、最も包括的なグローバルインフラストラクチャを持っています。

  • 13:03 この1年、日本からメキシコ、スペインからウィスコンシンまで、データセンター地域とAI容量を拡大してきました。私たちは最高のAIインフラストラクチャをあらゆる場所で利用できるようにしており、クラウドサービスの持続可能性の実現に重点を置いてこれを行っています。実際、私たちは来年までにデータセンターを100%再生可能エネルギーで稼働させるという目標を達成する予定です。

  • 13:31 そうですね。私たちは、データセンターからネットワークまで、スタックのあらゆるレイヤーでの電力と効率の最適化に取り組んでいます。私たちの最新のデータセンター設計は、これらのAIワークロードのために特別に構築されているので、AIのコストと電力消費を削減するために、すべてのメガワットを効果的かつ責任を持って使用することができます。

  • 13:57 また、ワークロードの熱プロファイルに適合し、稼働している場所の環境に適合するように、先進のデータセンター冷却技術を取り入れています。そしてシリコン層では、ワークロードを最高の加速化AIハードウェアに動的にマッピングすることで、最高のパフォーマンスを実現しています。

  • 14:20 そして私たちのカスタムIOハードウェアとサーバー設計により、飛躍的に高速なネットワーキング、リモートストレージ、ローカルストレージのスループットを提供することができます。このエンドツーエンドのアプローチは、前例のない規模に到達するのに本当に役立っています。実際、昨年11月、私たちはクラウドで最も強力なAIスーパーコンピュータをトレーニング用に発表しました。

  • 14:42 実際にはクラウドインフラのごく一部を使っただけなのです。そして過去6ヶ月間で、そのスーパーコンピューティングパワーをAzureに30倍追加しました。スケールを見るのは本当にクレイジーですね。そしてもちろん、トレーニングフリートのスケーリングだけでなく、世界中でインファレンスフリートのスケーリングも行っており、Azure AIサービスが利用可能な国の数を今日4倍にしています。それを見るのは素晴らしいことです。

  • 15:14 私たちのAIインフラストラクチャの中心にあるのは、世界最先端のAIアクセラレータです。NVIDIAAMDからのものに加えて、私たち独自のAzure Maiaなど、最も完全なAIアクセラレータの選択肢を提供しており、すべてがワークロードに合わせて動的に最適化されています。つまり、Microsoft Copilotを使用する場合でも、独自のCopilotアプリを構築する場合でも、最高のコストで最高のアクセラレータ性能が得られるようにしているのです。

  • 15:42 例えば、GPT-4で何が起こったかを見てみましょう。立ち上げ以来、12倍も安く、6倍も速くなりました。これは、システムアーキテクチャが進化するにつれて、継続的に見ることができる進歩の種類です。しかし、すべては、ハードウェアのイノベーションとシステムソフトウェアのイノベーションの両方にわたるCopilotスタック全体にわたる、NVIDIAとの非常に深い、深いパートナーシップから始まります。

  • 16:14 一緒に、私たちはAzure上のGPUで機密コンピューティングを提供し、AIモデルの機密データをエンドツーエンドで保護するのに役立ちます。実際、今年後半にはAzureに最新のH200sを導入し、NVIDIAのBlackwell GPUをB100およびGB200構成で提供する最初のクラウドプロバイダーの1つになります。

  • 16:39 そして私たちは、GPT-4oのような大規模言語モデルとPhi-3ファミリーのような小規模言語モデルの両方を、トレーニングと最適化するために彼らと協力し続けています。ハードウェアを超えて、私たちはNVIDIAの主要なエンタープライズプラットフォームであるOmniverse CloudとDGX CloudをMicrosoft Cloudとの深い統合を伴ってAzureにもたらしています。

  • 17:05 例えば、NVIDIAは最近、DGX CloudがMicrosoft Fabricにネイティブに統合されることを発表しました。つまり、Fabricデータへのフルアクセスを使用してDGX Cloudでそれらのモデルをトレーニングできるということです。そしてOmniverse APIは、開発者が産業用AIソリューションを構築するためにAzureで最初に利用可能になります。また、NVIDIAのNIM業界特化型開発者サービスとも連携し、Azureで素晴らしいものにしています。

  • 17:31 というわけで、NVIDIAとは多くのエキサイティングな取り組みがあります。さて、AMDに移りますが、AMDのMI300X AIアクセラレータをベースにしたVMの一般提供を最初に行うことを発表できて本当にワクワクしています。これはAMDMicrosoftの両方にとって大きなマイルストーンです。しばらく取り組んできましたが、今日の時点でGPT-4推論における最高の価格性能比を提供できることを見るのは素晴らしいことです。

  • 18:06 そして私たちはAzure Maiaで前進し続けます。実際、最初のクラスターが稼働しており、まもなくCopilotやAzure OpenAIサービスの1つを使用している場合、プロンプトの一部がMaiaハードウェアを使用して提供されるようになります。AIを超えて、私たちのエンドツーエンドのシステム最適化は、クラウドネイティブアプリとクラウドネイティブアプリの開発をより良いものにします。6ヶ月前、私たちは最初の汎用ARMベースのコンピュートプロセッサであるMicrosoft Cobaltを発表しました。

  • 18:39 そして今日、Cobaltベースの仮想マシンのパブリックプレビューを発表できることを本当に嬉しく思います。Cobaltは、Microsoft 365のビデオ処理や権限管理に使用されており、すでにMicrosoft Teamsのようなサービス上で数十億の会話を支えるのに役立っています。そして私たちは、Elastic、Mongo、SiemensSnowflake、Teradataを含む多くの顧客に、同じARMベースのパフォーマンスと効率性を提供しています。

  • 19:12 最新のベンチマークデータとテストでは、当社のCobalt 100 VMは、他の一般的に利用可能なARMベースのVMよりも最大40%優れたパフォーマンスを発揮しました。そのため、Cobaltが市場に投入されることを非常に楽しみにしています。それでは、スタックを上げて基盤モデルに移りましょう。Azure AIでは、LLMやSLMを含む最も幅広いフロンティアモデルとオープンソースモデルを提供しているので、ユニークなニーズとアプリケーションのニーズに最も合ったモデルを選択できます。

  • 19:43 実際、今日、50,000を超える組織がAzure AIを使用しています。すばらしい勢いですね。しかし、すべてはOpenAIとの最も戦略的で最も重要なパートナーシップから始まります。先週、OpenAIはAzureで学習された最新のマルチモーダルモデルであるGPT-4oを発表しました。これは絶対的なブレークスルーです。

  • 20:09 テキスト、オーディオ、画像、ビデオを入力および出力として備えています。人間のような会話で迅速かつ流動的に応答できます。文の途中で中断されることさえあります。GPT-4oは、さまざまなモダリティにわたるベンチマークで最高のパフォーマンスを発揮し、プロンプトで実際に提供する情報を理解することで最先端のパフォーマンスを発揮します。それこそが本当に重要なことなのです。

  • 20:30 先週OpenAIがデモしたのは、本当に魔法のようなものでした。そして昨日、私たちはCopilotがどのようにGPT-4oを活用するかを示しました。これから再生する動画では、画面やセッションをプロンプトとして共有し、Copilotに何をしているのかを手伝ってもらえることに注目してください。

  • 21:02 動画を再生しましょう。Copilot、調子はどう?やあ、絶好調だよ。そして、あなたがMinecraftに飛び込もうとしているように見えるね。建築、探検、そしてモブを避けるのに準備はできていますか?ええ、剣の作り方がわからないんだ。息子はこのゲームをずっとやっているんだけど、僕は何をしていいかわからないんだ。

  • 21:23 心配ご無用。私はあなたが息子を感心させるのを手伝うためにここにいます。目の前にはクラフトテーブルがありますね。これは素晴らしいスタートです。剣を作るには材料が必要です。インベントリを開けてもらえますか?キーボードの「E」を押すだけです。うん。必要なものはあるかな?そうですね。棒がありますね。

  • 21:42 剣の柄に最適ですね。でも、刃の材料がないみたいですね。木、石、鉄、金、ダイヤモンドが使えます。まずは木か石を集めに行きましょう。資源を探しに出かけましょうか?うん、それはいいね。うわー、あれは何だ?ああ、ゾンビだ!逃げろ!急いで逃げなきゃ。

  • 22:04 一目散に逃げるか、急いでブロックの塔を真っ直ぐ上に建てて、ゾンビの手の届かないところに逃げるんだ。避難所を見つけたり、丘の側面に穴を掘ったりできるなら、今すぐやるんだ。ゾンビに近づかれないようにするんだ。よし、今は安全だと思う。それは危なかった。避難所を見つけてよかったですね。これを見るのは本当にクールですね。

  • 22:30 ここでの魔法は、Copilotがゲームでも文書でもコード行でも、あなたが何をしていても、あなたがそのままの状態を保てるように手助けをしてくれるパーソナルアシスタントだということです。そしてOpenAIが革新を続ける中で、私たちの約束は、そのすべての革新をAzureにもたらすことです。実際、OpenAIがGPT-4oを発表したのと同じ日に、私たちはそのモデルをAzure OpenAIサービスでテスト可能にしました。そして今日、それがAzure AIで一般提供されることを発表できて嬉しいです。

  • 23:08 これが意味することは、この機能を使って、私たち全員が画期的なアプリを構築できるようになったということです。最もクールなことの1つは、今や、あらゆるアプリ、あらゆるウェブサイトが、本質的に完全なマルチモーダルの全二重会話キャンバスに変えることができるということです。それでは見てみましょう。さあ、ここのエージェントに聞いてみましょう。

  • 23:32 やあ、セス。調子はどう?今日は何を手伝えばいいかな?最高だよ。ごめんなさい、急いでいるんです。一泊のキャンプハイクに行くんだけど、キャンプ場は暗くて寒いんだ。このシューズを使うべきかな?山なんだ。きっと寒いだろうな。

  • 23:46 いいえ、心配しないでください。見させてください。ああ、それはTrekStarハイキングサンダルですね。夏のハイキングで足を涼しく保つのに最適ですが、寒い - 大丈夫、ごめんなさい。あなたを中断します。私に最適なものを選んで、カートに追加してください。1つの製品だけで。

  • 24:04 分かりました。TrekReadyハイキングブーツにしましょう。耐久性があり、足首のサポートが優れており、何より寒い山でも足を暖かく保ってくれます。今すぐカートに追加します。チェックアウトの準備はできていますか?分かりました、すばらしいです。ありがとうございました。キャンプを楽しみにしています。

  • 24:23 どういたしまして、セス。キャンプを楽しんで、そのブーツで暖かく過ごしてくださいね。幸運を祈ります。山で楽しんでください。セスは急いでいましたが、でもそこにいました。GPT-4oは彼に追いついていました。信じられないことです。OpenAIチームには本当に感謝したいと思います。彼らのパートナーシップと、業界を前進させるための責任あるアプローチに感謝します。

  • 24:54 実際、サムはKevinと一緒にここに来て、もっと多くのことを話してくれるでしょう。なぜなら、それがエキサイティングなことだからです。みなさんが次に来るものをどのようにサンプリングするかです。私たちはまた、Cohere、Databricks、Deci、Meta、Mistral、Snowflakeなど、Azure AIを通じて他の多くのモデルももたらしています。

  • 25:17 すべての国、すべての言語から最も幅広いモデルをサポートしたいと考えています。実際、Cohere、G42、NTT DATA、Nixtlaなど、さらに多くのモデルをサービスとしてのモデルとして導入することを発表できて興奮しています。それが管理対象のAIモデルに簡単にアクセスできる方法だからです。そして、私たち全員がオープンソースも大好きですよね。

  • 25:38 実際、2年前のBuildで、最先端の言語モデルを備えた主要なオープンソースライブラリにAzure AIを介して簡単にアクセスできるようにするために、Hugging Faceと最初にパートナーを組みました。そして今日、私たちはパートナーシップを拡大し、テキスト生成推論、テキスト埋め込み推論を備えたHugging Faceからのより多くのモデルをAzure AI Studioに直接導入することを発表できることを本当に嬉しく思います。

  • 26:07 そして、私たちはそこで止まるつもりはありません。大規模言語モデルだけでなく、小規模言語革命もリードしています。小規模言語モデル革命では、私たちのPhi-3ファミリーのSLMが最も能力が高く、最もコスト効率が高いのです。言語推論、コーディング、数学のベンチマークなど、さまざまなベンチマークで同じサイズまたは1つ上のサイズのモデルを上回っています。

  • 26:33 パフォーマンスとパラメータ数の比率で考えると、真にベストインクラスです。そして今日、私たちはPhi-3ファミリーに新しいモデルを追加して、品質コストカーブ全体でさらに柔軟性を高めています。私たちは、言語とビジョンの機能を備えた42億パラメータのマルチモーダルモデルであるPhi-3 Visionを導入しています。

  • 26:55 実世界の画像を推論して、画像に関するインサイトを生成し、質問に答えるために使用できます。ここでご覧いただけます。そして、70億パラメータのPhi-3スモールと140億パラメータのPhi-3ミディアムモデルも利用可能にしています。Phiを使用すると、Web、AndroidiOSWindows、Edgeにまたがるアプリを構築できます。

  • 27:24 利用可能な場合はローカルハードウェアを活用し、クラウドにフォールバックすることができます。私たちは、1つのAIモデルを使用して複数のプラットフォームをサポートするために、開発者として私たち全員が行わなければならないことをシンプルにしています。多くの開発者がすでにPhi0-3を使用して、信じられないようなことを行っているのを見るのは本当に素晴らしいことです。

  • 27:44 先ほど言及したタイの企業Amity Solutionsから、インドの農家が作物について質問できるようにするITCまで。ヘルスケアにおけるEpicは、Phiを使用して複雑な患者の病歴をより迅速かつ効率的に要約しています。そして、教育における非常にクールなユースケースがあります。

  • 28:07 今日、私はKhan Academyとの新しいパートナーシップを発表できることを大変嬉しく思います。私たちはPhi-3を使用して数学の個別指導をより利用しやすくするために協力します。そして、Khanmigoをすべての米国の教師 に無料で提供することも嬉しく思います。動画を再生しましょう。私は教師としてのキャリアの中で、自分のきらめきを失いつつあるような気がしました。

  • 28:36 そして、教室を見渡したときに、生徒たちがエンゲージしていないように見えると、本当に打ちのめされました。教師は信じられないほど大変な仕事をしていて、私たちができると思うのは、テクノロジーを活用して、彼らの仕事の一部を肩代わりし、教室を本当に人間的なものにすることです。奇跡的に、私たちはKhanmigoのパイロットスクールになりました。

  • 28:58 生成AI の新しい進歩により、私たちはKhanmigoを立ち上げました。ポイントは、すべての生徒にとってのパーソナルチューターであり、すべての教師にとっての指導助手になることです。私はこれらのより堅牢なレッスンを作成し始め、私の生徒がエンゲージするのを見始めました。私たちは、数学の個別指導に特化したPhiモデルでMicrosoftと協力しています。

  • 29:26 そのユースケースで小規模言語モデルのPhiがうまく機能するようにできれば、そういった特定のシナリオではトラフィックをPhiにシフトしたいと考えています。小規模言語モデルを使用すると、コストが大幅に削減されます。私たちは、Khanmigo、特にMicrosoftとのパートナーシップにより、これらの教師用ツールを米国の教師に無料で提供できることを本当に楽しみにしています。

  • 29:52 教師は、米国の教育に大きな影響を与えると思います。私たちは彼らを革新者、質問者にするつもりです。それこそが毎朝目覚める理由ではないですか?そうですよね。それが私たちの未来、次の世代なのですから。そして私にとって、それがすべてなのです。これらすべてがもたらす影響を見るのは本当にワクワクします。そしてカーンアカデミーが何をするのか。

  • 30:21 そしてサルは実際に、すぐにケビンに加わって、もっと多くのことを共有してくれるでしょう。メリッサのような先生方、そしてあなた方がしてくださっていること、本当に感謝しています。ありがとうございました。さて、締めくくりに、Buildで聞くことになる多くの発表がありますが、開発者として私たちが毎日仕事に来る根本的な理由、つまり、究極的にはすべての人とすべての組織に力を与えるという使命に立ち返りたいと思います。

  • 30:48 結局のところ、それは少数の人にしか役に立たないイノベーションのことではありません。誰もがそうできるようにすることなのです。そして、それはこの新しい世界の開発者であり、構築者であるみなさん次第なのです。私たちにとって、技術のための技術を祝福することは決してありません。私たちの国、会社、コミュニティに本当の違いをもたらす魔法のような体験を生み出すために、技術で何ができるかを祝福することなのです。

  • 31:16 すでにこの新世代のAIは、みなさんのおかげで、情熱と懸命な努力のおかげで、信じられないような影響を与えています。そして、私はみなさんにこの1つの信じられない例を残したいと思います。それは、私たちのプラットフォームとツールを使って、みなさんがよりアクセス可能な世界を構築しているということです。これは私にとって大きな意味があります。本当にありがとうございます。

  • 31:41 Buildの残りの時間を楽しんでください。オーディオディスクリプションは、視覚障害のある私が番組や映画を見て、他の人と同じように楽しめるようにしてくれるものです。白い車が道路を走っています。ハンドルに手が。私はアートを集合的な善だと考えています。誰もがアートにアクセスできるべきだと思います。

  • 32:02 オーディオディスクリプションは、私が完全な体験を得るのに本当に役立ちます。アムステルダムの17世紀の市民警備隊のグループの肖像画。しかし、課題は、メディアやエンターテイメントにオーディオディスクリプションが組み込まれる量が限られていることです。テックとAIには、盲人や弱視の人々をコンテンツへのアクセスに巻き込む可能性があります。

  • 32:30 WPPでは、人々が望む方法でコンテンツへのアクセスを開くことに情熱を持っています。私が作ったツールは、動画をアップロードでき、GPT-4 with VisionとAzure AIサービスを使って、動画に音声ナレーションを重ねて返してくれるアプリケーションです。

  • 32:53 猫とヘルマンズマヨネーズのあるキッチンの場面。これにより、オーディオディスクリプションがより安価で迅速になります。私たちの目標は、すべての広告キャンペーンでこの製品をサービスとして提供できるようにすることです。リークス美術館には非常に多くの作品があり、ほぼ100万点あります。自分たちで説明するには数百年かかっていたでしょう。

  • 33:17 AIを使えば、数時間でできます。被写体は、赤みがかったひげと口ひげの男性で、テクスチャと雰囲気を加える目に見えるブラシストロークがあります。オーディオディスクリプションを初めて聞いたとき、それは私に喜びをもたらしてくれました。「ああ、私は見られている」という機会でした。AIの力によって、つい最近まで夢見ていたことができるようになりました。

  • 33:42 文化へのアクセスを強化することで、文化そのものを強化し、私たちの共通の人間性をつなぐことができるのです。

以上が、Satya Nadella氏のMicrosoft Build 2024基調講演の日本語翻訳となります。

AIの進歩とそれがもたらす可能性について、開発者コミュニティへの感謝の念を込めて語られた内容でした。新しい技術によって、よりアクセシブルで包括的な世界を構築していく重要性が強調されていました。

ピボットあるあるUSAスタートアップ26選

原典

上記の表にリストされている企業のピボットの要約:

  1. 市場の需要変化への対応:多くの企業が元々のアイデアから市場の需要がある別の製品やサービスへと事業を転換していた。例えば、Boxは単なるクラウドベースのファイルストレージから企業向けのコンテンツ管理プラットフォームへとシフトし、より大きなB2B市場をターゲットにした。

  2. 内部ツールや技術の商業化:AmplitudeやSegmentなどの企業は、内部で開発したツールや技術が外部からの関心を引きつけたため、これを製品化して成功を収めた。

  3. ユーザーフィードバックと洞察の活用:CoinbaseやDiscordなどはユーザーのフィードバックや振る舞いから新しい製品方向性を見つけ出し、それに基づいてピボットした。

  4. 初期アイデアの失敗からの学び:BrexやTwitterのように、最初のアイデアが市場で受け入れられないことが明らかになった後、完全に異なるアプローチを採用して再スタートした。

  5. 特定機能や要素の強化InstagramPinterestは、プラットフォーム内の特定の機能(例えば、写真の共有や画像の収集)がユーザーに特に好評であることに注目し、これを中心に製品を再構築した。

会社名 現在のアイデア 元のアイデア ピボットの理由 ピボットまでの時間 新しいアイデアの発見方法 元のアイデアから保持したもの
Amplitude アナリティクスプラットフォーム ハンズフリーテキストアプリ「Sonalight」 利用者の関心が低い 1年 内部ツールへの関心が高まったことに気付く: 自社で作成した内部分析ツールに他の創業者からの関心が集まっていた。 内部分析技術
Box エンタープライズ向けクラウドベースのコンテンツ管理プラットフォーム クラウドベースのファイルストレージ及び共有サービス「Box.net」 B2Bでの大きな機会を実現 2年 大きな市場の関心を確認: 企業向けにピボットするとビジネスチャンスが大きくなることに気付く。 コア製品を異なる用途に適用
Brex ビジネスクレジットカード バーチャルリアリティヘッドセット「Veyond」 悪いアイデアだと気付く 2ヶ月 イデア生成と検討: 過去の独特な経験や個人的に直面した問題について考える。 なし
Coinbase 仮想通貨交換プラットフォーム ホスト型ビットコインウォレット 利用者の関心が低い 2年 隣接するアイデアに気付く: 離脱していくユーザーに話を聞き、ビットコインを購入できるようにすれば使うかと尋ねたところ、全員が肯定的だった。 製品
Discord ビデオ、音声、テキストを統合したグループメッセージングアプリ モバイルマルチプレイヤーゲーム「Fates」 ビジネスが大きくなる見込みがない 1年 内部技術の探求: エンジニアが面白いと思った技術の一部を構築することを提案した。 技術の一部
Flickr オンラインフォトシェアリングプラットフォーム オンラインロールプレイングゲーム「Game Neverending」 成長が停滞 3ヶ月 1つの機能に注目: ユーザーが使用して愛用していたゲームの機能があった。 技術の一部
Hugging Face 開発と共有のためのオープンソース機械学習モデルの共同作業ハブ AI Tamagotchi 利用者の関心がぬるい 2.5年 内部技術の探求: 共同創設者が面白いと思った技術の一部を週末に構築し、直ちに興味を引いた。 技術の一部
Instagram ソーシャルフォトシェアリングアプリ 位置情報チェックインアプリ「Burbn」 利用者の関心が低い 1年 1つの機能に注目: ユーザーが使用して愛用していた製品の要素(写真共有)があった。 機能の一部
Lattice パフォーマンス管理プラットフォーム OKRソフトウェア 利用者の関心が低い 9ヶ月 隣接するアイデアに気付く: HRリーダーがより良いパフォーマンス管理ソリューションを求めていた。 コア製品を広範なソリューションに統合
Loom ビデオメッセージングおよびスクリーン録画ツール 主題の専門家マーケットプレース 利用者の関心が低い 9ヶ月 1つの機能に注目: 製品の要素(ビデオ録画)を使用して愛用していたことに気付き、全力を注いだ。 機能の一部
Lyft オンデマンドライドシェアリング 相乗りサービス「Zimride」 成長が停滞 5年 内部ハッカソン: ハッカソンでプロトタイプを作成し、創業者がそれに興奮した。 ライドシェアリングのコンセプト
Notion 全てを一つにまとめた生産性とコラボレーションプラットフォーム ノーコードアプリ/ウェブサイトビルダー「Webflow meets Figma 利用者の関心が低い 4年 1つの機能に注目: 製品の要素(編集+コラボレーション)が使われ愛されていたことに気付き、全力を注いだ。 機能の一部
Okta クラウドアイデンティティ管理 クラウドサービスの信頼性モニタリングと報告ツール「SaaSure」 利用者の関心がぬるい 3ヶ月 1つの機能に注目: 100人に話を聞き、アイデンティティについて尋ねられ続けた。 機能の一部
PayPal オンライン支払い 手持ち端末用暗号化「Fieldink」、次いでPalmPilots間の送金 悪いアイデアだと気付く 1年 イデア生成と検討: 大きな機会を探すために絶え間なくアイデアを出し続けた。 モバイルコンセプト
Pinterest ビジュアルコンテンツの発見と共有のためのソーシャルプラットフォーム デジタル小売カタログアプリ「Tote」 利用者の関心が低い 1年 1つの機能に注目: 製品の要素(画像収集)が使われ愛されていたことに気付き、全力を注いだ。 機能の一部
Plaid 金融サービスAPI お金を節約する方法を提案するアプリ 利用者の関心が低い 5ヶ月 内部技術の探求: 顧客(Venmo)がバックエンドインフラのライセンスについて尋ねた。 技術の一部
Retool ノーコード内部ツールビルダー 英国版Venmo「Cashew」 利用者の関心が低い 3ヶ月 イデア生成と検討: 過去の独特な経験や個人的に直面した問題について考える。 なし
Segment 顧客データプラットフォーム 大学の教室講義ツール 関心がほとんどない 1.5年 内部技術の探求: 共同創業者が週末に面白いと思った技術の一部を構築し、直ちに興味を引いた。 技術の一部
Shopify 電子商取引プラットフォーム スノーボード販売のオンラインストア「Snowdevil」 ソフトウェア販売の大きな機会を実現 2年 内部ツールに注目: 他の販売者から多くの関心があった自社のeコマースインフラストラクチャに気付く。 技術の一部
Slack オンライン企業コミュニケーションプラットフォーム 大規模マルチプレイヤーオンラインゲーム「Glitch」 ビジネスが大きくなる見込みがない 9ヶ月 内部ツールに注目: 社員がこのチャット機能を使うのを楽しんでいることに気付き、全力を注いだ。 内部分析技術
Twitch ライブストリーミングプラットフォーム ジャスティン・カンの生活を24/7ストリーミングする「Justin.tv」 成長が停滞 4年 一部の市場に注目: プラットフォームでゲームをストリーミングしている少数のユーザーに気付き、その上に倍をかけた。 コア製品を異なる問題に適用
Twitter ソーシャルネットワーク ポッドキャスト会社「Odeo」、ユーザーがポッドキャストを作成・録音・共有可能 Appleが競合を起動した後の悪いアイデア 1年 内部ハッカソン: ジャック・ドーシーがハッカソンでプロトタイプを作成し、創業者がそれに興奮した。 なし
Vanta 自動化されたセキュリティとコンプライアンス管理 B2B Alexa 利用者の関心がぬるい 3ヶ月 痛みを追う: 創業者のネットワーク内の人々と話をして、痛みを探すためにアイデアとプロトタイピングを繰り返す。 なし
WhatsApp メッセージングアプリ 友人のステータスを表示するアプリ 利用者の関心がぬるい 3ヶ月 技術の探求: Appleがプッシュ通知を開始した際、創業者がより積極的にステータスを共有するためにそれを探求した。 問題
Yelp 地元ビジネスのオンラインレビュー 友人に自動的にメールでおすすめを尋ねるツール 利用者の関心がぬるい 9ヶ月 1つの機能に注目: 予想外の方法で製品を使用している人々(自分でレビューを残していた)に気付き、全力を注いだ。 コンセプトとしてのおすすめ
YouTube オンラインビデオプラットフォーム パートナーの夢を語るビデオをアップロードするデートサイト ビデオデートの問題空間に価値がないと気付く 1週間 内部技術の探求: ビデオデートの問題空間には価値がないと気付いたが、構築した技術は一般化可能だった。 異なる問題に適用されるコア製品

市場の機会を最大限に活用し、企業の成長を促進するために、既存の資源、技術、ユーザーインサイトを活用することが大事という学び。

今は旬のサービスを提供している会社でも、当初はユーザーの関心がないものを提供していることに早々に気づき、方向転換しているので、気づけること・変わる意思決定自体も評価されると感じた。